老杨说运维 |统一监控的现状需求与实现目标分析

前言:

老杨,擎创科技创始人兼CEO。作为从业20年以上的运维行业老兵,在不断的实践过程中看到客户需求侧出现了诸多变化。特别在疫情之后,企业级客户的需求呈现两方面的变化。

1.环境变化驱使业务变化。受疫情影响,很多业务只能在线上开展,倒逼企业对数字化转型的步伐速度提出了更高的要求。

2.业务量猛增。由于大量业务在线上进行,运维工作负荷变得巨量化、复杂化,运维工作的效率亟需得到提升。

那么这些变化意味着什么?从这些变化的角度来看,未来运维建设应该怎样做?它的趋势又如何?请听老杨细细道来。

一、智能运维的发展现状和趋势

从2018年至2020年,很多企业客户刚刚了解到智能运维,认为算法加上传统运维即是智能运维,提出的需求多为点状的、尝试性的,比如告警抑制、指标异常检测、交易多维分析、趋势预测、容量预测、根因定位和故障自愈等。随着实践的加深,在2020年下半年到2022年,智能运维建设的立项出现了更多的变化,点状的场景建设逐渐向运维数据治理转变。以银行为例,某些国有大行、股份制商业银行、农信银行、城市商业银行等,在建设统一运维平台或运维数据中台时,逐渐把数据治理作为其中一个重要的需求,在建设过程中不再是完成告警的无机结合,而是把过往的点状需求融合进新的平台建设里,逐渐把AIOps作为一种扎实落地的场景进行实现。

十四五期间,人民银行及银保监会印发了《金融科技发展规划(2022-2025年)》,其中第一次提到运维大数据态势感知这一新概念,指的是要去构建以运维大数据态势感知能力为基础的统一监控平台,要求全方位监测到科技运营状况。同时,2021年初Gartner提出了全面可观测性的新思想,这与运维大数据态势感知实际上是类似的概念。这意味着,近几年的智能运维建设将围绕此概念进行展开。

二、为什么企业迫切需要统一监控?

天下大势,分久必合。随着数字化进程的加深,企业在分治了很久以后,开始进入到统一运维管理的阶段。由于“分久”,出现了敏稳两态不同的专业领域,传统企业运维的历史包袱很重,一些稳态的核心应用无法完全转移到敏态环境中,因此导致了数据的多样化、复杂程度极高等特点,比如日志数据、告警数据、调用链数据、拓扑数据以及流程产生的信息数据等,导致分治变得十分麻烦。另外,这些繁冗复杂的数据视角各异,没有可以从某一种业务视角或组件视角去看多样化工具的能力,加之混合云的出现,很多业务转移到公有云或私有云上,使得数据孤岛状态加重,治理起来更加困难。

我们从几个国有大行以及国资背景的物流企业的真实实践中,总结出来的相似典型需求如下。

三、现状需求与实现目标分析

1.现状需求——国有大行

总行方面

  • 支撑应急抢修等跨专业领域运维场景的力度不强
  • 支撑云等新技术的转型发展不够
  • 依赖厂商产品,数据壁垒严重

分行方面

  • 监控覆盖不全,颗粒度不够
  • 缺乏统一规划,也没有数据分析、智能化演进的规划
  • 全行运维标准不统一,运维经验无法共享、沉淀

2.现状需求——物流领袖

  • 监控工具种类繁多,缺乏全局视角,难以整合
  • 运维监控数据快速增长,尚未有效整合
  • 缺少智能运维分析手段,联动能力不足
  • 欠缺知识共享系统,未能对运维经验有效积累

需求总结:希望有一种手段能够通过人机合作的方式来完成知识的共享,把人的能力逐渐地变成一种组织和平台的能力。

3.实现目标——国有大行

  • 完成运维工具的一体化转型
  • 覆盖云上云下全技术栈
  • 实现工具建设自主可控,符合信创标准
  • 支撑全行运维智能化转型升级

4.实现目标——物流领袖

  • 整合监控数据及工具,提升统一协作的能力
  • 以解决实际运维问题为目的,实现智能监控
  • 化被动排障为主动清障,挖掘数据价值
  • 基于信创要求,对运维相关技术栈完成逐步替代

因此,统一监控一定是一种必然的趋势即分久必合的趋势。它能够兼顾到云上云下所需要的部署模式,兼容传统环境的垂直管理需求,进而形成一致的数据标准,包括指标体系、日志规范、标准化告警等,实现以运维对象为视角,从业务到系统直至基础资源自上而下的统一观测、统一采集和统一监控。并且,在完成统一的过程中,做好信创的替换,具备对国内信创环境的兼容,实现国内自主生态合作。


更多运维思路和案例我们将持续更新,敬请期待~

关注我们,更新不迷路~

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>