我要提问

200

信息研究

智能运维平台在保险资管公司中的探索与应用

文丨百年保险资产管理有限责任公司


引读:

在当今数字化转型的大环境下,IT架构比以往规模更大、复杂度更高、所涉及的数据正在海量增长。此变化导致现有以人工为主的运维方式变得更加困难,具体表现为问题定位难、排查耗时长、人工负荷大。因此,寻找到一种能够当下辅助运维人员准确定位问题的工具显得尤为重要。


百年保险资产管理有限责任公司(以下简称 “公司”)在解决道路的探索中,引入了智能IT运维技术(AIOps)。此技术利用计算优势,敏捷处理海量、实时、多样性的数据,并主动发现系统异常,给予准确的问题定位。结合现状,先从日志监控入手,探索此技术与业务系统的对接,将其功能尽快为运维赋能。


经过自动化运维平台的一期建设,公司日常业务系统都已与平台完成对接,已实现系统问题的自动监测、感知,并缩短了排查耗时,达成初级阶段的自动化运维。

 


一、自动化运维项目背景

随着金融业务信息化、自动化、数字化进程的发展,日常所必须应用的系统数量与其相应产出的数据量都在不断增长,导致运维工作面临着以下几个方面的困扰:


一是问题排查耗时增加。当前问题排查的过程多半以人工查看日志为主,由于日志数量过多且分散,导致排查工作耗时较长。当发问题生时,运维人员平均会耗费约80%的时间去排查问题发生的原因,而找到原因后,问题通常又能在短时间之内得以解决。而在实际工作中,业务人员对于IT运维的时效性需求又在不断增加。这种被动“救火”不但使IT运维人员终日忙碌,也很难满足业务对IT运维时效性的要求。


二是运维人力负荷增大。在面对海量的运维数据时,对于以人工为主的运维方式而言,大量的人力投入和精细化的分工可以暂时解决现有问题,这也是头部机构的优势所在。而对于中小机构而言,因自身人力投入有限,依靠现有的运维团队从海量数据中挖掘故障原因已变得愈发力不从心。


三是运维工作难度增加。系统架构的复杂性使得问题排查难度上升。除了数量增长外,系统间的交互关系也变得越来越复杂,如业务所需的反洗钱黑名单同步的功能,其涉及到了反洗钱、TA、直销等多个系统,一旦出现问题,需要各个系统间协同合作,对于问题的快速解决增加了不小的难度。随着新业务场景的不断增多,日常运维工作迎来了不小的挑战。


因此,运维团队需求找到一种能够辅助其工作的自动化工具,一方面可以弥补人工数量上的不足,另一方面又可以帮助运维人员快速进行系统问题定位,降低运维难度,从根本上提升运维效率。


经调研,在2016年,全球知名IT咨询机构Gartner提出AIOps的概念,即利用计算机算法(Algorithmic IT Operations)或人工智能(AI IT Operations)等技术来改进和增强IT运维的能力。如下图所示,此技术的定义为打造多层次技术平台,其技术包含大数据、算法分析、机器学习、自动化等,实现业务系统的实时以及全面监测。当前,AIOps的技术在大型国际金融企业以及国内部分银行已有成功落地案例,但在资管这种处于数字化转型初期的行业中仍处于探索阶段。

1666081686334046057.png


在AIOps的框架中,数据积累以及机器学习训练都需要投入大量的时间与精力,其涉及多个技术领域。通过当前运维现状的分析,先从日志数据分析入手,搭建自动运维平台,完成最小可行性产品落地,为运维工作快速赋能。其功能主要包括对日志数据的采集与存储,并对此类数据进行切片分析,从而将系统异常内容以及历史相关解决方案等信息推送至运维人员实现告警。此平台的建设,可以帮助运维团队大量减少问题排查时间,有效提升运维工作的效率。


二、系统关键技术与项目中的实践

自动运维平台的功能,需以业务系统所产出的日志数据做为数据源,对此数据进行统一收集、存储、清洗、分析与建模。而后针对已处理的数据形成监测指标,并经过一系列算法实现平台告警以及其它功能与价值。


1666081725956009381.png


(一)多样性的日志采集

日志数据的采集流程主要包括日志的采集、传输、存储以及切片处理。平台利用CDC进行业务系统的数据采集,并通过Kafka进行数据传输。所采集的数据将汇集到数据库中,此数据库内包含了HDFS、Kafka、Zookeeper以及Spark,从而实现汇集后的存储与建模工作。此外,数据在采集任务创建时以及服务端数据获取与处理时,对数据采集和汇集两个步骤中增加ETL过程,从而将数据进行质量标准检验。因各个系统的日志格式以及内容存在差异,因此在数据采集后,须经切片处理,将所采集的数据清洗并归一化,从而将有效数据存入相应的数据表。

1666081793649094431.png


(二)多维度的指标生成与管理

在数据存入数据表后,此数据虽已可以被随时利用,但在实现真正的平台自主监控功能之前,还需将其转化成相应的有效监控指标。指标的建设需考虑全局化系统覆盖,因此将大量的监控指标进行分层化管理、并将其评价化定义可以使管理工作变得井井有条。分层化的指标梳理,主要是通过层次分析法将监控要素,包括应用、服务、数据库、主机等进行分类,然后将各监控要素进行整合并建立起的矩阵关系。而指标价值定义,是将已配置的监控指标定义其采集方式、采集频率、数据类型、触发条件以及告警级别等,从而确保采集的数据指标准确、可靠。同时针对此类指标对于系统的影响进行权重分配,确认该指标在相应系统中所占重要性的比重,从而更系统性地对指标进行管理。

1666081895659086827.png

(三)可配置的监测算法

经过一系列数据采集、处理、存储并形成相应监控指标后,平台将利用所配置的监控指标,结合一系列监测算法体系,例如利用数据关键字段分析、spark建模、关联性分析等,从而实现平台感知异常并告警,使平台发挥真正的价值。具体的功能表现为:通过对业务系统所产出的日志进行关键字段分析,从而对异常施行实时监测;通过监控海量的实时数据与其产生的历史数据进行关联分析,利用spark建模进行决策推导与权重分析快速定位问题原因;最终,基于知识图谱技术建立庞大的运维知识库,通过问题事件的关联推荐,把相关性较高的历史解决方法与经验推送给运维人员,实现快速解决故障的知识支撑。

1666081935579062372.png

 

三、应用现状与未来展望

(一)平台应用现状

自2020年11月自动运维平台初步建成以来,已通过其高效的数据传输、精细的算法以及良好的数据管理体系,已初步在问题发现、智能警告、故障诊断和风险预测这几个日常运维应用场景中实现。投入使用后,自动运维平台正逐步发挥出的它的价值:平台当前能够施行自动、实时、全天候的业务系统数据监控。当某系统发生故障时,平台能够及时定位该故障并将其内容、日志与相应得历史解决方案以邮件、短信、钉钉等方式推送给相关的运维人员;平台也可实现将与故障相关度较高的其他潜在问题进行关联分析并提前预警。此外,平台通过对监测指标进行加权算法,形成实时健康度监测,并对其进行24小时不间断展示。运维人员可以通过对健康度的监测,主动发现系统中某个指标的故障,并将其及时解决。此功能极大程度地维持了业务系统的连续性,真正实现了从被动运维到主动运维的转变,发挥了平台的能力与价值。另外,健康度监测当前同样支持运维晨检。曾经运维人员每天上午都会花费近一小时时间来逐个筛查系统从而检测是否有故障发生,但现在只需观看一眼展示界面就可以完成全部的晨检工作,将晨检效率提高了99%。

1666081973723047461.png


至今,平台上已纳管10多套业务系统,积累数字化运维指标161个,形成知识库3500余条。在异常发生后,通过平台现有的功能以及指标数据,并结合可视化图表进行异常分析,故障原因排查时间可从原来平均1.5小时缩短至10分钟。与此同时,相关知识库的推荐也将故障解决的效率提高了50%,并实现95%的当日问题解决率。种种数据表明,当前的自动运维平台已经在很大程度上解决了曾经运维的痛点,帮助运维工作逐步实现数字化转型。


(二)场景应用实战价值案例

随着自动运维平台的投入使用,其对于IT运维工作的价值正在逐步体现。根据业务需要,交易系统都在每日开市前完成相关资讯数据的接入,若出现异常会影响当天的交易。为了保障业务的正常开展,运维人员需要每天逐一登陆服务器进行晨检,确认数据已经完成下载。在引入健康度指标后,自动化运维平台可通过日志分析获得资讯数据接入情况,优化了整体的工作效率。具体有如下结果优点:


一是缓解晨检压力。引入自动化运维平台后将原先的人工检查逐步切换至系统自动监控,减少了每日晨检的耗时。


二是整体监控效率提升。将每日资讯数据接入情况等监控内容纳入自动化运维平台后,避免了人为检查可能出现的遗漏,增加了监控的整体性。


三是加强预警直观性。通过健康度展示功能直接展示各个系统的状态,让运维人员能够直观了解开市前系统准备工作的状态。


(三)未来建设展望

智能运维平台的一期建设已实现初期的自动化日志分析与应用,能帮助运维人员快速、准确、有效地定位并解决故障。但结合实际应用需求,仅是业务系统的日志分析还是远远不够的。例如网络服务器、操作系统等基础架构的监控数据接入智能运维平台,并对其进行分析建模,实现预警等功能,已被纳入新的需求范围。此外,作为第二期的技术建设目标,将着重聚焦在数据处理与数据智能算法的建设。以机器学习、人工智能和大数据技术为典型特征将成为该平台的建设方向,其两大基本特征包括利用各种数据提供事件响应和问题处理流程的智能建议,与实现可重复操作和执行任务的自动化能力。而所需落地的关键技术则包括:利用机器学习完善知识图谱进一步提升数据关联与分析、完善NLP技术的适用性、以及应用流式大数据处理技术实现问题的秒级响应。在此基础之上,平台仍需积累大量的数据并针对相关数据构建数据场景供机器训练,形成完整的智能运维能力体系。此外,在中长期规划中,智能平台将被打造为公司的运维核心平台,因此后续将其它工具例如Zabbix、APM、NPM、SMDB、工单系统、知识库等接入此平台,进行统一门户、指标、告警管理,最终实现提升智能运维服务力,布局全平台、全链路的智能运维,全面推进数字化转型的目标。