智能运维在各行各业的应用情况如何?
时间:2022-12-01
关键字:智能运维,运维自动化
智慧运维作为当前备受关注的技术领域,在Gartner的报告中也给出预测:2020年,智慧运维会在一半以上的企业中落地并形成生产力。
在高利润、低成本的驱动下,智能运维也成为各行各业研究的热点,互联网公司、金融机构、IT技术公司都纷纷走在了智能运维研究和应用的前列。
(1)科研机构
科研机构一向是新技术革命的领头羊。在智能运维研究领域,国内外科研机构不仅有先进的科研成果,也与工业界展开密切合作,从算法层面上支撑了智能运维的落地与发展。
卡内基梅隆大学与Netflix公司合作,在网络视频运维领域提出并应用多种人工智能方法:利用不同数据分析及统计分析方法,灵活使用可视化、相关分析、信息熵增益等工具,将杂乱无章数据转化为直观清晰信息,从而分析海量数据背后视频体验不佳的规律和瓶颈。
双方共同设计了视频传输智能优化方案,可根据客户的网络状态,动态地优化视频传输;通过决策树模型建立用户参与度的预测模型,指导关键性能指标的优化策略,改善用户的体验质量。
南京大学周志华教授团队专注于机器学习算法的研究,所提出的isolation forest孤立森林算法可用于挖掘异常数据,检测和分析异常。
清华大学NetMan智能运维实验室则专注于异常检测、分析与预测,提出了多种算法和工具。
(2)互联网行业
阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。通过时间序列分析和机器学习,对未来一段时间的业务指标趋势进行预测。
针对业务异常时间,自动调用各类型AP接口实现一键切换,快速恢复业务异常。并针对业务异常事件自动拆解相关维度,逐层剥离定位故障原因。
目前该平台已经在阿里云上成功实践,故障发现准确率、故障发现召回率分别提升到80%和90%,每周节省因为误报而花费的操作时间约为29小时。
百度实现了基于智能流量调度的单机房故障自愈能力,将止损过程划分为统一的感知、决策、执行三个阶段,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力。
京东金融实现了基于网络拓扑的根源告警分析,结合调用链,通过时间相关性、权重、关联规则算法、神经网络算法等,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。
京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。
腾讯在其织云监控平台中建设了基于机器学习的时间序列异常检测方案,在百万条基于时间序列的日志信息中,以少量的时间实现了异常检测。
(3)金融行业
交通银行通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储。通过关联分析、建模预测等方式发现日志、告警信息中潜在联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障。
中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,对系统日志、应用日志、监控数据和网络镜像包等全量数据进行集中存放和处理,并在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。
太平洋保险在智能运维方面实现了告警收敛,将多个告警做汇聚合并和主源分析,还开展了云脑项目以实现业务趋势预测和容量管理功能,还开发点点2.0 APP,实现风险监测和智能交互等功能。
阳光保险利用大数据和机器学习,实现了智能巡检、报警聚合、故障自愈及故障避免、自动发版与止损等多项功能。招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。
上海银行张江数据中心启用了智能巡检机器人,对设备运行状态、机房环境、机柜微环境实时监测,保证数据中心状态实时可视、可控及数据的准确性。