从人工配置阈值到机器学习自动学习,从被动告警到主动预防,运维模式的革命性升级。
OpsForce AID 逐一破解传统监控告警的痛点问题。
业务系统有明显的高峰低谷特征,固定阈值无法适应这种周期性变化。高峰期阈值太低告警泛滥,低谷期阈值太高遗漏异常。
传统监控阈值设置过细导致告警太多,运维人员疲于应付。真正重要的告警被淹没在海量告警中,故障发现被延误。
内存泄漏、磁盘空间缓慢增长等趋势性问题,需要很长时间才会触发固定阈值告警,但等触发时往往已经造成严重影响。
业务不断变化,监控阈值需要频繁人工调整。运维人员疲于调整参数,大量时间消耗在配置维护上,效率低下。
基于机器学习的智能检测能力,让运维更智能、更高效。
主动识别短、中、长期的基线、突变、趋势特征异常。如内存泄漏等趋势性问题,在演变成故障前提前预警,防患于未然。
动态基线自动预测下一个数据点的合理范围,根据最近数据智能调整阈值。有效减少固定阈值带来的误报和漏报现象。
自动分析数据的趋势性、周期性、无序性特征,智能选择合适的算法进行预测和判定。无需学习高深算法,开箱即用。
图形化呈现异常检测结果,隐藏复杂算法参数。通过易理解的"灵敏度"设置控制检测严格程度,无需算法专业知识即可使用。
覆盖IT运维中的各类异常检测需求,帮助客户实现智能化运维。
对服务器CPU、内存、磁盘IO等关键指标进行异常检测。自动识别CPU突增、内存持续增长(内存泄漏)、磁盘空间持续下降等异常情况,及时预警防止故障发生。
对网络线路流量进行实时监控,智能识别流量突增突降异常。特别适用于电网调度中心、运营商核心网络等对流量监控要求高的场景。
对交易系统TPS、响应时间、成功率等关键业务指标进行智能监测。及时发现业务指标的异常波动,保障核心业务系统稳定运行。
将运维人员积累的经验规则化。如"网络设备CPU突增预示问题"等经验通过异常检测自动识别,将个人经验转化为系统能力,知识传承不流失。
全面覆盖智能异常检测的各类场景需求。
通过对历史数据学习,自动形成指标运行基准范围。静态基线适用于平稳指标,动态基线适用于周期性波动指标,实时监测运行状态。
自动识别对象运行过程中的突增或突降特征。适用于网络攻击、突发流量等异常场景,第一时间发现指标的剧烈变化并告警。
自动识别趋势上升或下降特征,提前预测隐患。典型应用如内存泄漏导致的内存持续增长、磁盘空间的持续消耗等渐进式问题。
系统自动判定数据的趋势性、周期性特征,智能选择最优算法。无需人工配置算法和调优参数,系统自适应匹配最佳方案。
简单直观的灵敏度设置控制检测严格程度。隐藏复杂的算法参数,运维人员无需机器学习知识即可轻松调节检测灵敏度。
自动完成日、周、月增量与环比统计。提供重点关注对象异常事件排名分析,帮助运维团队识别高风险对象,制定优化策略。