您当前的位置:首页 > 成功案例 > 大型企业

“运”筹帷幄,纵横商海—— 实力演绎世纪金花的智慧运维之路

时间:2016-10-27

摘要:
当运维进入商海,“智慧”又该如何解?北塔软件与世纪金花的合作与尝试,给出了答案。
 关键字:智慧运维,北塔软件,世纪金花

当运维进入商海,“智慧”如何解?

世纪金花logo.jpg

世纪金花股份有限公司(以下简称“世纪金花”)系1998年经西安人民政府批准设立的股份有限公司,是一家以经营国际、国内精品品牌商品为主、集世界顶级品牌专营、高端家居精品、西餐厅、文化广场、精品超市等多种功能为一体的高端大型连锁商业企业。

近年来,世纪金花股份有限公司IT应用系统建设经历了基础硬件环境建设、系统应用建设、数据大集中阶段等多个阶段。面对业务部门对信息支撑能力要求日益提高,信息部门管理工作也逐步从大建设、大发展阶段进化到精细化管理阶段,从过去强调网络建设、应用建设和系统建设,逐步认识到增强管理能力的重要性。

意识到管理能力的提高的重要性,世纪金花开始选择运维工具。虽然传统的运维管理具备一定的设备管理能力,但是发现传统运维管理软件节约的人力投入又会转到运维管理系统的日常维护上。管理者在纠结提升运维管理系统效果的同时,基于“云”的计算中心,大数据集中后的大业务系统等都对日常运维工作提出了更高的要求。
 
随着电子商务的发展,世纪金花的运维管理工作也呈现出以下三种运维方式转变的诉求:
 
  • 从人工运维到自动智能运维的转变
传统运维工作的核心是以人为主,通过人来发现系统中存在的问题。随着人力成本的不断上升和应用系统建设规模的逐步增大,全靠人力的方式已经很难适应运维管理工作的要求,为此,初级的运维管理系统应运而生,这类系统在一定程度上解放了原有的人力负担。但随着应用系统的持续复杂和多样化,用户逐步认识到虽然建立了运维管理系统,然而往往面对的是系统很复杂,使用运维工具时也会出现很掌握,根本用不起来的尴尬。因此,用户也迫切希望建设具有自动管理能力,更像一个高水平的“管家”帮助用户全方位的监控各类系统的运行状况,及时给出异常提醒和操作建议的具备智能化、自动化运维能力的新一代运维工具。
 
  • 一刀切式阈值管理到趋势管理
阈值管理也是传统运维管理系统的核心特征。通过设置设备运行的固定阈值,来界定设备处于正常和故障两种状态。然而事实上,这种方式很难对实际的运维管理工作有指导意义。这是因为由于各类设备其实质都承载了各种业务,根据业务运行变化,设备的运行指标也呈现了波浪形变化,并非0和1的转变关系。另外运维管理系统的核心价值体现是“防患于未然”,采用固定阈值的结果就是运维管理系统告警的同时设备已经出现了故障,这对用户而言预警时间,告警与否已经没有了意义。所以真正的管理应遵循设备本身的运行状态情况,“贴身”描绘出各个设备各个时间段的性能变化情况,并根据变化情况建立跟踪曲线,通过跟踪曲线可以真正建立趋势管理视角,从设备运行变化趋势分析和预测,准确把握设备处于健康状态、亚健康状态和“生病”状态。通过这种方式还能更好的评估运维工作对故障趋势的影响,进而评价近期运维工作的价值。
 
  • 从单一标准到专属运维系统
虽然大多数用户建设信息系统时采用的设备、技术都有相似性,但是系统的复杂性、耦合性、环境多样性都导致每个用户的运维管理重点与难点可能会存在较多的差异。这种差异既有实际环境中带来的各种现实问题,也有不同发展阶段不同运维要求带来的实际问题。这些都要求运维管理系统提供全面、深入的管理能力同时还需要具备开放性,能够根据用户自身运维经验提供“私人专属”的定制策略能力,通过强大的智能引擎驱动用户定制策略,更好满足用户运维管理诉求。
 
作为国内IT运维领域的先行者,北塔软件不断尝试为用户搭建适合其发展需求的智慧运维平台,针对世纪金花的需求,北塔软件给出如下两方面建议:
 
  • 建设起全面的基础设施管理
全面的基础设施管理,应该包括网络设备、网络安全设备、服务器(含小机)、数据库、中间件、标准应用等设备。
 
在管理设备的基础上还包括对IP地址管理、设备配置管理、服务器硬件管理、进程管理等内容。通过全面的基础设施管理,打造一个全面和精细的管理平台。
 
  • 建设智慧运维管理平台
全面基础管理之上,通过自动学习,跟踪设备运行状态,自动建立设备“健康档案”。依据设备的运行状态学习,建立全面的数据基线,基于自动运维理念,自动对设备的运行异常进行提醒。异常提醒的同时还同步给出操作建议。整个系统还能做到开放运维,可以将用户的运维经验通过智能策略的方式加入到运维管理平台,更好满足用户“私人定制”系统的要求。
 
 
具体建设内容如下:
网络拓扑.jpg系统拓扑.jpg
 
 
系统平台:包括管理平台、智能运维引擎和多用户支持引擎。
 
网络管理:包括网络设备管理、网络拓扑管理、网络性能管理、网络配置管理等内容。
 
应用管理:包括服务器管理、数据库管理、中间件管理和标准应用管理,建设系统拓扑图、主机日志管理等内容。
 
告警管理:包括建设设备运行基线、异常提示、处置经验管理和智能巡检等内容。
 
报表管理:包括网络管理和应用报表三方面各类运行报表、故障报表等统计信息,还包括对网络和应用的数据快照功能。
 
智慧运维助力“管理”&“经济”双效提升
看得见的收益.jpg
 
商业社会智慧运维平台的上线,将实现管理和经济两方面的效益:
 
管理效益“看”得见
算的出.jpg
 
自动智慧运维平台的上线可带来如下运维管理效应:
 
主动运维:即时的故障告警帮助管理人员及时了解安全和运行隐患,实现真正的事前管理,变被动为主动。
 
全面降低误操作可能:运维管理和安全手段从手动方式转变为系统自动、安全、可以跟踪的行为,手动的方式大量减少将极大降低误操作的可能性,极大增加信息化设施的稳定性。
 
提高效率:系统提供易用易操作的监控、处理、分析一体化关联分析能力,快速帮助运维管理人员了解问题、分析问题、定位问题、辅助管理人员解决问题,提高处理问题的效率,为信息化的可靠运行保驾护航。
 
综合分析能力:总体把握资源,提高效益,能及时判断信息资源各个环节对业务的影响,提高信息设施质量和降低运维管理人员工作强度,最终为提高科技部的核心价值服务。
 
经济效益算得出
 
通过实施智慧运维平台还能带来直观的经济效益,让我们来算一笔账:
智慧运维平台可以实现对所有网络、主机的安全和运维工作,7*24小时不间断自动监控,代替以往的人工检查。按照200个管理对象预计,每个对象运行检查大约需要10分钟;全部检查一遍需要约83.2工时。以每天系统运行情况检查一遍,每工时/人按15元计算,每年可以节省人力成本约455520元。
 
与此同时,自动智慧运维平台上线后,随着运维管理水平的提高,整个信息系统故障的解决时间会缩短,并且由于管理水平的提高,信息系统非计划停机时间也会减少,提高业务部门满意度,提升行业形象,为用户带来短期和长期的经济效益更是无法估量。
 

相关文章

产品中心
北塔BTSO 智慧运维平台
新一代运维管理软件,智能化、自动化成就智慧运维..
北塔BTDO业务保障系统
从网际数据流量角度分析业务、保障业务、守护业务...
EMonitor监控管家
轻量级自动监控管家,服务中小企事业单位...
解决方案