卓豪官网 卓豪旗下IT运维管理软件和解决方案
  • 400-660-8680
 
 
应用性能管理(APM)
保证物理、虚拟、云环境的应用性能
 
 
IT运维外包服务工具
多租户模式,为您的客户提供更好的服务
IT运维管理平台
统一监控、集中运维

北京铁路局借助ManageEngine消除隐患,变“故障修”为“状态修”

用户概况

北京铁路局,所辖线路分布在北京市、天津市、河北省及山东、河南、山西省部分地区。下辖北京、天津、石家庄3个铁路办事处。营业里程4682公里,其中双线2765.7公里;线路总延展里程12584.5公里,其中正线延展里程7735.3公里。共有车站483个,其中特等站7个、一等站20个、二等站40个、三等站96个。

面临问题

北京铁路局的技术人员在针对网络设备及其他信息系统和设备发生故障而影响运输生产安全的事故分析中发现:有不少故障在发生前会产生大量错误日志,结合现有的监控和维护手段,查看日志方法比较单一,主要体现在:

1、由于设备众多而增加技术人员的工作强度
北京铁路局网络设备及服务器有几千台,只凭借技术人员日常逐一登陆查看日志,维护工作十分繁重。例如局机房每天登陆查看的核心网络设备有近30台,各电子所每天登陆查看的核心网络设备有30-40台,每台设备登陆查看日志需要5分钟左右,所有的设备都要登陆查看一遍需要3-4个小时时间。
2、可能由于各种原因而影响发现错误日志的时间
由于需要登陆的网络设备和服务器数量多,查看一遍会用时较多,势必影响查看的频率,间隔时间过长,影响故障的及时发现;负责设备的工程师出差或有其他工作的时候,也会影响故障日志的及时发现。
3、发生故障以后导致日志的无法取得或者丢失,影响事后的故障分析
当设备产生故障无法运行的时候,一般处于死机状态,无法登陆,无法运行程序,也无法取得故障日志。为了使故障影响时间尽量短,及时恢复系统,一般采取的措施是重新启动设备,这就造成了日志的丢失,影响事后的故障分析,使相同的故障无法及时排除,造成了隐患。

为了贯彻徐处长“变故障修为状态修”的要求,及时发现与运输生产安全相关的设备和应用的故障隐患,杜绝影响铁路生产安全的信息事故发生,急需一套日志分析系统,用于对这些网络设备和服务器的日志进行监测。

解决方案

铁路局网络科经过多方调研,采用了ManageEngine日志分析系统(Eventlog Analyzer)及配套的短信告警平台,并对其进行了相应的客户化改造。

日志采集与分析
Eventlog Analyzer通过syslog机制收集日志信息,按照定义好的重要级别对日志信息进行过滤,技术人员只需要通过B/S方式登陆服务器,就可以发现设备的日志信息,及时了解设备的健康状态,发现设备的安全隐患,最大程度减少技术人员登陆众多设备的工作强度:现在路局及各电子所每天只要通过浏览器登陆日志服务器访问页面,各设备的各种级别日志就一目了然了,点开相应的日志级别就能查看到日志内容,查看20-30个设备日志只需要5分钟左右,极大的缩短了登陆查看日志的时间。

分组管理
通过建立路局、电子所、站段等组,或者细分到网络、系统、应用也可以建立组,每个组都有管理员,负责相应设备的工程师可以用管理员帐户登陆检查自己负责的设备日志;也可以制定维护考核标准,规定每天什么时间要登陆查看日志,路局可以通过查看各管理员的登陆时间和频率了解到电子所和站段的维护情况。

短信告警
采用与第3方短信平台联动机制,在日志服务器里针对重点监控的设备设置高级别日志告警信息,在设备产生最高级别的Error、Critical、Alert、Emergency四类日志告警信息时,将信息及时发到负责的工程师和机房值班人员手机上,提高了响应时间。另外在短信通知工程师和值班人员同时,在值班电脑屏幕中会显示故障提示和告警声音的功能。

日志归档
通过归档文件管理,设置文件归档时间间隔,并采用ZIP格式进行压缩时。及时存储备份日志文件,将已经备份的日志文件删除,节省空间。在需要时,可以将归档的文件自动加载到数据库中进行浏览,可将已经归档的日志根据日志级别和日期进行浏览。

客户评价

  • 集中日志分析。实时对核心生产网络设备、客票相关设备和应用服务器小型机进行监控,减少技术人员的工作强度。
  • 快速响应。在设备发生重大故障时,通过短信方式通知机房值班人员及相应的技术人员,提高应急响应时间,最大限度缩小故障的影响范围。
  • 简化故障分析。利用日志归档功能,将收集到的日志信息长期保存,以便日后的故障分析并产生相应的分析报表。
  • 科学管理和考核。通过建立路局、电子所、站段等组,或者细分到网络、系统、应用也可以建立组,每个组都有管理员,便于管理和考核。
  • 收缩