2024年11月23日

星期六

公共服务
联系我们
江苏省钢铁行业协会
协会地址 : 南京市御道街58-2号 明御大厦703室
咨询热线 : 025-84490768、84487588
协会传真 : 025-84487588、84490768
实时监控平台让运维走向智能化

2022-08-30 10:48:08

来源:中国钢铁新闻网

浏览834

  近日,首钢矿业计控检验中心成功搭建了网络设备监控平台,实现了对首钢矿区网络设备运行状态的实时监控,推动公司计算机网络运维管理由人工运维向智能运维转变。

  首钢矿业中心机房肩负着百里矿区的网络通信责任,现有核心交换机、云平台、网络安全设备、ERP(企业资源计划)服务器等网络设备160余套。其中,云平台云服务器包含云服务器操作信息、运行情况等日志信息,每天信息增长量高达500MB(兆字节),相当于500多万行数据信息,数量大、种类多、运维难度非常高。

  传统运维方式中,运维人员无法做到全面巡检,多数情况只能出现故障了再处理。处理故障时,必须现场检查设备运行状态,逐一分析CPU(中央处理器)、内存、端口等数据指标,凭借经验进行故障原因判断,不仅工作效率低,而且由于无法对潜在故障进行预警,一旦发生重大故障,将影响公司整体网络与运营,甚至导致系统瘫痪。

  “花钱购买”比拼“开源技术”

  近几年,随着首钢矿业智能化发展,网络设备数量不断增多,信息系统变得越来越复杂,系统的日志数据翻倍增加,运维难度持续增加。传统的人工运维已不能满足管理需求,急需通过技术手段对网络设备进行7×24小时智能监控。

  经考察调研,社会市场层面有很多成熟的监控解决方案,能快速部署实施,但价格昂贵、灵活性低,而且后期增加网络设备时,需要厂家配合,可拓展性差。本着“一切费用皆可降”的理念,首钢矿业计控检验中心信息安全创新工作室(下称工作室)结合公司实际情况,决定自主研究搭建网络设备运行状态实时监控平台,尝试采用开源技术,实现对网络设备运行状态的统计监控及实时分析。

  综合考评多项技术选最佳

  行业内常用的开源技术有Nagios、Centreon、Cacti、Ganglia、Zabbix等。考虑到每项技术的适用场景不同,为了选定符合矿山需求的技术,工作室成员李同同对每一项开源技术的部署方案、关键技术、模拟测试等进行试验。其中,模拟测试环节最耗时间和精力,从搭建虚拟场景开始,需要技术版本选型下载、环境匹配、安装部署、连通设备、创建模板、功能配置、模拟监控等16个大步骤,每一步都需要设定不同参数,任何参数设定不合适都无法进行下一步测试,更别说完成整体试验。

  经过反复测试并深入对比,李同同发现,Nagios功能单一、需要额外安装大量插件,Centreon不易更改配置、可定制性差,Cacti只适合特定场景,Ganglia无告警机制,这些开源技术虽然应用简单,但无法满足公司管理需要。考虑到首钢矿业的长远发展,工作室决定采用具有图形化监控和报警功能的Zabbix技术。该技术功能强大,但是部署起来较为复杂,需要进一步研究和攻关。

  着眼长远攻关不怕难

  目前,首钢矿业网络设备不仅数量多,而且种类和品牌多样化,所以在监控平台搭建过程中必须综合考虑各种影响因素,比如不同类型的操作系统、Web服务、编程语言、数据库等。

  对于常规的Windows操作系统,建立监控平台与被监控端的连接,只需打开自带的SNMP(简单网络管理协议)服务即可。但是公司服务器还有一部分Linux操作系统,没有该服务选项,因而只能通过执行程序命令的方式来实现,这对李同同而言是一项新的技术突破。他从查阅各类资料入手,在测试机开展性能测试,设置参数、分析报错、修改程序,通过百余次的重复操作,终于实现了平台与被监控端的稳定连接。但这只是平台部署最初步的技术验证,为了更好地梳理160余台网络设备信息,李同同将其分为交换机、服务器、数据库、应用等几大类,并有针对性地创建适合的监控模板,因品牌、连通方式等差异,单交换机监控模板就多达25项,这意味着所有的部署工作都要重复25次。李同同说:“不怕重复,但任何一个参数的不适合,都会导致‘从头再来’。”面对复杂的部署环境,李同同一项项地测试,最终成功搭建了监控平台,实现了对网络设备CPU温度和占用率、内存使用率、风扇状况、端口状态、访问流量、响应时间等信息的实时展示,并通过对以上大数据的分析,提高了对网络设备运行风险的识别能力,达到了对潜在故障智能预警和及时定位故障的目的。

  网络设备实时监控平台上线以来,运行稳定、精准度高、预警性强,实现了对网络设备的可视化监控和管理。下一步,该工作室将继续拓展Zabbix技术应用的广度和深度,为网络、信息系统安全稳定运行保驾护航,努力推动首钢矿业计算机网络运维迈进智能化时代。