煤炭 IT 集中运维平台规划分析

时间:2022-10-08 18:31:29

导言:作为写作爱好者,不可错过为您精心挑选的1篇煤炭 IT 集中运维平台规划分析,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

煤炭 IT 集中运维平台规划分析

0引言

企业IT基础设施是为企业提供通信网络、信息服务等IT服务所必需的硬件、软件和数据中心的集合。5G、物联网、云计算、大数据和人工智能等新技术持续推动煤炭行业智能制造发展,而这些新技术配套的IT基础设施是企业安全生产的重要基础。国外相关网站做过一项统计调查显示应用系统建设与系统运维的持续时间大致为1∶5,即如果系统开发为5年,系统的运维期则要25年[1-2]。显然,IT运维服务的质量直接体现了企业IT能力。随着神东煤炭集团信息化建设的不断深入,配套的服务器、交换机、应用系统、通信机房等IT基础设施的规模越来越大,神东公司安全生产对IT基础设施的安全性、稳定性和可靠性的要求越来越高,对IT基础设施的集中运维管理显得日趋重要。

1IT基础设施管理现状

神东公司建成以大柳塔、布尔台、东胜、伊旗维修中心、黑炭沟、李家畔等六大核心节点的万兆环形以太网,拥有办公网、工业环网、语音通信专网、井下无线通信、地面无线网、数据中心存储、服务器和虚拟机、通信机房、各类信息系统及其数据库和中间件等IT基础设施,形成覆盖神东矿区的综合信息网络,包含有线设备和无线设备2000余台,数据中心存储500T,物理服务器500余台,虚拟服务器200余台,大小通信机房40余个,业务信息系统100余个,关联的各类虚拟机、服务器主机、数据库、中间件等资源600多个。神东公司办公网设备和工业环网设备分别由华三IMC网管平台和华为U2000网管平台进行管理。无线设备、服务器(含操作系统)、虚拟机、存储、光纤交换机、机房动环、应用系统、数据库、中间件等IT基础设施尚未部署统一的运维管理平台。企业信息化水平越来越高,同时IT系统也越来越复杂,各种各样的服务器、存储设备以及网络设备等使得维护人员应接不暇,极难避免各种各样故障产生,故障产生就会造成业务中断,使得企业不能正常运营。

2IT运维标准要求

根据国家信息技术服务标准(ITSS)规定[2],信息技术服务由人员、过程、技术和资源4个要素组成,包含规划设计、部署实施、服务运营、持续改进和监督管理5个生命周期,实施ITSS有利于强化信息技术服务效能、优化信息技术服务成本、提升信息技术服务质量、降低信息技术服务风险。按照ITSS要求,运维监控类工具的管理对象主要包含硬件资源管理、通用软件资源管理、应用资源管理[3]。如图1所示,数据中心运维服务的服务对象分为机房设施、网络及网络设备、服务器及存储、软件、数据共5类;运维服务的交付内容包括例行操作、响应支持、优化改善和咨询评估4类服务作业过程。神东IT集中运维平台采用自动化监控手段,获得管理对象的状态数据,为过程管理提供数据支撑,在硬件、软件平台、虚拟化、业务、用户感知以及基础设施等监控对象的基础上实现了事件管理、性能管理、视图管理、告警管理、统计分析、日志管理等功能。

3IT集中运维平台规划

3.1需求分析

随着神东公司生产网、4G/5G网络和大数据中心等IT基础设施项目的实施,IT基础设施规模不断扩大。因此,需要一套符合国家信息技术服务标准的IT集中运维管理平台,以实现对交换机、路由器、无线控制器、服务器(含操作系统、虚拟机)、数据存储、光纤交换机、应用系统、数据库、中间件和机房动环等IT基础设施的集中监控和智能分析,以提高IT运维管理效率。

3.2平台架构

集中化管理是当前IT运维管理的发展趋势,对主机设备、网络设备、存储设备、备份设备、数据库、中间件、应用软件、桌面系统等进行“集中监控、集中维护、集中管理”成为企业IT运维管理的必然选择[4]。神东IT集中运维平台按照国家信息技术服务标准设计,采用基于J2EE的B/S模式,平台由3层架构组成,即数据采集层、系统功能层和应用展示层[5]。数据采集层通过SNMP、Telnet/SSH等采集手段,按照预设的采集策略完成资源配置数据、资源性能数据、网络拓扑数据和告警数据的采集。系统功能层由多个模块(资源管理、告警管理、拓扑管理、性能管理)和组件(网络管理、主机管理、存储管理、应用管理)共同实现数据的处理。通过对事件的标准化、压缩、过滤、归并及关联分析等一系列操作,一方面将处理结果发送到统一告警平台,另一方面将处理结果存入告警库,以便对告警数据的查询和统计分析。应用展示层通过统一的图形平台,为运维人员提供个性化的的管理和展示界面。

3.3平台目标

ITSS体系对资源管理有明确的要求,不断完善运维工具,既可以减少不必要的工作量,也可以提升运维工作质量和效率[6]。运维系统的总体目标是,基于整个网络,按照业务和用户为中心的建设原则[7],实现对神东公司所有IT基础设施的集中监控、集中维护和集中管理,确保运维人员能够高效管理运维对象。根据ITSS标准体系要求,结合神东公司IT运维管理现状,提出以下5方面平台目标:①实现路由器、交换机、防火墙、无线设备、服务器、虚拟机、存储、光纤交换机、IP智能设备、机房动力环境、信息系统、数据库、中间件等神东公司IT基础设施的集中监控、实时报警和可视化分析,通过手机短信、邮件、企业微信等多种方式进行告警。②通过集中监控管理平台的建立,用电子巡检方式代替了人工巡检,大大缩短巡检时间,提高设备巡检效率[8]。③梳理IT基础设施的物理连接关系,构件IT基础设施的业务模型,实现软件、硬件全视角的监视,当故障发生时,可以进行故障的快速定位,从而缩短故障解决时间,避免软件部门和硬件部门因故障点定位而发生的扯皮现象。④实现对机房动力环境的集中监控管理,提供可视化的监控画面,发现异常即可通过网络自动远程报警和现场声光报警,及时提醒运维管理人员。⑤实现平台用户统一身份认证和用户权限的分级管理,提高各运维部门运维工作的规范性和协同性。

3.4平台功能

神东IT集中运维监控平台实现网络资源管理、业务管理、IP地址管理、CMDB管理、配线管理、网络配置管理、告警管理、日志管理、自动化巡检管理、报表管理、门户管理、接口管理等功能。网络资源管理:对路由器、交换机、安全设备、无线设备、服务器、数据库、中间件、虚拟化设备、存储设备、通信机房等IT基础设施进行统一管理,对上述网络资源的状态、性能、配置、信息4类指标进行统一综合监控。与神东机房动力环境监测系统集成,获取动力环境平台的监测数据,比如温湿度、烟感、漏水、空调、电量、电流、UPS、智能配电柜等机房环境信息。业务管理:从关键业务或应用系统视角,将组成业务系统的软硬件资源按照其关联关系组建业务逻辑模型,监控其业务逻辑模型的可用性等业务层面指标,建立从业务视角出发的监控视图,实现业务系统故障的快速、准确定位,快速恢复业务系统。IP地址管理:记录和展示IP地址和IP子网信息,图形化管理IP地址和IP子网的容量、使用率,进行IP地址审计、IP地址回收、IP地址分类分析,实现IP地址管理“帐实”相符,高效管理网络中的IP地址资源。配置管理数据库:配置管理数据库作为整个运维管理的基础模块,是支撑运维管理工作的重要组成部分。通过自动采集和手工方式,集中存储配置项的基本信息、地址信息、维护信息和关联关系,建设集中、完整、统一、实时的配置管理数据库,为IT配置项管理提供记录、查询、汇总、统计分析的基础数据[9]。配线管理:实现以视图方式展现综合布线的设备接口、信息面板、设备位置、管道、线路、配线间、配线柜、配线架、配线接口等关联信息。网络配置及告警管理:网络配置是对网络设备配置的集中管理,通过SNMP、SSH、Telnet协议实现配置备份和配置恢复。警告管理应包括定义警告、警告浏览以及警告处理等功能[10]。平台从IT基础设施上收集到各类报警数据,基于多种压缩规则过滤和归并,并结合告警级别和用户权限等规则,通过平台客户端、邮件、短信、企业微信等方式,将告警内容展示给维护人员,有效减少无用告警的数量。日志管理:IT基础设施日志信息数据量大、位置分散、解析困难,对运维人员来说手工查看日志记录,不仅效率低下,也难以发现日志中的有用信息[11]。通过采集路由器、交换机、服务器和应用系统等IT基础设施的运行日志,从海量的Log日志中收集、过滤、分析和提取有价值的信息,实现了日志统一收集、分析处理、查询告警等功能,为IT运维人员提前发现系统故障、排查安全隐患提供有效工具。其他管理:自动化巡检管理是针对路由器、交换机、安全设备、无线设备、服务器、数据库、中间件、虚拟化设备、存储设备、通信机房等IT基础设施,制定巡检范围、巡检线路、巡检内容、巡检周期等计划,自定义设备运行参数的阈值(CPU利用率、内存利用率等),自动形成设备和系统运行状态的巡检报告,以邮件、企业微信或短信等方式通知运维人员。报表管理提供网络类、主机类、虚拟化类和存储类的运行率报表、故障告警统计分析报表和性能分析报表,支持实时报表、日报表、周报表、月报表和年报表等。门户管理通过创建资源、接口、业务3种类型过滤器,为运维工程师展示网络资源、系统和业务系统的个性化运维数据和运维图表。接口管理是平台与神东公司单点登录用户认证进行集成,实现用户统一身份认证;与神东机房动力环境监测系统集成,实时监控机房动力环境;与企业邮件服务器、短信、企业微信集成,实现平台告警信息的个性化推送。232陕西煤炭2022年

4结语

随着神东智能化和信息化的深入发展,企业内部的IT运维管理仍然需要不断探索、创新和发展,IT运维管理正在向智能化方向发展。例如,IT服务质量的衡量指标由过去的底层设备、操作系统、应用系统向业务的高可用和稳定性方面转变,衡量IT对业务影响程度的指标变成了MTTR(平均故障修复时间),这就需要从业务的视角,实现覆盖所有业务链路端的全局监控、管理和分析,把监控的点和面都做完整,还要与业务指标进行关联,实现基于大数据的人工智能运维,才能不断满足企业内部IT运维管理的发展需求。

参考文献:

[1]成航宇.如何提高IT运维管理[J].硅谷,2013,6(22):134-135.

[2]工业和信息化部软件服务业司.中国信息技术服务标准(ITSS)白皮书(第2版)[EB/OL].(2014-01-22)[2021-08-21].https://www.itss.cn/file/202106/22/20210622162350971.pdf.

[3]全国信息技术标准化技术委员会.信息技术服务运行维护第1部分:通用要求:GB/T28827.1—2012[S].北京:中国标准出版社,2013:2.

[4]王月,李明.国内企业IT运维管理水平提升建议[J].中国管理信息化,2014,17(6):19-21.

[5]雷晓萍,马君,苏蔚.信息运维监控一体化平台的自主研发与应用[J].信息技术与信息化,2015(4):214-216.

[6]国家信息技术服务标准工作组.ITSS系列培训IT服务项目经理[M].北京:电子工业出版社,2012.

[7]张乾.太原煤炭交易中心运维管理系统设计与实现[D].大连:大连理工大学,2014.

[8]周旻,陈之华.基于ITIL运维服务管理体系的研究和设计[J].信息安全与技术,2012,3(5):8-10,16.

[9]韩宇来.中国石化集团公司IT运维服务体系研究[D].北京:华北电力大学,2014.

[10]刘亚军.济南天津银行IT设备运维监控系统的设计与实现[D].成都:电子科技大学,2014.

[11]张春生,郭长杰,尹兆涛.基于大数据技术的IT基础设施日志分析系统设计与实现[J].微型电脑应用,2016,32(6)

作者:刘雄雄,姬文海 单位:国能神东煤炭集团有限责任公司