|
到2007年4月,由中铁信息工程集团自主开发的“中铁信信息服务管理系统(SRIE ITSM)”,已经在铁道部及全国各铁路局信息中心正式投入运行了3年,现正担负着全面保障全国铁路信息网络及各种业务生产信息系统日常运作的重要职责。 铁路信息化提速呼唤“IT管理” 铁路作为国家的重要基础设施,在全面建设小康社会中肩负着提供运力支持、当好先锋的重要历史使命。随着铁路“十五”规划的实施,铁路信息化迎来了“大提速”。我国铁路的运营里程仅占世界铁路的6%,却完成了世界铁路总运量的22%,能够实现这样的成绩,信息化在其中扮演着重要的角色。我国铁路运输系统有60多万辆货车、1.5万多辆火车头、3万多辆客车,都需要由信息系统进行运输调度指挥管理。每一次列车大提速,都是铁路运输系统用新的信息技术改造老铁路的过程,也是铁路信息系统全面升级的过程。 铁路信息技术应用起步于20世纪60年代,经过几十年尤其是最近10年的快速发展,全路目前已建成了覆盖铁道部、18个铁路局、2000多个主要站段的铁路计算机专用网络,拥有大、中、小型计算机2000余台,微型计算机和计算机终端20多万台。目前已有铁路货运管理、客票发售和预定、调度管理、财务清算、统计分析、车号自动识别、办公自动化系统等一大批信息系统相继投产运行。铁路信息系统已经渗透到了运输生产涉及的几乎所有部门和环节,在保证运输安全、提高运输组织与经营管理水平、提高运输效益、提高市场竞争力等方面起到了越来越重要的支撑作用。 随着铁路信息系统规模的不断扩大,运行维护的工作量和技术难度也在不断加大。如何确保信息系统平稳运行,满足铁路运输7×24小时不间断地运转和铁路跨越式发展的实际需要,铁路信息运行维护部门面临着前所未有的挑战。最突出的问题表现在以下几个方面:传统的仅仅依靠人工巡检和故障发现的维护模式,无法保证所有问题都能得到及时、准确、全面的解决。面对不断增多的IT设备,事后发现、被动应对式的人工管理,力不从心;运行维护人手紧张,人员素质参差不齐,导致在维护深度、故障预警等方面存在很大的局限性;面对整体架构复杂的各种系统,多层次、多环节的问题定位复杂,处理滞后;IT对核心业务快速渗透,信息管理与核心业务似联非联,有责必担,有绩难赏;对异常处理、服务请求无流程,无规范,责任、绩效难以细化考核,管理困难;对系统异常的处理因人而异,无法沉淀或形成知识管理,无法共享,运行维护经常处于被动应急的局面。 因此,随着信息技术的迅猛发展及其对各行业的深度渗透,各种社会体系与信息技术息息相关,并逐步依赖各种信息系统的正常运作。作为传统的、完全依赖于技术人员个体素质和水平的IT维护及管理方式,已日益不能适应应用系统及设备的不断增加、系统结构的日趋复杂,以及信息库的快速膨胀。CIO和信息主管们将面临着系统运维的极度挑战并承受着系统运维强大的压力。 CIO及信息主管要迎接挑战、减轻压力,变被动为主动,要让IT系统由“离不了、靠不住”,变为“离不了、信得过”,出路在哪? 铁道部信息技术中心技术支持部处长耿青云对记者说:“信息系统建设是一个阶段性的任务,但系统验收完成后能否正常发挥作用,这就有一个长期的运维过程。现在,铁路运输的各个环节,如果没有计算机,所有的作业就都没法做了。如果信息系统不能正常运转,客票就卖不出去、货主就不能够提报要车计划、编组计划就无法及时制定、铁路运营就会出现‘肠梗阻’。信息系统是自动化程度最高的设备,但也需要管理。对此,信息技术支持部门责任重大。信息系统管理不能只靠规章制度和技术人员,还要靠先进的技术手段。铁路信息化呼唤IT自动管理。”随着ITIL (Information Technology Infrastructure Library ) 标准逐渐被业界认可,信息服务管理为我们解决问题提供了新的思路,成为继系统管理、网络管理之后更加贴近业务的管理理念,它以管理流程为基础,以信息服务为中心,真正基于管理规范实现信息技术与业务的完整整合,提高信息服务管理效率,保障信息系统日常运作。”耿青云说:“所谓信息服务管理,就是用计算机管理计算机、靠自动化技术管理计算机,使信息系统管理由被动变为主动。” 结合行业特色自主产品创新 为了使信息系统管理变被动为主动,铁路信息部门也曾研究、测试,并花了几千万元采购过一些业界著名的IT服务管理工具软件。这些软件说起来什么功能都有,但实际上采购实施以后却发现产品复杂、客户化困难、系统运行开销大,影响业务系统运行,不但达不到加强监控管理的目的,还带来了不少问题。“这些世界顶尖公司的IT服务管理工具软件功能太全面了,以致全面到了我们掌握不了的地步。”耿青云笑着说,“关注100个点与关注30个点的代价是不一样的。功能多就意味着要占用大量的CPU处理能力和网络带宽等资源。但这些功能中,也许只有两成的功能是需要的,而八成的功能也许几年内也用不上一次。” 与此同时,国内有几个路局的信息部门也曾独立开发过一些监控类的工具软件,虽说功能实用,但技术层次偏低,关注侧面不同,功能不够全面,如果要在全路推广使用,多少会存在一些问题。 要提供高质量的IT服务,涉及到机房环境、IT基础设施、乃至各种应用系统等一系列相关环节。市场上的产品大多关注对于IT基础设施的监控与管理,还找不到有哪一家产品能够提供从机房到应用系统全方位的监控和管理功能。然而如果任何一个环节出现问题得不到及时解决,都有可能影响到IT服务的质量,甚至带来灾难性的后果。 面对铁路信息系统运行维护不断增大的压力,在综合考虑了各种因素之后,中铁信息工程集团站在全行业解决方案的高度,以ITIL理念为指导,在业界先进的美国ASG公司IM(Infrastructure Management)套件的基础上,融合全国铁路信息系统IT服务管理丰富的实践经验,自主开发了结合中国铁路信息化特色的专注于信息服务管理的软件产品――“中铁信信息服务管理系统”(SRIE ITSM - Information Technology Service Management)。 中铁信息工程集团信息安全事业部总经理张鹏介绍说:“在国内业界,中铁信开发信息服务管理系统SRIE ITSM可谓是较早‘吃螃蟹’的,并早在2004年就开始了应用。中铁信在这方面有两大优势,一是有几十年的铁路信息化的实践经验,知道哪些环节容易出现问题;二是研究开发基于铁道部一应俱全的大机、小机、PC服务器、网络设备的IT环境和较好的技术能力。” “SRIE ITSM的实施是卓有成效的。”耿青云说,“2004年SRIE ITSM开发完毕、安装试用伊始,就立刻发现一个服务器的电池有问题,我们马上请有关公司的技术人员来修。其他诸如网络交换机的风扇坏了、内部温度过高、数据库表空间满了、网络端口宕、线路不通、带宽使用率过高等什么的,SRIE ITSM都能及时监测到并报出来。有一个月SRIE ITSM发现所有信息系统发生严重事件101次,其中有一个应用就有50次,另一个应用有30次,两者相加,占全部严重事件的百分之七十九。领导看到报告,提高信息服务质量的突破口就找到了。”耿青云说:“SRIE ITSM将机房环境监控、系统平台监控、网络监控、数据库监控、应用监控和AEI监控等各种监控,和与信息服务相关的事件管理、配置管理、变更管理、维护维修管理等各种管理融为一体,为铁路信息系统提高信息服务水平提供了全面的技术支持。SRIE ITSM的实施,真正做到了领导、工程师和一线值班人员三满意。” 三大架构功能凸现前景广阔 中铁信息工程集团信息安全事业部总经理张鹏把SRIE ITSM称为是“信息部门的信息化”。他介绍,SRIE ITSM以ASG-SENTRY为基础,主要以异常事件为驱动,从整体架构上分为事件数据采集与处理、事件报警与展现和综合管理三大部分。 数据采集分为IT设备和非IT设备两种不同情况。所有被监控的IT设备,包括计算机主机及其主要外设,操作系统、网络、数据库、MQ中间件,以及LEGATO备份软件等系统平台,各种主要应用、各种网络设备等。其信息采集或直接使用ASG-SENTRY MANAGER,或使用ASG-SENTRY的AGENT,或通过编写专用的MIB和插件(Plug in)来完成。ASG-SENTRY的AGENT将采集的各种信息,报告给ASG-SENTRY MANAGER,MANAGER负责将采集到的信息写到预定义的信息交换数据库中。数据处理模块从交换数据库读取信息,进行分类、加工和整理,再写入ITSM数据库中;被监控的非IT设备,如UPS电源、空调,以及水浸、门禁、视频等的信息,以及AEI相关设备的信息,则直接写入ITSM数据库中。 SRIE ITSM对于铁路ATIS系统的CPS,以及从CPS到AEI设备之间的连接设备和AEI设备所使用电源等状态,进行即时监控。遇有问题,能够及时报警;还可以根据值班人员所做决定,对有关设备进行远程复位等控制操作,使问题尽快得到解决。 事件报警和展现模块,从ITSM数据库中读取信息,根据事件影响的轻重程度,以声音或不同颜色的文字信息等不同形式报警,提请技术人员及时进行处理。它能够根据有关人员提出的各种查询条件,以文字、图表或曲线等多种形式,显示指定对象的当前状态、最近发生的事件、历史事件和资源使用趋势;还能够根据要求,显示对应事件的处理方法和指定对象的基本配置等有关信息。 SRIE ITSM的综合管理部分,主要是在保证及时发现信息系统发生的异常事件的同时,进一步对异常事件处理的全过程进行闭环管理,确保各种异常事件都能够得到处理。同时,还提供对信息服务相关的资源配置、使用、变更、维护、维修等进行管理。系统对于那些能够自动恢复的临时性事件,随时记录事件发生和恢复时间;对于那些性质严重、必须要技术人员进行处理的事件,系统还提供对有关项目、设备负责人发出处理工作单,有关人员处理完毕并填写工作记录事件才予以关闭的功能。ITSM还提供对信息系统各个方面发生的各类事件、严重事件对信息生产造成的影响,进行统计、分析的功能。 SRIE ITSM还具有铁路上下级单位之间各种调度命令、通知、公告等信息的上传、下达功能。对于下级单位发生的严重事件或下级单位处理不了的疑难事件等,系统还支持各种事件的逐级上报功能,以便在事件发生时,上级单位能够迅速了解情况并做出相应处理。由于SRIE ITSM是基于B/S方式开发的,因此上级单位可以很方便地通过超级链接直接访问下级单位的管理服务器,以随时了解下级单位信息系统的实际运行情况。 “概括而言,SRIE ITSM解决方案以事件预警为核心,以管理功能为辅助,解决了铁路信息系统运行维护面临的最突出的问题,从而达到提升IT服务水平的目的。”中铁信息工程集团信息安全事业部总经理张鹏指出,“如果说铁路已经引入了IT自动管理,那么其它行业也正在引入或呼唤IT自动管理,可以肯定的说,SRIE ITSM产品市场应用前景广阔,目前不仅应用在铁路系统,保障了国民经济大动脉的畅通无阻,还在邮政、工商、电力、审计、电信和银行等行业得到了广泛应用。凭借一流的技术与成熟服务网络的支撑,SRIE ITSM正获得越来越多的青睐与认可,目前中铁信已成功为国家工商行政管理总局、北京国利投资有限公司、中国航空工业规划设计研究院、上海通用汽车等数十家重点行业客户量身提供了卓有成效的信息服务管理解决方案,也为行业信息化管理水平的提升提供了强有力的保障。中铁信正在与一些重点行业展开更为广泛和深入的合作,合力打造具有鲜明行业特色的、稳定纯熟的ITSM行业解决方案。”
|