《人民日报》技术部运行管理处副处长居晓军:
各位嘉宾下午好,很荣幸有机会很各位一起交流IT运维管理,刚才看到何博士精彩演讲感觉很有启发,何博士一些想法、分析对我们工作很有帮助。我们报社去年实施了摩卡监控系统,但是是7.5的系统,今天看了BSM Visto有了很大的提升。接下来我向大家介绍一下摩卡系统在《人民日报》的建设情况,与在座各位分享一下人民日报社相关的IT运维经验。
我发言题目是,《人民日报》摩卡综合业务管理系统项目介绍情况。先说一下主要内容,首先是《人民日报》及IT系统的概况,然后是项目背景、项目内容和实施效果,最后是一些展望。
关于《人民日报》相信有不少朋友都知道,人民日报是党中央机关报,是中国第一大报,《人民日报》是日报,要求每天按时出报,如果延误出报这就是一个政治事件,很显然我们对IT运维要求是非常高的,下面我简单介绍一下报社的具体信息系统架构。
大家都看到,这是《人民日报》信息系统总体架构示意图,分为硬件支撑平台,也就是包括网络、主机、数据库、存储、业务支撑平台,大致分为新闻采编中心、办公管理中心、数据中心。报社的这些系统是在十多年中陆续建设的,因此选用的厂商和产品也是种类繁多的,目前我们的操作系统包括ax4.3,Solaris,Windows2003,中间件包括g2ee,iis,交换机 是思科和华为产品,我们还有安全设备,网络结构我们报社有一个特点,各个部门办公室它是分散在一个大院的不同楼宇,因此网络结构是一个新型结构,各个楼宇都有自己的交换机,而且每个楼宇各楼层有自己的楼层交换机。
总的归纳起来,我们的信息系统有如下特点:
一个是业务系统数量较多,实时性强。二是主机和应用种类比较多。三是网络系统比较复杂,设备分散不集中。四是我们的业务对IT系统要求极高。五是报社的信息系统发展比较迅速。
下面我简单介绍一下《人民日报》及IT系统的概况,我介绍一下摩卡系统实施的背景。由于有刚才谈到的几个特点,在以往IT运维过程当中,经常面临如下问题:
一是系统复杂,规模大,上层是各种业务系统,中间是各种平台操作系统还有各种数据库,顶层又有网络安全系统,因此对管理人员的要求也是非常高的,要求每个管理员既要管理业务系统,还要精通服务器管理、数据器管理、网络安全管理,还有系统出现问题时,要在很短时间内找到问题,并解决问题,运维的压力是非常大的。
人民日报社技术部有50个人,其中有30多个人是技术人员,运维工作是24小时不间断工作,我们这些同志除了要担负夜间出报系统运维工作,还要担负白天办公系统、财务系统等其他业务系统,那可以说以现在的人手维护好这么大规模的一个IT系统,在体力上和心理上压力都是可想而知的。
二是要从整体角度把握系统运行状况,要分析哪里存在隐患,比如这一时刻系统所有服务器CPU压力,内存情况,数据库的访问数量,还有各个交换机,甚至具体到某个端口数据流量的统计、分析。大家都知道人工去完成这样的工作是很难的,还有再比如说某业务系统反映速度慢了,如果要想找到系统的瓶颈,到底是CPU、内存,还是存储或者是并发访问机制,这些都是我们遇到的难题之一。
三是因为管理员少,虽然我们也采取了值班多次巡检制度,但没有好的自动化监控手段,发生故障实施程度比较低,还会接受用户的反馈。比如用户反映每个页面打不开,这时候我们管理员才会去解决问题,但是这种被动局面,我们是不太希望发生的。我们的目标是在用户反映之前发现问题、解决问题,让用户感觉不到系统出现过故障,这样才算是一个比较好的运维服务。
还有一点是必须提高故障定位的准确度,要缩短解决故障的时间,因为我们的系统比较复杂,服务器、交换机数量比较多,甚至有些设备还是十年前的产品,因此发生这个故障也是在所难免的。在发生故障以后,如何在最短时间内从200多台服务器、交换机的几千个关键指标中,迅速找到故障所在,是我们最迫切要实现的目标。比如说我们曾经发生过某次故障,采编系统无法登陆了,这时候我们的系统管理人员首先要检查是否是页面服务器发生故障,然后再检查IS、Sybase数据库,还有各楼层交换机,对这些因素进行排查,一圈下来需要耗时半个多小时。
因此,我们必须用我们先进技术手段来全方位的提高我们的运维水平,也就是全方位、全地域、全天候、全功能、高质量的、主动式自动监控管理,实现我们的要求,这是我们的运维目标。根据我们的需求分析,2009年我们对业务系统、监控软件进行市场调研,发现有不少软件、硬件满足我们的需求,但是经过比较,我们认为在很多方面摩卡系统管理软件具有一定的优势,那么经过一些系统测试,我们取得了比较良好的效果,然后我们决定部署。
讲完项目背景,下面介绍一下项目主要内容,摩卡业务系统是在2010年4月在《人民日报》开始部署,经过一个月安装测试,我们实现摩卡业务管理系统对报社全业务系统,包括100多台服务器、60多台网络IT安全设备,还有数据库,经过三个月运行,系统运行良好,在2010年8月通过报社验收,摩卡的业务管理系统我们主要实施五个模块:
一是网络监控模块;二是主机和数据库管理;三是时间响应管理;四是业务服务管理;五是机房监控及报警管理。
实现监控界面的图形化,把监控对象比较抽象的各种关键指标用图形或者表格的形式表现出来,简单易懂,一目了然,提高了管理效率。大家可以看到,这是一张报社网络图,一看就明白,网络正常,这条线路就是绿色的,如果出现问题,这个线路就变成灰色,简单易懂,十分好学。
再看一下,这是一个具体交换机实施状态展现的界面,这个就不多说了。同样的这是一张服务器实施状态展现界面,这张图是我们对核心数据库信息采集的一张图,因为我们比较关注数据库的连接时间,这直接影响到用户的使用感觉,如果连接时间超过一秒,用户感觉会比较慢。从这张图中我们可以看到,在7天内最大连接时间没有超过150毫秒,而且当前连接时间已经有16毫秒,用户感觉速度应该是比较快、比较正常的。
其次是实现了将服务器、数据库等设备的性能,还有变化趋势用图像、图表表示出来。我认为对服务器等设备实现监控,只是运维工作的开始,而不是全部,运维工作要想做得好,就要做到从全局掌控,能够准确排查出问题,进而能达到提前预防的目标。
这里我们看一个实例,这张图是一个交换机,从2011年3月7日8点,到3月9日8点,整整两天CPU压力图,这些都是系统自动采集的,并自动绘制完成,我们可以实时了解交换机的压力是否需要扩容。
系统中哪些资源现在高负荷了?或者超负荷?是我们迫切需要了解的,从这张图中我们可以看到,这些超负荷运转设备或者资源,这就是我们信息系统的瓶颈。这张图是对服务器进行一个横向比较,查找出瓶颈,找到哪里是系统的最短板,同样也可以对交换机等其他设备进行对比,这样大大提高了我们运维管理的科学性和管理效率。
下面是出现故障,及时准确定位的效果。出现故障不可怕,可怕的什么呢?可怕的是我们不知道故障发生了,或者找不到故障是什么引起的,进而造成问题扩大化。针对这一问题,我们是这样解决的。我们把所有关注的主机放到一张雷达扫描图里,如果这个主机宕机了,在这张雷达图里会显示成一个红点,我们运维人员会立刻接到短信通知,马上进行处理,可以说有了这个功能,我们运维人员的心里会踏实一些。
最后一点,是我们做到了换位思考,从用户体验出发,提高服务质量。系统好不好用,速度快不快,谁最有发言权?不是系统管理人员,而是用户。我们报社各业务系统都采用BS模式,用户工作时浏览器与服务器的享用时间非常重要,直接影响到用户感受。项目实施以后,我们实现了可以用直观的图像方式,从用户角度展现我们提供的IT服务质量,通过模拟用户登陆页面,将这个环节所有的时间进行统一分析,还可以清楚知道用户从登陆开始到进入系统总共用了多长时间,哪些时间是最影响用户体验度,进而想办法加以改进,提高服务质量。
讲完系统实施的效果,我再举两个具体案例。去年12月底,发现编辑业务系统速度有时非常慢,然后我们用摩卡系统追踪12月28日一整天的编辑系统主机和数据库运用情况,发现随着使用,数据库占用内存过高,导致主机内存不足,大家可以看到,剩余内存不到20兆,就系统调用磁盘虚拟内存,如下图所示,波峰位置是红线标志的地方,意味着这时候用户会感觉速度很慢,性能严重降低。针对这种情况,我们立即扩展了内存,并继续进行监测。
这张图就是内存扩容以后,我们在1月12日进行的数据监控,现在系统剩余内存保持在1.8G左右,并根据负载正常波动,虚拟内存不再有占用情况,系统速度恢复正常,这是一个实施案例。
我们再来看另外一个案例,今年的6月29日凌晨1点多,人民日报社海外版采编系统无法连接数据库,为了使正常生产不受影响,海外版采用方案,确保第二天的出报,但是为了避免类似情况再次发生,领导非常重视,要求海外版技术人员查找原因。因为他们没有这种技术实力和手段,于是他们请求我们给予技术支持,我们从摩卡系统中调取了27日-29日海外版信息系统设备所有的信息,经过分析发现,29日1时左右,摩卡显示海外版交换机异常宕机多次,而且就在工作的时候也是频值过高,达到20多毫秒,而其他交换机正常情况下不超过5毫秒,经初步确认应该是交换机老化所致,性能不是太稳定。后来我们也经过检测,得到了核实,最后用监测数据向海外版相关领导和同志出具书面分析报告,在摩卡系统部署之前,类似的情况我们也发生过,但是这种问题是无法得到重现和查证的,因为这种异常情况会随着交换机的重启就消失了。所以说这个项目的实施,一定程度上解决了困扰我们多年的技术难题。
总的来说,摩卡系统在《人民日报》的实施实现我们的预期目标,全局掌控,预防为主,详细分析,排查瓶颈,及时定位,快速处理,协同配合,有效提升《人民日报》应用管理水平,增强技术支撑和保障能力。
最后,我来讲一下我们《人民日报》对IT运维管理的一些展望。为了更好提供更优质运维服务,在现有基础上我们准备做如下几件事情:
首先,将单机展示改为多屏和多窗口展示,建立我们自己的集中监控中心。还有建立更强大业务监控系统,通过演示MochaBSMVisto系统,感觉非常好,希望我们今后工作能够与摩卡系统公司开展更深入合作,不断提高我们的运维管理水平。谢谢大家。