时间:2023-03-10 15:05:06
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇运维管理范例。如需获取更多原创内容,可随时联系我们的客服老师。
关键字:集中帐号管理、集中认证、集中授权、安全审计
中图分类号: G250.74 文献标识码:A
随着信息化技术的日新月异,信息化建设也取得了飞速发展,系统核心业务大多应用采用集中化的数据处理中心运行模式,设立相对集中的数据处理中心,伴随信息化的不断推进,业务应用、办公系统不断被推出和投入运行,大量的服务器主机来运行关键业务,提供业务应用、数据库应用、运维管理等服务。
由于运行着大量的网络设备、主机系统、数据库系统和WEB中间件,它们分别属于不同的部门和不同的业务系统。目前各IT系统都有一套独立的认证、授权和审计体系,并且由相应的系统管理员负责维护和管理。当维护人员同时对多个系统进行维护时,工作复杂度成倍增加。另外管理员给用户分配权限,缺乏集中统一的资源授权平台,无法严格按照最小权限原则分配权限。随着用户数量的增加,权限管理任务越来越重,系统的安全性无法得到充分保证,给业务系统带来重大的安全隐患,甚至影响业务系统运行效能。具体体现在如下几个方面:
1、账号共用问题
网络中网络设备、主机系统和数据库系统众多,有些帐号多人共用,不仅在发生安全事故时,难于确定帐号的实际使用者,而且难于对帐号的扩散范围进行控制,存在安全隐患。
2、资源使用问题
系统的增多,使运维人员经常需要在各个系统之间切换,每次从一个系统切换到另一系统时,都需要输入用户名和口令进行登录,给运维人员的工作带来不便,影响了工作效率。运维人员为便于记忆,会采用较简单的口令或将在多个系统间使用相同的口令,弱口令和相同口令危害到系统的安全性。
3、授权力度问题
在这种复杂异构的支撑体系中,IT运维最佳实践是用户最小权限分配原则,由于各系统单独授权,无法严格执行,同时,随着业务系统的增加,用户的增加,用户授权管理工作也变得相当复杂,系统安全性受到威胁。
4、资源审计问题
由于各IT系统独立运行、维护和管理,所以各系统的审计也是相互独立的,不但各个系统单独审计,即使同一系统中的每个网络设备,每个主机系统都要分别进行审计,缺乏集中统一的访问审计平台。无法对IT系统进行综合分析,不能及时发现内部破坏和外部入侵行为。
如何提高系统运维管理水平,满足相关标准要求,防止黑客的入侵和恶意访问,跟踪服务器上运维人员的操作行为,降低运维成本,提供控制和审计依据,成为一个单位或公司越来越关心的问题。
可信运维管理技术作为目前内网安全最前沿、最核心和最全面的技术趋势,可以针对核心服务器、数据库等资源的运维,提供了最核心的监控和保护,通过部署该技术进行运维管理,实现了运维人员集中的账号管理,提高了管理的有效性;实现了集中认证与访问控制,提高运维安全性;实现了集中授权、安全审计,规范运维过程。
1、集中帐号管理,提高管理有效性
通过可信运维管理会建立一套新的用户体系,完全替代原有各系统独立管理的用户体系,前端用户直接对应到维护人员,后端用户直接对应到原各个系统用户,提供集中可实名的用户管理机制。通过统一用户信息维护入口,保证各系统的用户帐号信息的唯一性和同步更新;
2、集中认证与访问控制,提高运维安全
集中认证实现用户访问信息系统的认证入口集中化和统一化,并采用高强度的认证方式,使整个信息系统的登录和认证行为可控制及可管理,从而提升业务连续性和系统安全性。
集中访问控制为维护人员提供统一的系统和设备入口,提供访问控制功能,有效的解决运维人员的操作问题,降低相关信息系统的安全风险。
3、集中授权、安全审计,规范运维过程
【关键词】企业;SAP系统;运维管理
很多企业已经实施或正在实施SAP系统,多数企业SAP系统实施过程中关注的重点是如何满足业务和管理的需求,目标是通过SAP提升企业管理水平,因此在这方面投入了更多多的时间和精力。SAP上线后企业关注的是系统的性能和不允许间断作业。于是SAP系统的日常管理及安全也提出了大量的挑战。而企业的SAP多数是兼职人员来管理,能力有限,企业更多的时间是为了满足和保证系统的高可用性。因此,他们的主要工作是为了满足不断增多的用户,不断增涨的业务需求。安全性成了重中之重,企业也往往只关注SAP系统的性能和不间断来满足业务需要。安全方面任何行为或操作都不允许影响业务。
SAP系统,它在企业中的位置绝对是最重要的和最关键的,任何闪失都不允许出现的。企业花费大量的人力和物力来打造SAP系统,看重就是业务功能的实现。功能在业务部门眼中绝对排第一位,任何可能影响SAP系统正常运行的行为都会被扣上一顶影响生产,影响业务的帽子。造成了SAP后台管理人员害怕、也不敢提出对SAP系统的任何变更和调整。因为谁也禁不起这顶大帽子。这就造成了后台管理人员工作明显倾向于稳定、性能。可是,稳定和性能是非常耗时耗力,在努力解决SAP系统稳定和性能的同时,安全往往被忽视。
企业只重业务,轻视安全的事例比比皆是,这是多数企业的通病。出了安全问题才会亡羊补牢的事件也时有发生。SAP系统能够影响业务,影响生产,如此重要,企业更应该重视其,安全不要被遗忘,不要被忽视。
本文重点讨论SAP系统安全容易被忽视的方面,任何方面对安全而言都是重点。
其一,权限。SAP实施之初就会规划和设计用户权限,SAP系统本身的权限设计也非常到位,非常精细,可以看出SAP公司重视安全管理。多数企业初期把权限管理的都比较好,但随着企业的运行,业务人员感觉对权限的需求永远满足不了其实际业务的需求,于是业务人员的权限会申请更大的权限。造成的结果就是权限形同虚设,到处都是权限过大的用户,一旦发生泄密事件,系统管理人员无法排查。因此,建议企业不要因为业务需要而放任权限的审核。即使很麻烦,即使效率低,也要进行严格的管理,使之防患于未然。
其二,操作系统。是最容易被企业忽视的SAP系统安全的一部分。SAP系统所有数据在数据库里,数据库在操作系统下,因此取得操作系统权限就相当于获得了整个数据库,进而取得了整个SAP。因此操作系统安全不容忽视。
其三,备份。SAP系统备份是必须的,虽然它可能永远也用不上。备份是运维管理人员的定心丸,也是SAP系统管理工作最重要的组成部分。但企业往往只重视备份,而忽略恢复。备份不是主要的,定期的恢复测试才是备份的意义所在。
其四,接口。企业中同SAP系统集成的系统越来越多。这方面的安全容易被忽视,SAP系统集成需要有一定权限的用户,用户创建后,授权限,接口开始使用,需要慎重管理这些用户和密码,这是一个非常危险的入口。因此,建议管理这些用户,或实施接口尽量减少这些用户的权限。
其五,数据库。也是最容易被企业忽视的SAP系统安全的组成部分。SAP系统安装过程中要求配置了多个数据库的用户和密码。上线后,这些用户将被彻底遗忘。SAP早期版本system的密码是Oracle数据库的默认密码,后期几乎不会被用到,当然也无人管理。多个用户设置成同一个密码,而且很可能非常简单,能否记住创建的哪些用户,实施顾问可能也无法说清楚。关注这些被大家遗忘的用户能够降低系统的风险。
关键词:运维四化;运行操作;例行工作;岗位工作
四川中铁能源五一桥水电有限公司所属五一桥电站位于甘孜州九龙县九龙河上,是九龙河“一库五级”中的第二个梯级,装机容量132MW,年利用小时4730,多年平均发电量6.247亿千瓦时;电站坝顶高程2426.5m额定水头202.5m,电站采用径流引水式开发,具有日调节能力;电站按无人值班(少人值守)的原则设计,全厂采用计算机监控系统集中控制,以220kv电压等级接入四川省电网。
近年以来,四川中铁能源五一桥水电有限公司以电力安全生产标准化达标为契机,2013年3月,公司顺利通过“电力安全生产标准化”二级现场评审。通过不断探索和提升运维规范化管理的新途径、新方法,逐步建立了“运行操作规范化、例行工作程序化、指标控制精细化、岗位工作全能化”的“运维四化管理”标准模式。有效地促进公司现场安全生产及运维管理水平的提高。
运行操作规范化,现场管理大跨步。严格规范执行“调度管理规程”。现场工作严格遵循执行“两票三制”并进行考核。根据现场倒闸操作及设备运行工况,组织编写“两票管理”数据库,操作票和工作票采用标准模板,制订固定格式,编写完成标准操作票及工作票数据库,需要使用时立即调出相应操作票或工作票即可使用。现场操作严格执行一停、二看、三想、四干、五查、六问的“倒闸操作六步法”。
例行工作程序化,强化标准执行力。公司大力推行运维基础管理工作。建立“夜班、白班及中班工作提示”,每班工作流程及内容程序化。每日召开班前计划会,告知人员危险点和相应的预控措施,进行签字确认。每晚19:00定时召开团队活动,开展班后总结会。定期工作方面,根据定期工作特点,编写制订“定期工作标准执行单”32份,执行单包括危险点分析、操作步骤、评价标准等,保证定期工作按照程序化高效执行。每轮值班期间根据设备及系统运行状况至少开展一次运行分析、事故预想和事故演习,每位员工根据学习情况至少开展一次考问讲解活动。建立和完善运行管理例行工作,提高安全生产标准化在现场工作中的执行情况。
指标控制精细化,降本增效显端倪。通过优化机组运行方式,合理利用库区水位,同时运行人员做到勤调、细调,尽可能使机组按照设计或最优值运行,根据省调“两个细则”考核要求,充分利用调令上限+2%区间,确保参数压红线运行,不合格电量指标控制在0.05%以下。开展“度电必争”系列活动,提升与省调沟通技巧和方式,积极申请调令,力争“多发电、发好电”。截止11月06日,厂用电年累计较去年同期减少58.87万千瓦时,减少43.61%,发电量较去年同期增加1.63亿千瓦时,增加37.42%。
岗位工作全能化,资源配置新升级。公司重视运行等各类人员的培训,制定年度及月度培训计划,明确培训目标,采用“讲授法”、“视频学习”、“事故案例讨论”及“网络培训”等多种形式,培训落实到每名现场员工。建立“导师带徒”活动,以“传、帮、带”等行之有效的培训方式,坚持集中培训与自我培训相结合,达到运行岗位全能化的要求。
畅想全面运维
对于运营商来说,一旦信息系统建设达到一定规模,其整体信息系统资源的监控和管理就成为必须考虑的问题。其中涉及基础网络设备、安全设备、网络优化设备、网络加速设备,以及网络管理设备等,称之为信息系统的全面运维。从长远考虑,用户需要一个全面运维的解决方案,来帮助他们加快信息化的建设。
据悉,神州泰岳软件股份有限公司日前在京了基于IT运维管理的全线产品,共八款新产品。这一事件表明:在中国运维管理市场,具有自主版权的全面运维管理解决方案已经诞生。
这八款新产品诠释了神州泰岳的业务方向――专注于运维管理领域的系统网络管理、服务管理、安全管理和数据管理四大业务,它们分别是服务管理流程方面的电子运维管理系统、IT服务管理支撑平台、统一投诉管理系统;系统网络管理方面的综合监控管理平台、系统管理软件和服务水平管理系统;信息安全管理方面的安全运行管理中心、统一身份及访问安全管理系统。
坚定业务方向
早在1998年3月,当国内用户对“网络管理”还不太了解的时候,神州泰岳就开始从事高端系统网络管理软件的研发与服务。随着企业的逐步壮大,神州泰岳得到了客户的广泛认可。IBM、BMC、CA、HP等领先的软件公司陆续与神州泰岳合作,共同拓展这一市场。
2002年5月,羽翼渐丰的神州泰岳在了完全自主版权的系统网络管理平台Ultra-NMS1.0之后,董事长王宁决定走自主研发的道路,同时也确定了公司的定位――专注运维管理领域,做中国的运维管理专家。基于运维管理的定位,神州泰岳在确定了网络管理、服务管理、安全管理和数据管理四大业务方向之后,相继组建了系统网络事业部、信息安全管理事业部、服务流程管理事业部和数据应用管理事业部,进行自主知识产权产品的研发,形成了具有自主产权的运维管理产品。
在运维管理界耕耘多年之后,神州泰岳在国内运维管理市场上拥有最广泛的客户群.成功实施了数百个运维管理项目。比较典型的电信行业应用包括:中国移动五省BOSS网管项目和十四个省数据网管项目;中国移动总部电子运维管理系统(EOMS)项目;中国联通三十一个省综合数据网管项目;中国网通总部EDC综合网管和DCN网络的安全运行管理中心项目等。
主导中国市场
在实施运维管理项目的过程中,神州泰岳的技术水平和服务水平不但得到了客户的认可和高度评价,还得到了业界的一致好评。
关键词 :运维 标签 网络 信息
随着社会的网络信息化覆盖面越来越广,通信机房的设备越来越综合化、多样化,越来越多的远端机房的应用,机房的规模随之增大,面对大面积、远端的通信机房、众多的设备、大量的日志,传统的标签、书面记录、视频、网管系统的应用,传统的运维管理模式已经不能满足目前通信的实际需求,必须寻求一种现代化的软件来代替原有传统的运管模式,使得复杂、多样的运维管理能够简单化,从而提高故障处理、资料管理、数据查询、设备监管等工作效率。由此我们进行一些探索和尝试。
主要功能
1、站点导航
为使得长江沿线通信机房均能使用运维管理系统,软件考虑设计了站点导航功能,通过站点导航的图片,可以轻松地导航到长江沿线的各个机房,实时查看到机房内的资料,以及业务管理情况。
2、运维规范
任何工作都有其规章制度,规范、流程对于运维管理来说更为重要,如果期间出现差错,将会带来很大的损失。规范、流程应及时更新,在功能设计时,应该提供可更新、添加功能。其次,规范应能轻松进行查阅,当运维工作人员遇到紧急业务时,可快速查阅。
3、设备管理
通信机房,最重要的莫过于设备资料的管理,随着设备越来越多,通过原先的标签和文档来注明各种资料已经完全不能满足要求,一方面,资源不能很好地共享,经常出现设备资料只有固定的少数几个人掌握;另一方面,由于设备集成高,体积小,端口多且复杂,电路的来龙去脉比较繁杂;再则综合机房、远端机房温度偏高,随着时间的推移,端口标签经常会出现脱落现象,由此也给设备判断带来困难。
鉴于此,设备资料通过信息化管理更为合适,不仅能够解决上述困难,而且给运维工作人员减轻负担。
4、值班信息
值班信息主要功能是对机房日志资料的管理,通过包括值班记录和基础数据,值班记录是对值班信息的实时电子记录,实现用电子台帐来代替传统的文本台帐。利用电子台帐来进行管理运维日志后,可实现日志的数据库管理,可以轻松进行统计和查询,可方便实现月度、季度、年度或者任意时间段信息的统计,同时也提高值班记录的痕迹管理,加强了值班、维护人员的工作责任性和自觉性。
5、故障处理
维修记录主要实现设备维修的记录历史,各个设备有各指示灯对设备其运行状况、端口属性和特性指导作用,工作人员根据设备技术说明书、对其日常维护和故障处理经验,进行相应的记录,同时系统会自动统计该设备的出现故障的处理方式以及出现次数的多少,根据记录,当日后当再次出现故障时,可根据该系统功能模块进行逐一排查、比对,对其常见故障进行优先检测,从而提高故障的处理效率,缩短故障时间,减轻工作人员的负担。
系统展望
运维管理系统实现以上功能投入使用后将会大大提高运维机房的工作效率,但我们感觉到系统的功能要不断更新,不断适应现代化机房的发展需求,结合我们近期工作的情况,还探索要解决以下三个问题:
设备编码问题。目前通信机房的设备五花八门,新产品越来越多,如何对设备进行科学合理的分类,成为运维系统的一个非常重要的问题,面对沿江全线通信机房成千上万的设备,全部用设备名称加以区别显然不可行。必须通过科学的分类和编码手段进行标准编码。
关键词:医院信息系统;运维管理;工作效率;安全
近几年来随着医院信息化建设的不断深入,绝大部分医院的信息化建设已出具规模,信息系统应用已延伸到医院各个科室。IT运维管理系统可以帮助信息部门进行日常管理,IT运维管理系统要遵循ITIL标准,其核心理念是"以业务需求为目标,以流程控制为导向,以服务管理为手段"[1]。在应用时不能生搬硬套,应根据医院的具体情况加以必要的调整和改进,并制定出一套行之有效的实施和推广措施,才能让它焕发出应有的光彩。
1我院信息系统运维管理现状
我院信息系统自2012年起进行更换,在原有以财务收费为主信息系统基础上,增加了电子病历、医嘱系统、PACS、物资管理、OA、LIS、无线等系统,硬件设备也不断的增加。我院信息系统运维管理主要存在问题:硬件维护工作量大,维护流程不规范,没有统计分析;软件维护量大,需求和变更管理不规范;硬件资产管理,ip管理不规范;技术文档,软件版本管理没有形成系统管理;网络拓扑不清晰,不能及时预警和查看网络故障等。
2医院信息系统运维管理设计方案
我们把网络运维管理分为6个模块:硬件管理,软件管理,网络管理,机房管理,配置管理,培训管理。
2.1硬件管理
2.1.1资产管理 建立全院IT设备数据库,明确设备所在科室,购入时间,保管人,保修期限,周转情况、厂家维修电话等信息,对设备经行条码管理,方便以后对电脑设备整个生命周期进行跟踪。以电子申请单的方式建立IT设备的申请流程、周转流程以及报废处理流程。这样就会使医院信息部门对医院的IT设备,做到心中有数,有计划的采购和报废电脑设备,避免重复投入,方便为临床服务。
2.1.2维修管理 主要分为电脑维修、打印机维修、其他电脑外设维修。首先建立故障申报平台,工作站操作人员网报申请单,信息部门通过申报平台收到申请单后,根据实际的工作情况进行派工,填写相关信息发往维修人员,维修人员收到派工单后根据故障信息处理问题,维修完成后填写完工报告。
2.2软件管理
2.2.1软件维护 和维修管理类似,建立相应电子申请处理流程,此时应注意的是, 医院信息系统繁多,不同的模块涉及到不同的管理机构,所以在建立流程时一定要注意相应的审批人员,以保证所有数据信息的修改都符合医院的相关规定。流程建立好了,这样信息部门软件维护工作会顺利得多[2]。
2.2.2软件变更 在软件平时应用过程中,软件的流程难免会和医院原有管理流程不一致的地方,这就需要一个变更委员会来判定是否对软件进行修改,我院的变更委员会是信息化工作小组,小组成员主要包括医务科、大内科、大外科、财务科、护理部、药剂科、信息科等主要部门,需求由这些部门提出具有代表性,信息化小组成员一起讨论变更方案的依从性和可行性,最终形成决议,或拒绝或付诸实施。这种方法可以通过信息化手段加以实现,具体实现的技术手段我就不详细论述,它可以带动医院信息化建设循序渐进的发展,避免重复劳动和走弯路。
2.2.3软件新增 由于政府政策的要求和医院自身发展的需要,医院会对软件系统提出新的需求,运维管理系统就应该记录好需求的描述、提出的部门、提出时间、审批部门和审批结果、软件研发时间、软件完成和等信息,这样以来信息系统软件资料记录就完备了,便于以后查阅和利用。
2.3网络管理 网络管理是信息系统运维管理中的重要组成部分;网络系统的稳定、安全和高效是信息系统正常运行的基础,我们主要建立以下3个模块。
2.3.1网络拓扑 能够自动的生成网络的拓扑图,提取现有交换机数据对每个网络端口状态进行监控,拓扑图能在信息部门办公区以大屏形式实时展示。网管员能清楚整个网络的运行情况,能及时准确的对网络故障进行预警和排除,还能对拓扑图进行分析,找出瓶颈和隐患,再次对网络架构进行优化和加 固[3]。
2.3.2网络安全 建立防病毒软件和系统补丁更新工作表,网管员需按计划升级更新后填写此表。能从安全设备(包括防火墙、交换机、网扎、IDS、上网行为管理AC等)中提取报警日志,及时向网管员提示或报警,网管员能在第一时间发现网络中存在的安全隐患,立刻采取应对措施。通过类似的技术手段来帮助我们经行网络安全管理,我们要明确一点,就是没有绝对的安全,管理永远大于技术,技术只是辅助手段。
2.3.3面管理 能远程监控工作站的行为,能控制工作站的安全策略,能统一规范工作站电脑的桌面,工作站不能接入usb存储设备,不能随意更改系统设置,能远程分发文件和安装系统补丁,能统一规范工作站桌面。当工作站出现问题是,上报给信息部门后,信息部门维护人员可以通过远程桌面来解决问题。很多时候信息部门要安装一个软件,就要跑遍全院的工作站,现在就在服务端进行操作,大大的节省了人力物力。
2.4机房管理 机房管理同样可以通过表单流程进行管理,机房管理员必须每天到机房,进入服务器填写巡查表,外来人员经审批进入机房后,必须在机房的电脑上填写登记表(详细记录外来人员名字,进入机房的审批人,在机房进行的操作,进入时间和出机房时间等信息),也可以把机房门禁的出入信息形成日志进行查询。机房环境监控的数据也可实施读取,及时预警。机房重要设备的定期保养表,按照相应的保养计划实时填写。这些步骤可以加强对机房日常巡视和安全的管理,机房管理员的工作量也得以体现。
2.5配置管理 信息部门的设备资料、软件资料、合同文档、在用软硬件的配置文件等的管理一般都很混乱,没有统一编号和存储。通过配置管理,可以上述的资料进行统一的编码管理和存储,在日后的工作中可以随时调阅。当这些资料有改动时,一定要及时修订,保证这些资料的可用性。
2.6培训管理 医院信息化工作中人员培训是一个重要工作,我在这里把它主要分为信息部门人员培训和外部人员培训。信息部门人员培训:主要是信息部门领导按照本部门发展的需求,制定好培训计划表,按照表上的内容安排信息人员培训,并及时录入人员培训的完成情况。外部人员培训:有培训需求的部门先提交申请,相关部门审核后由信息部门统一安排培训。
我们可以把有用的培训资料和视频挂在网上,供大家平时学习。还可以建立一个网上考试系统,对培训的学员进行考核。
3结论
本文基于 ITIL 服务支持的运维思想,针对医院信息运维部门的特点, 在ITIL的基础上添加了对医院信息系统运维流程, 提出了一个运维框架, 在此框架的基础上分析了医院信息系统运维的各个模块,通过数据挖掘分析,可以简化和规范信息部门的工作流程,提高工作效率。当然在实际运行过程中还会遇到不同的问题,还需要大家去总结分析。
参考文献:
[1]田宗梅.基于ITIL的医院信息系统运维管理实践[J].中国医疗设备,2013,06.
IT运维管理软件:拒绝盲目的“主观”
IT管理的目标与功能的发展变化,说明IT服务行业市场潜力巨大,这让众多厂商趋之如骛,均认为自己对IT管理的标准ITIL深度理解了。
究其原因IT服务行业良莠不齐,以下两种现象居多:一种是教条主义,认为国外的东西比较好,外来的和尚会念经,照抄国外的产品或者直接国外的产品,殊不知,软件这东西是会“水土不服”的,国外的产品国内用户用着不一定习惯,这样的IT服务管理平台往往因为流程繁琐被弃之不用。
还有一种就是经验主义,按照以往实施OA、ERP的惯性去理解ITIL、帮助用户建立IT运维管理平台,等到用户开始使用IT运维管理平台时,才发现完全无法达到预期的效果,使用这样的IT服务管理平台无法达到以客户为中心,以流程为导向,无法保障IT基础设施的可控性和稳定性,无法保障业务系统的高质量运行。
而国内中高端IT运维管理方案提供商自主研发的IT运维管理平台,能够实时展现当前企业IT系统的运行状态及趋势,帮助管理人员快速发现问题,分析和确定问题所在。
并且能够很好的将人、技术与流程进行有效地结合起来,实现日常运维工作的自动化、信息化和标准化。
IT运维:帮客户完成“最重要的小事”
首先要建立一个IT运维管理平台,像业务部门有自己的业务系统一样,IT维护部门也要有这样一个自己的业务系统。
通过IT运维管理系统的服务台统一受理用户的请求,服务台也可以有多种的接入方式,比如热线电话、自助服务台等,这样一来确保了所有的问题请求都有专门的人员来接受,减少了资源调配的问题。
IT运维管理系统多线的运维支持人员可以保证各种类型的请求都有合适的人员去响应,避免人力资源的浪费。
IT运维管理系统的知识库系统,可以积累长期的运维管理经验,为企业今后处理同类型问题提供宝贵的经验,并且以利于快速的解决企业内部IT系统的故障。
关键词:银行业:IT信息化建设;IT运维、流程驱动;管理
中图分类号:TP315 文献标志码::A 文章编号:1673-291X(2012)32-0195-02
银行的IT建设已经进行多年了,纵观银行IT发展历史,从早期的单机版,到城市综合网,到全省数据集中,再到全国数据集中,再到各系统的整合,再到以后的新一代核心业务……我们的IT建设一直轰轰烈烈。不过,随着数据的逐步集中,我们的IT信息化建设的重点已经从建设阶段逐步转变为以应用维护为主的运维阶段。笔者根据多年来从事IT运维工作的经验,从IT运维的角度来简单谈谈自己对IT运维管理的几点粗浅认识,谈谈怎样做到卓有成效的IT运维管理。
一、 IT运维管理中存在的问题。
在现代化的集约型IT运维管理中,还存在着这样那样的问题。
(一)IT运维管理者的思维问题
现在的IT运维,在各单位依旧存在诸多挑战。管理者习惯沿用建设时期的管理思路和管理方法,这与现阶段的管理需求已不相适应。IT如何才能和业务充分融合,管理者如何使信息化真正能够带给业务价值,是大家非常关注的话题。
(二)开发转运维的问题
一个IT项目,如何从开发自然平稳地过渡到运维,是一个难题。我们的开发没有问题,但是从推广建设,到后期的维护,如何平稳地过渡,却不容易,牵涉到很多问题。开发的人不能参与运维,运维的人如何能更加了解系统,以提高运维的效率?
(三)IT运维问题的及时发现和处理问题
IT运维的监控管理十分重要。运维交易系统的安全稳定,不仅对银行的声誉,而且对社会的安定,都起着十分重要的作用,而及时发现问题并上报,将对问题的解决赢得宝贵的时间,可以化大事为小事,化小事为无事。
银行为提高监控管理水平已分别采购了部分监控软件;同时,开发人员在开发应用系统时,也提供了一些监控手段;IT运维人员在日常运维工作中,也开发了一些监控脚本或监控程序。但是,现有监控手段存在种类繁多、范围不全、功能有限、数据分布散乱等一系列的问题,基于目前的管理现状无法形成一套集中、实用、有效的监控管理体系。而对于运维问题的处理,则完全依赖系统的主岗,依赖维护人员的技术水平。IT问题解决的快慢和质量,完全取决于维护人员的技术熟练程度。
(四)IT运维价值难以体现
对现在的IT运维管理,缺乏有效的激励约束机制。大家做了大量默默无闻的工作,不出事情还好,出了事情就找IT,就是你运维的责任。这种激励约束机制,能起到了一定作用。但是现在IT运维人员都比较小心翼翼,害怕出现误操作,或由于忘记按时间点检查而被罚,心理上有一些负担。而一旦出现问题,可能首先想到的是如何免责甚至推卸责任,而不是如何快速有效地解决问题。如此,IT运维的价值如何体现?
(五)IT运维与人员进步、个人发展的矛盾问题
IT运维工作大多是比较机械、简单的重复劳动,缺乏创造性,个人的发展空间有限。而IT运维则需要有一个比较稳定的IT运维团队,要留住人,就需要满足人的需求。IT运维的稳定与个人的发展存在一定的矛盾。
二、 如何进行卓有成效的IT运维管理
针对以上问题,如何逐一解决,进行卓有成效的IT运维管理?
(一)要转变观念,认识到IT运维的重要性
对于IT运维,现在很多人仍然沿用建设时期的管理思路和管理方法,与现阶段的管理需要已不相适应。当前信息化建设中最大的问题,不是技术问题,也不是资金问题,而是缺乏科学的IT管理理念;作为IT管理者最大的问题不是缺少经验和能力,而是缺乏卓越的管理理念和管理方法。我们的信息化建设,迫切需要解决的不是技术问题,而是完善的IT治理机制与IT管理理念。
现在的IT信息化生命周期中,运维阶段占了80%,大量信息化效益的体现也是在此阶段。信息化工作真正体现价值和效益,离不开运行和维护阶段,如何提高运维水平,才是IT管理的重点。
(二)合理、妥善解决开发转运维的问题
IT运维工作始于设计,在立项的时候就要考虑运维的主体、要求等。第二个阶段是需求分析,这个阶段,我们不能只是考虑功能层面的,非功能层面的也要考虑。比如说可用性指标、内控指标等,对于运维的特殊要求,都必须在需求分析阶段考虑清楚。在上线阶段,管控更重要,从测试到上线的过程要有规范化的步骤和文档,确保真正能够对系统能够运维。上线稳定运行之后,开发人员仍然需要扮演二线支持的角色,解决应用系统疑难的问题。真正上线之后,IT运维工作必须由运维部门来负责,不能让开发人员随便动生产环境。开发、后台运维和前台应用维护必须严格分工,开发人员不能参与后台运行和前台维护业务,负责后台系统维护的人可以参与开发前期方案设计,但不能参与开发编程工作。如果开发人员参与后台运行和前台维护,就有盗用客户的账号和密码实施内部作案的机会。
(三)引入ITIL流程驱动方法进行管理,及时有效地发现并处理问题
积极引入IT服务管理的最佳实践-ITIL(IT Infrastructure Library),用流程驱动方法进行管理。通过引入流程管理工具,可以规范运维人员的日常操作,减少人为失误;服务台提供了面向用户的统一接口;有效维护的配置管理数据库(CMDB)可以降低变更带来的风险。
把各系统的运维监控整合在一起,建立方便,直观的集中监控管理平台。问题发现后,IT运维人员只需要按照系统相关知识库该问题的操作步骤一步一步操作下去就可以了。做到“哪怕是一个只有基础技术能力的陌生人,也能做专业IT维护”。当然,这需要建立完整的系统资源管理数据库和知识库,包括所有硬件设备的配置情况,所有软件的参数配置、购买日期、维修记录等。这样,几乎所有问题都可通过流程化的管理工具解决,因此,对于IT运维人员来说,不需要很高的技术水平,就可以进行维护支持。
(四)IT运维的管理者要学会如何展示IT运维的价值
IT运维是什么?不同角色的人会给出不同的答案。技术部门认为IT运维是技术;业务部门认为IT运维是资源、是服务;财务、人事部门认为IT是运维是工具;管理者认为IT运维是成本、是开销。其实IT运维是一种关系,即作为服务提供者的IT部门和作为用户的非技术部门之间的供需关系。IT运维人员做了许多默默无闻的工作,那么效果体现在什么地方?IT部门的管理者须要把业绩用业务部门和主管领导看得懂或者是听得懂的方式去展示,不能只有技术的IT运行月报,还需要有面向业务的IT绩效报告,以体现IT运维的价值。
(五)深入发掘,积极创新,为IT运维人员创造发展空间
【关键词】综合运维管理 监控管理平台 集成接口
1 引言
随着信息化建设的不断深入,我校的IT架构日趋复杂,用于支撑整个数字化校园系统运行的IT设备和基础平台也越来越大,故障处理不及时和变更上线导致的宕机增多等问题开始显现,单纯的基础建设已不能有效增强运维部门的保障能力。与此同时,人们的工作对信息系统的依赖越来越大,因此整个信息设备的稳定运行以及日常的维护工作就显得尤为重要。
目前的管理方法是:使用一些简单的监控产品,结合定期的人工巡检,来发现IT环境中已经发生的故障,管理人员常处于被动的角色,无法预知或及时获知IT环境的运行状况,在进行故障排除时,往往是通过经验来判断故障点,然后通过排除法逐级检查,最终找到故障设备,故障响应、处理时间长,工作效率低,管理困难,我们急需一套智能的统一的综合运维管理平台,将被动的管理化为主动的监控管理。
2 运维管理存在的问题
运维管理存在的问题主要包括:系统架构越来越复杂,设备运行维护管理混乱;工作标准化、规范化欠缺,随意性较大;人员解决问题时缺乏协作,责任不清晰;无法和用户进行及时的沟通并解决问题,用户满意度不高;没有形成有效的知识库,遇到相同的问题,不能从知识库获取解决办法,依赖个别维护人员;缺乏 IT 运维工作量的量化考核工具,没有计算 IT 运维人员的工作绩效,也没有监督IT 运维人员解决故障的处理效率和处理质量。
3 综合运维管理平台建设目标
综合运维管理平台建设的总目标:(1)全面监控IT资源状态;(2)提高IT部门运维效率和服务质量;(3)体现IT部门运维价值。
具体目标:(1)实现管理范围内所有设备的监控管理;(2)实现故障告警信息的定制、获取、处理和统计功能;(3)实现底层支撑架构、网络设备、主机、中间件、数据库及通用的性能数据的采集和统计功能;(4)根据监测到的性能原始数据,对信息系统运行状况,运行趋势等进行分析,提供分析报表;(5)提供对业务可用性的实时监测;(6)提供灵活的、可自主设计的服务管理平台;(7)设计符合高校的计划与排班管理功能;(8)可对运维服务进行考核分析。
4 综合运维管理平台系统设计
4.1 设计思路
综合运维管理平台应是一个平台级的系统,应在统一平台上综合提供底层支撑架构管理、网络设备管理、各类主机/数据库/中间件等服务管理、业务运行监控管理、资产管理、IP地址管理、机房管理、存储虚拟化平台管理、服务管理等,应允许第三方软件通过标准接口插入本系统,共享数据采集、共享数据记录、共享故障处理的统一平台。
综合运维管理平台应能够采集管理范围内所有网络设备、主机、软件及应用的配置、运行、性能及事件等数据,通过对采集数据的分析处理,为我们提供网络、系统及标准应用系统的状态监控管理。
综合运维管理平台应对事件故障的发生以及相应流程标准处理机制全面考虑,使系统能够根据我们的需求功能进行高效的管理与预处理工作。当平台自动发现机制中,一旦出现故障信息,能够迅速地以IT系统维护的关系作为依据对整个IT信息进行自动筛选,并发送给相关的运维管理人员,系统将收集到的信息进一步向工作台进行转发,以提醒相关人员对故障进行进一步的处理工作。
4.2 系统设计
综合上述观点,根据我们现有设备的管理、使用情况,参考目前主流技术,综合运维管理平台应由监控工具层、数据汇聚层、运维管理层、集成接口组成。系统的架构通过分层、分模块进行设计,遵循注重开放、规范接口、松散耦合的设计原则,降低各管理软件的整合工作量,实现管理的集中化。
4.2.1 监控工具层
监控工具层是各类专项监控系统的集合,通过远程监控手段和监控实现对各类被管对象的监控管理。主要实现对网络、主机/虚拟机、数据库、中间件、业务服务、存储、机房环境、安全等各类资源的监控管理。
4.2.2 数据汇聚层
数据汇聚层由数据汇聚接口、数据分析引擎、资产配置库、性能指标库、运维数据仓库等子系统组成,是整个平台的数据核心体系,是实现系统集成性和可扩展性的关键。系统通过资产配置库为全网设备建立资源台,通过性能指标库来保存资源的各项监控指标,数据分析引擎实现对资产配置、性能数据、告警事件的分析处理。
4.2.3运维管理层
运维管理层是系统的业务功能实现层,由综合监控展现、服务流程管理、报表管理、运维门户等四个子系统组成。其中综合监控展现主要包括告警监控视图、业务全景监控视图和实时性能监控视图,通过系统自动生成或可视化工具来设计和展现各类运行展现视图;服务流程管理子系统实现日常运行维护管理的规范化和流程化;报表管理子系统实现资产、性能、容量、告警、工单等各维度的统计分析;运维门户实现各项业务功能的组织与呈现。
4.2.4集成接口
集成接口是规范化系统数据流、实现系统内部模块、上下层系统之间、第三方应用集成的统一适配接口,采用标准接口协议,实现身份认证、OA等应用的集成,同时实现与上下级管理平台直接的级联和数据上报管理。
4.3 系统特色
4.3.1 统一的访问门户
运维门户提供面向运维人员的门户基础框架和单点登录服务,以便各个业务模块的界面整合和统一呈现。门户视图可以根据需要灵活调整,基于不同角色、不同使用人员呈现不同的个性视图。同时提供系统自身和第三方的页面整合,并通过统一授权管理,形成面向用户业务的视图展现集成。
4.3.2 统一的资产配置库
构建统一的资产与配置管理库,实现资源、资产、资料的全面管理,解决各类资源配置管理分散、无序的现状,集中管理和保存所有的资产和配置信息,保证数据的准确性和查询的便捷性,并有效解决对个人依赖的风险。
4.3.3 统一的事件平台
统一事件平台实现各类告警的接入、识别、处理规则制定,实现整个IT运行环境各类告警的集中监控与处理,提供开放式的数据集成接口,可以接收来自不同设备、不同软件系统发出来的告警事件,从而保证所有被管对象的集成整合,真正实现统一管理平台。
4.3.4 统一的性能管理
监控指标抽取引擎提供对各类监控指标的集中分析和处理,系统通过标准的接口体系收集,根据管理需要将各类原始性能数据进行规整后,并根据分析判断出阈值事件,写入监控指标库中,同时将超过阈值的数据报送给统一事件平台,形成告警联动。
4.3.5 灵动的视图开发平台
灵动视图开发平台以配置管理库和集中监控数据为支撑,面向对象技术,实现各类视图的可视化设计。用户能够根据管理需要设计各类视图,实现各类监控对象的资产、监控、操作、管理四个维护数据的综合展现。
可以方便灵活地定义流程和子流程,设定相关服务、角色、规则和流转条件,使得运维业务按预定的流程在系统中流转,实现根据人员、优先级自动选择流向。
4.3.7 呼叫中心
部署的呼叫中心与门户系统、网络计费系统集成,提供标准的二次开发接口。呼叫中心应支持智能化座席、自动语音导航、智能来电弹出、来电智能分配和录音等功能。
5 结束语
国内现有相关软件多是监控系统和运维系统各自独立,或通过简单接口连接,但信息、资源不共享,已不能满足运维部门的管理需求,因此,研究开发一套智能的统一的综合运维管理平台具有现实意义。
参考文献
[1]李渤,陈莹.IT的运维管理与实现[J].计算机光盘软件与应用,2013(18).
[2]孙建庆.信息系统运维综合监管平台设计[J].电力信息化,2009(03).
[3]方国洪,孙光宇,何帆,王斌华.浅谈IT 运维管理之系统集中监控[J].浙江冶金,2013(01).