IT项目运维管理的文档?
这里只有系统运维驻场服务的文档,供你参考吧。
驻场技术服务内容
为确保甲方相关设备完好,运转正常,驻场技术服务包括规范性日常维护,故障应急响应,设备问题解决等范围,具体工作内容如下:
一、设备应用
1、负责对所有设备(详见附件1)的应用操作,每季度提交每个设备的配置和存储应用情况报告、网络拓扑报告、IP分配报告,并负责对上海海事局航海图书印制中心的相关工作人员进行培训;
2、对新应用的设备需求,驻场工作人员应及时提交设备配置现状及设备规划报告,以便该应用能及时实施;
3、掌握设备的运行情况,就保修期、存储空间等及时进行提醒;
4、建立相关系统软件各种故障的恢复流程及应急措施;
5、协助印制中心进行机房改造、设备搬迁、网络改造等工作。
二、环境与设备
1、指派专人定期对机房供配电、空调、温湿度控制等设施进行检查记录;
2、指派专人对机房人员的出入、服务器的开机或关机等工作进行记录;
3、按照合同附件资产清单,建立服务器及网络设备的档案,形成不易破坏的醒目标识,并定期更新相关内容;
4、对资产清单所列的各种设备、线路等,做好检查维护工作,发现故障,及时报告,并安排服务联系或维修,对维修情况提交书面报告;
5、对资产清单所列的各种设备、线路运行及维修记录,按重要性级别,定期书面报告;
6、形成每日巡视制度,对机房中相关设备的告警显示、空调、UPS等实际状态进行记录。
三、监控和安全
1、通过IT资源监控系统,对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录、妥善保存并按重要性级别,定期书面报告;
2、指派专人期对监测和报警记录进行分析、评审,发现可疑行为,形成分析报告,并采取必要的应对措施;
3、指派专人,负责网络运行日志、网络监控记录的日常维护和报警信息分析和处理工作,提出优化建议及方案;
4、根据厂家提供的软件升级版本对网络设备进行更新,并在更新前对现有的重要文件进行备份;
5、定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补;(甲方配置相关硬件设备后实施)
6、对关键的网络设备服务配置文件进行定期离线备份;
7、定期检查违反规定上网或其他违反网络安全策略的行为,书面报告;(甲方配置相关硬件设备后实施)
8、指派专人进行核心服务器的工作压力监控,针对业务的增长定期生成主服务器的工作压力报表,并且预估业务增长对服务器压力的影响提出合理化建议;
9、指派专人进行核心数据库的工作压力监控,定期生成报告,并就改进提出合理化建议。
四、操作系统安全
1、根据甲方业务需求和系统安全分析结果,确定系统的访问控制策略;
2、定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;
3、对小型机进行安全加固,提升操作系统安全性。在不影响数据库工作性能的前提下,打开安全选项进行安全加固。
4、及时安装系统的最新补丁程序,在安装前,首先报告同意,且在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;
5、所有对系统进行的维护,均需详细记录操作日志,包括重要的日常操作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的操作;
6、定期对运行日志和审计数据进行分析,以便及时发现异常行为;
7、认真学习系统管理员角色要求,明确权限、责任和风险。
五、备份与恢复
1、根据印制中心实际应用情况、根据生产相关数据的连接关系、根据应用的业务特点和软硬件资源,制定详细的系统数据备份计划,确定合理的系统备份策略。定期备份重要业务信息、系统数据及软件系统等;
2、应根据数据的重要性和数据对系统运行的影响,执行数据的备份,每月提交数据备份报告,必要时实施数据恢复;
3、按照控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;
4、按要求,定期执行恢复程序,检查和测试备份介质的有效性,确保可以在恢复程序规定的时间内完成备份的恢复;
5、定期进行备份介质的维护、更新、替换、轮转,保证备份介质可靠有效,针对重要备份介质进行双机房异地轮转;
6、制作备份和恢复的测试过程手册,最大地提高工作效率。
六、安全事件处置
1、及时报告所发现的安全弱点和可疑事件,但任何情况下均不应尝试验证弱点;
2、在安全事件报告和响应处理过程中,分析和鉴定事件产生的原因,收集证据,记录处理过程,总结经验教训,提供防止再次发生的补救措施,过程形成的所有文件和记录均应妥善保存。
七、服务报告及工作流程整理
1、上述工作内容中要求提交的书面报告之外,驻场人员提供的报告包括:
序号报告报告方式频度1事件处理报告格式文档(邮件)事件发生时2巡检报告格式文档(邮件)每日3月工作报告格式文档(邮件)每月4季度服务报告格式文档(邮件)每季度
2、上述工作内容,驻场人员应及时整理汇总相关操作流程,形成作业指导文档,定期上交。
报告人:XXX
时间:2012-X-01 ~ 2012-X-07
一、常规工作
1 LVS项目推广;
2 发布系统网络调整配合;
3 快答系统上线;
4 制定Q2的5年服务器替换计划;
5 系统运维等常规工作跟进;
二、项目跟进
1、IT运维平台
机架资源功能因等待研发的进度,延迟到下周完成;
二期总结除bug;
运维平台的使用推广,并开始完善应用关联关系的资料;
绩效体系积分处理的实现是第三阶段的重点,预计6月30日完成;
2、分布式文件系统测试
完成Mogilefs线上测试,并出具报告;
整理Mogilefs上线所需的资源和计划,下周约开发谈具体部署;
搭建Mogilefs的内部开发环境,配合平台的开发工作;
总结:经过4个月的内部和外部测试,Mogilefs的整体测试已经全部完成,从测试的结果看,无论从性能、稳定性、扩展性、容灾性等各方面的指标,Mogilefs都可以符合目前的线上存储的需求,经过多资源的统计,仅需很小的投入即可完成改造,并能有效的利旧设备,整个部署预计7月中旬完成。
三、团队管理
部门规划与绩效考核
l 规划与IT运维平台的整合计划,预计6月30日完成;
其他管理工作
l 审核架构的搭建和完善;
l 主备冗余计划,完成第一批的主备交接工作;
四、工作难点、问题与建议
五、下周计划
1 常规工作继续跟进;
2 继续跟进IT运维平台的开发和推广工作;
3 重点跟进分布式文件系统的规划和实施;
4 重点跟进审核架构的相关工作;
5 重点跟进设备采购及部署规划工作;
6 继续跟进整理运维中心的绩效考核体系;
7 继续跟进相关项目的研究工作;
8 继续跟进运维相关项目的进度;
9 继续跟进团队建设相关工作;
IT服务是大概念,可分为建设和运维(运行维护)两部分。对项目建设来说,容易被大众接受。
IT运维的重要性:
就是通过结构化的综合布线系统和计算机网络技术,将各个分离的设备(如个人电脑)、功能和信息等集成到相互关联的、统一和协调的系统之中,使资源达到充分共享,实现集中、高效、便利的管理。系统集成实现的关键在于解决系统之间的互连和互操作性问题,它是多厂商、多协议和面向各种应用的体系结构,需要解决各类设备、子系统间的接口、协议、系统平台、应用软件等与子系统、建筑环境、施工配合、组织管理和人员配备相关的面向集成的问题。
IT运维的必要性:
第一,所有的电子产品(硬件设备)都有寿命问题,而信息系统包含大量不同种类、不同功能、不同性能的设备,每种设备的寿命各不相同,长的5—10年、短的3—5年,对信息系统而言,几乎在项目建设完成后即需进入项目运维期,而对某些建设周期需要很多年的信息系统来说,在项目建设后期,便要对前期建设的项目进行运维。这里还没有考虑设备发生故障的情况,而设备发生故障是一定的,只是发生的概率大小而已。对单台设备来说,也许几年不发生一次故障,但对包含数百、数千甚至数万台(套)设备的信息系统而言,故障发生的概率要高很多。
第二,硬件设备更换、升级导致被动运维。由于硬件寿命及技术进步(摩尔定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。这一定律揭示了信息技术进步的速度),硬件产品会不断升级,导致原来使用的各种软件需被动升级,而系统软件升级也会导致应用软件必须进行升级改造以适应新环境。
第三,系统软件、工具软件由于自身存在各种缺陷(业内称为Bug,现在各种软件都极为庞大、复杂,要在编程中完全杜绝Bug几乎不可能),需要主动修正和完善。
第四,除上面所说的由于运行环境改变而需要被动升级应用软件外,还有就是自己主动升级。主要是随着时间的推移,对系统功能有新要求,或者是政策变化,需要系统功能跟着改变,所有这些问题都需要对系统进行运维,或者说需要升级、改造,不断完善。
第五,应用软件同系统软件一样,其本身也存在各种缺陷需修正和完善,而且应用软件是直接目的用户,不像硬件和系统软件对用户是“透明”的,是在后台发挥作用,有时仅是使用人员因对使用界面不习惯,都需作修正、完善。
运维人员做好服务器运维管理工作需要注意以下几点:
做好服务器的安全策略,以及制定应对攻击等突发情况的方案。
安装像安全狗这类的服务器防护软件,可以确保服务器受到攻击的时候依然能够稳定的运行。
作为运维人员,时刻掌握服务器的实时情况是十分必要地,及时调整服务器的防护设置是确保服务器安全稳定运行的必要条件。
可以把服务器加入下服云,然后利用服云的云端来实时监控服务器的状况,并且可以再云端设置管理服务器十分便捷。
制定服务器运维管理制度,对服务器进行分类,不同的服务器有不同的管理员,并制定不同的管理规则。
对服务器经常进行安全检查,对发现的安全隐患及时处理。
注意服务器的日常维护,比如清理日志、清理磁盘、优化系统等。
对服务器进行备份,以防数据丢失。
在出现问题的时候,能够及时定位问题,并及时解决。
希望以上信息对您有所帮助。
该工作相关材料有如下:
1、运维文档:包括服务器架构图、网络拓扑图、安装部署手册、系统配置文件、故障处理手册等,用于指导和记录系统的运维工作。
2、运维报告:包括每日、每周、每月的系统运行情况、性能指标、故障处理情况、改进计划等,用于向管理层汇报系统的运维工作情况。
3、运维日志:记录系统的运行情况、故障处理过程、操作记录等,用于追踪问题、排查故障以及分析系统性能等。
1、安装和设置防火墙
现在有许多基于硬件或软件的防火墙,许多安全厂商也都相继推出了相关的产品。要保证服务器的安全,安装防火墙非常必要。防火墙对于非法访问具有很好的预防作用,但是安装了防火墙并不等于服务器安全了。新手可以用服务器在iis7远程桌面下测试。在安装防火墙之后,你需要根据自身的网络环境,对防火墙进行适当的配置以达到最好的防护效果。
2、定期对服务器进行备份
为防止不能预料的系统故障或用户不小心的非法操作导致数据丢失,必须对系统进行安全备份。除了对全系统进行每月一次的备份外,还应对修改过的数据进行每周一次的备份。同时,应该将修改过的重要系统文件存放在不同服务器上,以便出现系统崩溃时,可以及时地将系统恢复到正常状态。
3、及时安装系统补丁
不论是Windows还是Linux,任何大家操作系统都有漏洞,及时的打上补丁避免漏洞被蓄意攻击利用,是服务器安全最重要的保证之一。
4、账号和密码保护
账号和密码保护可以说是服务器系统的第一道防线,目前网上大部分对服务器系统的攻击都是从截获或猜测密码开始。一旦黑客进入了系统,那么前面的防卫措施几乎就失去了作用,所以对服务器系统管理员的账号和密码进行管理是保证系统安全非常重要的措施。
5、安装网络杀毒软件
如今在互联网上,病毒的传播非常猖獗,因此,在网络服务器上安装网络版的杀毒软件来控制病毒传播显得尤为重要。同时,在使用杀毒软件时,必须要定期或及时升级杀毒软件,坚持每天自动更新病毒库。
6、监测系统日志
运行系统日志程序,系统会记录下所有用户使用系统的情形,包括最近登录时间、使用的账号、进行的活动等。日志程序会定期生成报表,通过对报表进行分析,你可以知道是否有异常现象。
0条评论