IDC机房维护制度有那些??
IDC机房维护制度
一、 概述
基础设施管理主要是对各类基础设施设备的巡检、监控、维护、操作,本体系制定了上述内容的具体方法及相关要求。本体系指定的目标是保障机房基础设施、设备正常、安全、可持续运行,规范日常运行管理工作,对保障机房正常使用环境的设备运行进行有效监控。本体系适用于基础设施各相关岗位。
二、 维护职能划分
日常巡检工作内容应由机房值班人员负责,巡检结束在系统中进行记录。
维护保养工作应由专业服务人员实施,维护保养结束后及时填写维护保养记录,并应由机房运维岗位负责人签字确认。
原则上UPS及精密空调的维护应由设备专业工程师实施。
三、 供配电系统
供配电系统是指通过电源由多种配电设备(或元件)和配电设施所组成直接向终端用户分配电能的一个电力网络系统。是对低压配电柜、UPS系统等的统称。
31 日常巡检内容
供配电系统日常巡检内容包括:
(1)环境温度、洁净度,注意有无异味、异常声响等; (2)查看各个开关的仪表显示应正常; (3)查看各开关状态确认无误; (4)检查各开关有无异常声响、变形;
32 巡视检查频次
每日一次。
33 维护保养
331 年维护
年维护属于预防性维护,应停电进行。
a)完成设备的季度维护工作。
b)清扫变配电设备内外卫生。
c)检查电器元件的操作机构是否灵活,不应有卡涩或操作力过大现象。
d)检查主要电器的主辅触头的通断是否可靠。
e)检查各母线的连接、绝缘支撑件、安装件、其它附件安装是否牢固可靠。
34 巡视检查注意事项
(1)巡检时必须严格遵守各项安全运行工作制度。
(2)巡检时应禁止带手表、手链等金属物件。
(3)巡检时应携带对讲设备以保持通讯畅通。
(4)巡检应二人进行,巡检完成后应向机房运维岗位负责人汇报巡检情况。
(5)巡检时必须严格执门禁管理方面的规定,只在授权区域内进行巡检。
(6)在巡检中发现设施或设备工作异常时,应立即向机房运维岗位负责人汇报并按照机房运维岗位负责人的安排进行处理,协助机房运维岗位负责人或相关人员填写相关报告。
四、 UPS系统
UPS(Uninterruptib1e Power Supply)意为“不间断供电电源’’,是一种含有储能装置(常见的是蓄电池),以逆变器为主要组成部分的恒压恒频的交流供电设备。
41 UPS的日常巡检
(1)检查卫生环境、温湿度状况;
(2)检查UPS运行状态,记录各种运行数据,包括电压、电流、频率、功率、带载率等;
(3)观察UPS风扇有无异响,运行是否正常;
(4)观察UPS主机内部有无异响、震动;
(5)观察UPS输入、输出柜各进出线开关状态(检查项同普通开关柜);
(6)观察电池外观有无明显鼓胀、渗液或开裂;
(7)日常巡检工作由值班人员进行,巡检状况因记录在《日常巡检记录表中》;
42 巡检频次 每日一次。
43 UPS设备维护保养
431 季度维护(主要进行放电测试)
a)除进行月维护的项目外,还应对UPS的电池进行放电。
b)电池组应放电至额定容量的60~70%,并记录放电后再次充满时的后备时间。
c)不可同时对相同负荷的两路UPS进行放电,且放电测试间隔应大于48小时。
d)对UPS设备进行整体除尘。
e)巡检工程师填写《UPS系统维护记录》。
432 年检维护(主要进行电气部件紧固操作)
a)除进行UPS季度检的项目之外,还应对整体UPS设备进行紧固操作。
b)联系UPS厂家对UPS的内部参数进行校对,对内部器件进行检查测试。
c)年检操作必须关机进行,关机后应对UPS内部进行放电操作。
d)由于旁路仍有部分带电,应对带电部分作出明显标记,以警示维护人员。
e)巡检负责人填写《UPS系统维护记录》。
五、 精密空调系统
机房精密空调是针对现代电子设备机房设计的专用空调,它的工作精度和可靠性较高。 51 日常巡检内容
(1)查看设备机房内的回风温、湿度;
(2)查看空调机有无异响;
52 日常巡检频次
每日一次。
53 维护保养
531 季度维护
a)进行日常维护的所有维护项目。
b)擦拭机组外壳。(不要用强腐蚀物或强化学物质,可用干净的纱布沾上中性洗涤剂擦拭)
c)检查室外风机有无抱死,破损,运转情况是否正常,并清除积灰(夏季每月1次,每周检查)。
d)清洗空气过滤网(空气过滤网不要等到报警后再更换,应根据机房中空气质量状况定期进行更换)。
e)对制冷管路上各接口进行检查,观察是否有油迹,螺纹接口如果有油迹可用板手进行紧固。
f)检查压缩机高低压参数,根据检查情况补充或释放制冷剂。
g)当有备用电源时,在使用前要检查电源相序是否与市电一致。
h)由设备专业工程师进行空调全面健康检查,并提交检查报告。
i)巡检工程师按规定填写《空调维护记录表》。
532 年度维护。
a)进行季度维护的所有维护项目。
b)对所有的电器接线端子进行检查,不应有松动。
c)检查高压控制器、高压压力开关的动作是否良好。
d)由巡检工程师按规定填写《空调维护记录表》。
六、 消防灭火系统
火灾自动报警系统是由触发器件、火灾报警装置、火灾警报装置以及具有其它辅助功能的装置组成的火灾报警系统。一般火灾自动报警系统和自动灭火系统、防排烟系统、通风系统、空调系统、防火门等相关设备联动,自动或手动发出指令、启动相应的装置。
61 巡视检查内容
611 消防灭火系统
(1)气体灭火系统需要进行每日巡查,查看是否有火灾报警、设备故障报警、未处理事件等非正常情况。
(2)消防设施需要进行每日巡查。
612 安全疏散设施
(1)检查时应保持疏散通道、安全出口畅通,严禁占用疏散通道,严禁在安全出口或疏散通道除摆放杂物。
(2)检查消防安全疏散指示标志和应急照明设施。
(3)应保持防火门、消防安全疏散指示标志、应急照明、机械排烟送风机等设施处于正常状态。
613 消防器材
(1)烟、温感报警检查,查看是否有报警、设备故障报警、未处理事项等非正常情况。
(2)灭火器,消防箱,防火栓,手动报警器,玻璃破碎检查,应保持设施的完整性,查看是否处于正常工作状态。
62 巡视检查频次
每日一次。
63 保养维护
631 季度维护
a)每季度应对所有的火灾探测器采用抽测的方式进行测试。
b)每季度对报警阀应进行开阀试验,观察阀门开启和密封性,以及报警阀各部件的工作状态是否正常。检查系统的压力开关报警功能是否正常。
c)每季度对应急照明进行一次功能性测试,切断正常供电电源。
d)每季度对疏散指示标志进行一次功能性测试。
e)由分包服务责任人按规定填写《消防系统维护记录》。
632 年维护
a) 灭火器年检,查看是否有异常情况。
b) 在一年内通过定期,分区域性测试将所有火灾探测器测试一遍。并核对火灾探测器的地址是否正确。
我们公司当初在选择云安全运营平台时主要考察了两方面,一是云安全运营平台的云安全能力,例如是否可以提供统一安全的管理、漏洞预警、威胁检测、风险检查等,二是这个云安全平台的供应商及其在云安全方面的经验。综合以上两点,最后选择了火山引擎云安全运营中心。
火山引擎云安全中心为企业提供统一的安全防护与管理,通过入侵检测、资产暴露面测绘、漏洞扫描修复、配置风险检查等安全能力,保护云上主机和容器安全,帮助企业构建便捷的安全运营体系。主要有以下几个功能:
1、统一安全管理:支持对云端服务器、容器、云产品的威胁管控,通过场景化产品能力构筑,降低用户操作成本,提升安全运营效率;
2、安全态势可见:云安全中心提供了云安全态势感知功能,可视化展示用户所有资产信息及全局安全态势;
3、漏洞风险预警:依托字节跳动安全情报能力,自动巡检服务器、容器漏洞并关联知识库,包括漏洞影响面及处置建议等,帮助客户实现对高危漏洞的及时感知和快速处置;
4、协同容器防护:提供容器运行时威胁检测,支持容器镜像的深度漏洞扫描,提供漏洞修复方案。
除此之外,用户可以通过云安全中心对云上资产进行一键安全加固,有效识别暴力破解、变种木马、远程控制、漏洞利用等常见的主机入侵行为,并基于发现的风险进行安全防护,构建完整的主机安全防护体系。
火山引擎云安全产品和服务,基于字节跳动大规模业务实践中安全技术研究积累,以在多云、零信任、数据安全方面的成功经验,结合企业安全痛点和降本增效的需求,面向金融、汽车、泛互、大消费等重点行业输出云上安全能力,保障企业用户的网络、数据、云原生和终端等方面的安全,提供全面、易用、高效的全栈安全防护和管理体系。
一、机房日常运维管理
1、运维人员每天在8:30到达机房进行设备巡检,每天17:30下班后再次进行设备巡检,并在《设备日巡检记录表》中进行记录。如发现异常情况,需立即上报机房主管人员,并联系相关产品服务商获取技术支持。
2、对任何异常情况及其处理操作应在事件单中被记录,为日后的问题管理提供依据。
3、机房运维人员每天上、下午均应合理安排时间在机房查看设备运行状态,包括内存、硬盘、CPU等系统资源状态,如出现资源运行异常,应查看相关系统设备运行进程并转入事件管理流程进行处理。
4、保持机房整洁、卫生。所有设备摆放整齐有序,不得将任何废弃物品留在机房内。不得存放与工作无关的物品,机房的物品不得私自带走。
二、机房网络安全管理
1、新购置的设备,在安装、使用前应当认真经过安检。使用之前采取防止病毒感染措施,试运行正常后,再投入正式运行。
2、机房设备严禁连接互联网。
3、对于网络设备和服务器,要制定不同的用户账号,赋予不同的用户操作权限,并予以登记、备案。禁用guest账户,删除服务器中的多余的、过期的以及共享的账户。必须定期统计相关信息和操作状况,并向上级领导。
4、设置登录服务器的操作超时锁定,超过10分钟不操作即锁定,需要重新认证后登录。
5、系统中所涉及的涉密服务器、终端、以及应用程序的本地登录和远程登录必须进行用户身份鉴别,并与安全审计相关联,保证系统内安全事件的可查性。
6、禁止任何部门和个人严禁进行渗透测试,严禁攻击其它联网主机,严禁散布病毒。
7、严格执行计算机操作规程和各项管理制度,加强对管理人员和工作人员的防病毒教育。
8、网络服务器应当安装防火墙系统,加强网络安全管理。
9、病毒检测和网络安全检测必须指定专门的技术和管理人员负责;负责人员必须定期对网络安全和病毒检测进行检查。定期采用国家相关主管部门批准使用的检测工具对系统进行安全性检测,检测工具和版本应及时更新。对于发现的系统软件和应用软件的安全隐患,必须及时从系统软件开发商和应用软件开发商获取相关的补救措施,如安装补丁软件、制定新的安全策略、升级病毒库等。
三、机房硬件设备安全管理
1、机房运维人员必须熟知机房内设备的基本安全操作和规则,特别是对服务器、交换机进行熟悉操作,做到及时维护。
2、应定期检查、整理设备连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,从而及时了解设备运作状态。
3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更换设备连线、禁止随意进行硬件复位。
4、禁止在服务器上进行实验性质的配置操作,如需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。
5、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。
6、对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。
7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经上级允许,不得对核心服务器和设备进行调整配置。
8、硬件设备出现故障时,应填写好《硬件设备维修故障登记表》,详细填写故障状况及故障原因,并报修,故障处理结束后,因填写处理情况及结果,交由上级验收、签字后,存档备查。
9、存储过涉密信息的硬件和固件应到具有涉密信息系统数据恢复资质的单位进行维修。
10、不再使用或无法使用的设备应按照国家保密工作部门的相关规定及时进行报废处理,并记录最终去向。
四、机房软件安全使用管理
1、设立计算机软件管理台帐,对每套计算机软件进行登记,并纳入资产管理。
2、妥善保存计算机软件介质、说明书、使用许可证(或合同)等资料。
3、根据操作说明,正确使用各类应用软件。
4、须安装非专用软件,须经上报并检测、办理安装使用备案手续。
5、软件必须由专人来保管,禁止任何人员将机房软件私自拷贝、随意向外传播。
6、任何在用软件的升级均需主管人员书面批准。
五、机房资料、文档和数据安全管理
1、资料、文档、数据等必须有效组织、整理和归档备案。
2、硬盘、软盘、光盘、磁带、带存储功能的设备等涉密信息存储介质应按照所存储信息的最高密级标明密级。
3、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员。
4、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关和数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。
5、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据保证其还原行,防止遗失重要和数据。
6、严禁使用计算机、终端机、因特网为无关人员查询、调阅涉密数据;存有秘密信息的磁盘、光盘,严禁外借、复制;不得向无关人员提供网络入口及口令。
7、调动工作时,必须将自己经管的涉密文件、资料和使用的保密笔记本上交,并递交在调离后一定期限内不失密泄密的保证书。
8、发现失、泄密现象,要及时上报。
9、不再使用或无法使用的涉密信息存储介质在进行报废处理时,应进行信息消除或载体销毁处理,所采用的技术、设备和措施应符合国家保密工作部门的有关规定。
六、机房保安管理
1、中心机房应采取有效的门控措施,并装备“三铁一器”。
2、出入机房应注意锁好防盗门。对于有客人进出机房,机房相关的工作人员应负责客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。
3、工作人员离开工作区域前,要保证服务器、交换机等设备控制台的密码处于锁定状态。
4、运维人员要严格执行人员出入登记制度,不得邀请无关人员到机房参观,外单位系统、线路维护人员要进入机房需提前与管理人员联系,批准后方可由管理人员陪同进入,并填写《人员出入登记表》。
5、外来人员进入必须有专门的工作人员全面负责其行为安全。
6、未经主管领导批准,禁止将机房相关的钥匙、保安密码等物品和信息外借或透漏给其他人员,同时有责任对保安信息保密。对于遗失钥匙、泄漏保安信息的情况即时上报,并积极主动采取措施保证机房安全。
7、机房人员对机房保安制度上的漏洞和不完善的地方有责任及时提出改善建议。
8、绝不允许与机房工作无关的人员直接或间接操纵机房任何设备。
9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度和最短的时间到达现场,协助处理相关的事件。
七、机房用电安全管理
1、机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程。
2、机房人员应经常学习、掌握机房用电应急处理步骤、措施和要领。机房应安排有专业资质的人员定期检查供电、用电设备、UPS设备。
3、机房人员应定好UPS放电计划,对UPS的放电时长做出准确的评估,并做出更换或修复UPS计划报告相关人事。
4、运维人员定期检查UPS各项运行参数、负载、电池容量是否正常,如有异常,应及时调整处理,并做好记录。
5、严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路、严禁把电源排插散落在地。发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。机房内的电源开关、电源插座要明确标出控制的设备。
6、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路的保险的基础上使用。
7、在发生市电报警要尽快赶往机房查看,并通告相关人员。事件处理完后,应及时复位市电报警设备。
8、在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。当需要发电机发电时,应计算好机房用电功率合理选择发电机型号发电,严禁发电超负载供电。
9、定期(不长于三个月)对供电设施进行检测与检修,保障供电正常。
八、机房空调管理
1、为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在22℃--26℃,机房湿度应低于70%。
2、空调运行时,巡检人员按时检查各项运行参数、状态是否正常,如有异常,应及时调整处理,并做好记录。
3、定期进行空调机的清理,防止因散热不良造成空调的工作异常。
4、配备备用电风扇,以防止空调出现故障时机房温度的快速上升。定期进行备用电风扇可用性检查。
5、每年春秋换季期对空调系统进行全面的检查保养,确保机组的正常运行。
6、每天巡检一次,确保空调系统正常运行,如发现故障应及时上报。夏季要提高巡检频率,每天两次,上下午各一次。
7、机房维护人员应懂得进行一些必要的空调降温手段,以便在出现温度升高的状况下能通过辅助手段降低温度上升的速度。
九、机房消防安全管理
1、机房工作人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。
2、消防设备应放在显眼易取之处,任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。工作人员更应保护消防设备不被破坏。
3、每日对火灾重大风险点如蓄电池组进行巡检,检查内容包括电池是否漏水,有无发热异常,电极触点是否连接正常。
4、插座及蓄电池附近不得摆放纸箱、说明书等易燃物品。
5、应定期消防常识培训、消防设备使用培训。如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。
6、严禁在机房内吸烟和使用明火,如因线路或其他原因引起明火,应及时拨打119和通知相应负责人迅速解决问题。
7、定期检查消防设备状态,保证消防设备可用性。
十、机房应急响应
1、机房停电时,UPS设备将为机房设备提供电力支持,但UPS能够提供的电力有限,因此需要根据实际情况进行处理,具体如下:
在停电时,有短信报警机制通知到机房维护人员,维护人员应马上通知机房主管人员,并在一小时内赶回机房。
机房维护人员积极配合主管人员协调各供电电路运维方及时检查处理市电回路故障。
按照《基本业务服务设备列表》,只保留基本业务服务设备运行,对其余设备进行关闭。
当UPS电力不足时,应及时关闭所有设备,避免突然断电造成的系统设备故障。
2、当机房温度升高时,为保护各设备,需要采取相应的应急处理措施,具体如下:
达到温度阈值时,应有短信通知机制通知机房维护人员,维护人员一小时内到场,马上启用备用电风扇。
当机房温度超过28℃时,维护人员应立即通知主管人员并积极协调空调维护商尽快处理。
在温度超过35℃时,可以根据《基本业务服务设备列表》关闭非基本设备,只提供基本业务服务设备运行;
当机房温度超过40℃时,应当关闭所有系统设备运行。
3、火灾不像供电及空调故障那样存在一段缓冲期去处理或减少影响,对无人值守机房来说一旦发生火灾,势必导致重大财产损失。对于机房火灾应当是预防为主,因此必须重视每日的蓄电池组巡检。当机房发生火灾时,本着先救人,后救物的思想原则采取相应的应急处理措施,具体如下:
有报警机制通知到所属地区消防部门,并通知到机房维护人员及主管人员。并根据预先制定的火灾发生时联系人目录通知到位。
到场后立即断开电源,防止由于电源引起的火情进一步扩大。
寻找安全的地点监控火情,并积极配合消防人员应对火灾。
4、设备发生故障时,使用备用设备替换现有设备,并保证新设备配置和用户密钥与旧设备一致、保证新设备配置和数据与旧设备一致。
5、传输线路干路发生故障时,请及时联系网络供应商,对线路进行检测维修。
6、发生不可预见的紧急请况时,及时向主管人员汇报,并与相关技术人员联系,采取妥当的应急办法进行应急处理。
如何做好服务器的日常维护北京浩然泰同科技与你谈谈IT人员必须知道的服务器日常维护,以下这些细节要留意:
电缆连接
服务器进行电缆连插拔时,设备应当处理关机状态,如果是带电进行电缆连接,可能会对设备造成无法预料的损坏。
开关机顺序
1、开机:先打开总电源,再打开计算机机柜电源,打开外部设备电源(如磁盘阵列、磁带库等),待外部设备自检完成后,最后打开主机电源。
2、关机:关闭操作系统,关闭主机电源,关闭外设电源,最后再关闭其他设备电源和机柜电源。
服务器基本维护常识
1、每天查看服务器状态,查看内容包括服务器CPU占用、服务器内存占用、服务器硬盘占用,数据库状态,数据表状态等。
2、留意服务器各个指示灯的状态,每日检测服务器系统软件版本更新信息,并对检测内容生成报告。
3、查看系统收集的日志。系统日志记录着系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
4、系统定期自动备份数据,建议用户不要仅局限于线上备份,线下的备份一样重要,这一步骤虽然看似多余,但是一旦服务器内部出现硬件故障导致数据整体丢失,那么线下的数据就是最后的救命稻草。
5、留意系统参数调解情况变量和路径,网络参数设置调解等,及时留意服务器硬盘空间使用情况,若少于10%,要及时清理硬盘的日志文件。
6、每月服务器登录密码更换一次,每月对服务器安全等级评测,及时发现安全漏洞,并对系统进行修补。
7、定期检测机房供电情况。机房内的电源和插座为机房设备专用,非机房设备不得使用机房电源。检测机房内UPS电源是否稳定,并做好记录,UPS巡检记录落实到个人。
8、控制机房的温度和湿度。机房温度控制在20-25℃以内,湿度控制在45-55%之间。
9、做好服务器的静电、防雷、防尘等措施。机柜、设备接地,避免雷击或者静电对机房设备的损坏。定期清理灰尘,按照机房内部、机房外部、机房设备内部合理清洁。
为了避免服务器不稳定出现连接速率慢,又或随时宕机,影响企业的工作效率,所以服务器的日常维护十分重要。
0条评论