IDC机房运维方面是如何做的
一、什么是IDC机房运维?
IDC机房运维涉及到方方面面的问题,它不同于其他运维,处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护,还有些大公司建有自己的IDC机房,但管理层面上可能只是网络信息部门的一个子部门,但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。
IDC机房运维涉及面面问题同于其运维处理问题都比较低沉问题公司能都服务器托管专门IDC机房让专业士进行维护些公司建自IDC机房管理层面能网络信息部门部门我仍要面机房管理问题IDC机房运维简单五面概括:主机监控、信息统计、硬件维护、系统维护、网络维护处理些问题IDC机房运维
般客户反馈服务器等面问题要及处理
这个工作有点累,且升职的空间不是很大。
机房的运维基本就是在机房值班,设备上下架,处理故障一类的活,也不能说没前途,看你个人表现,任何工作都是靠积累的,如果你有足够的能力,运维总监甚至更高级别的位置也能做到,就看你怎么对待工作了。
IDC机房维护的内容主要包括了机房除尘及环境要求、机房空调及新风维护、UPS及电池维护、消防设备维护、电路及照明电路维护、机房基础维护、机房运维管理体系等。
1)机房除尘及环境要求:IDC机房维护中明确要求要定期对设备进行除尘处理,清理,调整安保摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备内部。与此同时还要检查机房的通风、散热、净尘、供电、架空防静电地板等设施。机房室内温度应控制在5℃~35℃,相对湿度应控制在30%~85%;
2)机房空调及新风维护:主要是检查空调运行是否正常,换风设备运转是否正常。从视镜观察制冷剂液面,看是否缺少制冷剂。检查空调压缩机高、低压保护开关、干燥过滤器及其他附件;
3)UPS及电池维护:根据实际情况进行电池核对性容量测试;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试等;
4)消防设备维护:检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。
5)电路及照明电路维护:镇流器、灯管及时更换,开关更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。
6)机房基础维护:静电地板清洗清洁,地面除尘;缝隙调整,损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查;接地线触点防氧化加固。
7)机房运维管理体系:完善机房运维规范,优化机房运维管理体系。维护人员24小时及时响应。
数据中心运维可以分为两大类,其一是基础设施运维,其二是基础环境运维(IaaS类)
下文逐步分解:
一、基础设施运维:
11机房管理方面:
111机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)
112机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)
113机房承重(通过控制入室设备重量可以降低承重风险)
114机房环境温、湿管理(通过巡检记录加以管理)
115机房电力管理(通过巡检记录加以管理)
116机房的监控管理(通过进出机房人员的数量与111章节内的人员出入做比对)
117机房线缆管理即网线(含存储线等)、光纤和电源线管理(其内容主要围绕着横平竖直,捆扎带松紧,电源线长度预留等)
执行以上内容的人员素质不需要很高,但是,注意,管理以上执行者的领导(领队、带头人)在选择时至关重要。
在工作执行中,本着不需要执行者“动脑”作为工作原则,即,制作完美的SOP,完整的交接班制度和可落地的工作流程及问题处理流程即可驱动
PS:特别注意夏天,空调工作效率会降低,注意,撰写应急预案
12机房容灾方面
制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案,环境温湿度高时应急预案等
二、基础环境运维:
基础环境运维实际可以分为周期性工作和非周期性工作,指导思想来自ITSM(itil)
名词解释:
周期性工作
服务请求
事件处理
变更管理
问题-风险跟踪记录
21 周期性工作
所谓的周期性工作,指的是周期的、重复的工作,比如:配置备份、账户回顾、配置回顾、更新各类系统的操作手册等等。别小看周期性的工作,其实它是运维工作权值较高的工作内容,怎么将周期性的工作合理而有效的运转起来呢?我们工作中将周期性工作纳入运维日历,将重复性的工作条带化规范化,通过制作SOP,检查SOP执行情况,执行团队反馈SOP使用情况,跟进SOP优化情况,进行周期性的、重复性工作的执行指导。 ----以上内容不知道有没有说透,要是没有请留言。
22非周期性工作(主要含服务请求、事件处理、变更管理、问题-风险跟踪记录)
本章节内容,主要围绕着流程、SOP、PDCA进行展开,那么咱们现在需要名词定义
定义,服务请求、事件处理、变更管理,问题-风险跟踪记录,如果学习或了解过ITSM的工程师对以上的名字并不陌生,我也是,我认真的学习过上面的内容,我的同事、朋友也学习过,但是我们在在针对以上名词进行探讨的时候却发生了很大的奇异,所谓的奇异就是我们各自理解的不一致,而且这个现象困扰了我们很久,举个例子,领导让我在AD上创建一个账号,让我来做时,这个操作其实是很简单的,但是我应该走什么流程呢?
“执行者不需要动脑子”,通过这句话我恍然顿悟了,边界不清那么咱们就定义边界,怎么定义呢,这时候就引入了工作分类表,就是说,将运维工作量化,制作服务请求分类表,事件分类表,变更分类表,然后按照机房管理的内容照章工作即可----以上内容不知道有没有说透,要是没有请留言。
以上内容由 付林 提供
我以前做过的的IDC运维主要工作就是机器上下架和装系统,有时候换个硬件,最多配个交换机什么的,每一块都涉及的很浅,入门可以,长做没意义,况且idc运维很多要倒班对身体不好。
看你说有兴趣学linux,我现在就做这个,如果是做系统工程师,有条件的话可以申请点闲置的服务器和交换机,自己搭建点简单的集群和服务玩玩,真实环境比虚拟机复杂,提高也快。
要是做机房建设那一块倒是可以做长点,那就偏弱电和布线了,这一块做熟练了以后做系统集成类做项目经理也用的上,这个自己把握方向。
说什么应聘银行的就很扯了,银行做IT类能外包的就外包了,有编制的不是学历很高就是有关系,跟技术关系不大。
0条评论