有好的IT运维管理书籍推荐吗

有好的IT运维管理书籍推荐吗,第1张

韩海刚,运维

苦练基本功

1 熟悉windows、linux操作系统;操作系统原理是精髓。

2 sed、awk、grep等脚本用法熟悉;正则表达式熟悉。

3 常见系统在windows,linux下部署要熟悉。比如dns、ftp、web、mysql、mssql,等等。

4 交换机、防火墙的基本配置要会。

推荐: ABS_Guide_cn 脚本基本功方面的

饶琛琳,运维工程师

鸟哥私房菜、构件高性能web站点;然后其他各种专注编程、专注数据库的其他书籍……

以上仅针对网站运维,如果是想进金融国企等行业,请无视……

郭保庆,阿里巴巴网站运维攻城师

1 Linux系统管理技术手册(第二版) —— 学习linux的基础实用知识

2 Linux shell 编程与服务器管理——很简单的shell入门教材,推荐必看。

3ABS——中高级的shell教材,必看。

4构件高性能web站点——网站运维必看。

王峥,IT运维

运维这里基础的是桌面运维,其次是服务器相关和网络方面,当然也看你是想往技术方面走,还是基础运维走了,技术方面还是开发为主,各种语言。

董伟明,你是谁,就会遇见谁

运维方面暂时还没有经典书籍。不过建议学好linux:《鸟哥私房菜》其他的主要看你的工作方面和工作经验积累,毕竟运维是最近几年出来的东东。

李振宇,运维/阿里巴巴

《构建web高性能架构》和《构建高可用linux服务器》,不过最好有点linux和shell的知识以后看更容易点。

这里只有系统运维驻场服务的文档,供你参考吧。

驻场技术服务内容

为确保甲方相关设备完好,运转正常,驻场技术服务包括规范性日常维护,故障应急响应,设备问题解决等范围,具体工作内容如下:

一、设备应用

1、负责对所有设备(详见附件1)的应用操作,每季度提交每个设备的配置和存储应用情况报告、网络拓扑报告、IP分配报告,并负责对上海海事局航海图书印制中心的相关工作人员进行培训;

2、对新应用的设备需求,驻场工作人员应及时提交设备配置现状及设备规划报告,以便该应用能及时实施;

3、掌握设备的运行情况,就保修期、存储空间等及时进行提醒;

4、建立相关系统软件各种故障的恢复流程及应急措施;

5、协助印制中心进行机房改造、设备搬迁、网络改造等工作。

二、环境与设备

1、指派专人定期对机房供配电、空调、温湿度控制等设施进行检查记录;

2、指派专人对机房人员的出入、服务器的开机或关机等工作进行记录;

3、按照合同附件资产清单,建立服务器及网络设备的档案,形成不易破坏的醒目标识,并定期更新相关内容;

4、对资产清单所列的各种设备、线路等,做好检查维护工作,发现故障,及时报告,并安排服务联系或维修,对维修情况提交书面报告;

5、对资产清单所列的各种设备、线路运行及维修记录,按重要性级别,定期书面报告;

6、形成每日巡视制度,对机房中相关设备的告警显示、空调、UPS等实际状态进行记录。

三、监控和安全

1、通过IT资源监控系统,对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录、妥善保存并按重要性级别,定期书面报告;

2、指派专人期对监测和报警记录进行分析、评审,发现可疑行为,形成分析报告,并采取必要的应对措施;

3、指派专人,负责网络运行日志、网络监控记录的日常维护和报警信息分析和处理工作,提出优化建议及方案;

4、根据厂家提供的软件升级版本对网络设备进行更新,并在更新前对现有的重要文件进行备份;

5、定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补;(甲方配置相关硬件设备后实施)

6、对关键的网络设备服务配置文件进行定期离线备份;

7、定期检查违反规定上网或其他违反网络安全策略的行为,书面报告;(甲方配置相关硬件设备后实施)

8、指派专人进行核心服务器的工作压力监控,针对业务的增长定期生成主服务器的工作压力报表,并且预估业务增长对服务器压力的影响提出合理化建议;

9、指派专人进行核心数据库的工作压力监控,定期生成报告,并就改进提出合理化建议。

四、操作系统安全

1、根据甲方业务需求和系统安全分析结果,确定系统的访问控制策略;

2、定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;

3、对小型机进行安全加固,提升操作系统安全性。在不影响数据库工作性能的前提下,打开安全选项进行安全加固。

4、及时安装系统的最新补丁程序,在安装前,首先报告同意,且在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;

5、所有对系统进行的维护,均需详细记录操作日志,包括重要的日常操作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的操作;

6、定期对运行日志和审计数据进行分析,以便及时发现异常行为;

7、认真学习系统管理员角色要求,明确权限、责任和风险。

五、备份与恢复

1、根据印制中心实际应用情况、根据生产相关数据的连接关系、根据应用的业务特点和软硬件资源,制定详细的系统数据备份计划,确定合理的系统备份策略。定期备份重要业务信息、系统数据及软件系统等;

2、应根据数据的重要性和数据对系统运行的影响,执行数据的备份,每月提交数据备份报告,必要时实施数据恢复;

3、按照控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;

4、按要求,定期执行恢复程序,检查和测试备份介质的有效性,确保可以在恢复程序规定的时间内完成备份的恢复;

5、定期进行备份介质的维护、更新、替换、轮转,保证备份介质可靠有效,针对重要备份介质进行双机房异地轮转;

6、制作备份和恢复的测试过程手册,最大地提高工作效率。

六、安全事件处置

1、及时报告所发现的安全弱点和可疑事件,但任何情况下均不应尝试验证弱点;

2、在安全事件报告和响应处理过程中,分析和鉴定事件产生的原因,收集证据,记录处理过程,总结经验教训,提供防止再次发生的补救措施,过程形成的所有文件和记录均应妥善保存。

七、服务报告及工作流程整理

1、上述工作内容中要求提交的书面报告之外,驻场人员提供的报告包括:

序号报告报告方式频度1事件处理报告格式文档(邮件)事件发生时2巡检报告格式文档(邮件)每日3月工作报告格式文档(邮件)每月4季度服务报告格式文档(邮件)每季度

2、上述工作内容,驻场人员应及时整理汇总相关操作流程,形成作业指导文档,定期上交。

问题一:做系统运维需要学习些什么?

问题二:网站运维需要学习那些知识? 网站最核心的是流量,也就是有人访问。

要解决流量的问题,首先是网站的基础优化到位,包括网站的程序代码,页面的导航栏目、首页、内容页的设置及内容添加要做到位。在保证网站内容的完整性和稀缺性的前提下,剩下需要做的就是网站的引流推广了,具体的方式也比较多,大概分成免费和付费两种,免费一般需要的时间要长一些,付费的效果一般是比较直接和快速的,如果对于时间没有要求可以选择免费的,如果想快否获得较好的网站排名还是需要进行付费推广。

问题三:做Linux运维要学哪些东西什么顺序主要需要什么能力 运维需要用到的东西很杂,从硬件设备到软件维护。

硬件设备 比如服务器的安装 网络的部署布局 ,最好能够了解防火墙,路由器,交换机的设置。

linux系统的深入了解。最好能够深入到内核和代码层面

部署在linux服务器上的应用的了解和维护,比如tomcat apache weblog浮c nagios cacti等。包括开发人员编写的软件,都需要去进行维护和调优建议,最好了解js和java语言。服务器的各种使用情况的监控,如磁盘,cpu,mem,io等。

架构设计的了解,以及自动化运维的脚本编写。

比如搭建集群或负载模式的架构等,实现服务器的多机热备高可用。

脚本编写,以减少人力操作来提高执行效率和准确性,一般需要shell,python,perl一类的语言基础,也包括awk,except等小语种使用。

数据库的维护

熟悉主流的数据库操作,主要是添删改查的操作。

oracle,mysql,芒果db,db2,memcache,redis等

问题四:运维工程师需要学习哪些课程 操作系统概述、文件系统管理、unix作业管理、网络模型、UDP协议、网络层协议、各类局域网。

Linux基础知识、Vim使用、Shell编程、软件包管理、常用Server、容量分析、性能优化等。

AIX系统管理概述、系统管理工具、软件安装与维护、备份与恢复、网络管理基础、故障诊断、案例分析等。

powerHA概念和实施规划、VIO搭建和部署、日常检查、Oracle体系结构、客户机连接SQL语句、OracleRAC搭建等。

问题五:运维新手们,别再问需不需要学PYTHON了 经常有人在群里问,运维人员需不需要学开发?需不需要学 PYTHON ? PYTHON 和 SHELL 有什么区别?天天问这种好水的问题,我实在受不了,决定帮大家扫扫盲,求求新手们,以后别他妈瞎问了。

现阶段,掌握一门开发语言已经成为高级运维工程师的必备计能,不会开发,你就不能充分理解你们系统的业务流程,你就不能帮助调试、优化开发人开发的程序, 开发人员有的时候很少关注性能的问题,这些问题就得运维人员来做,一个业务上线了,导致 CPU 使用过高,内存占用过大,如果你不会开发,你可能只能查到进程级别,也就是哪个进程占用这么多,然后呢?然后就交给开发人员处理了,这样咋体现你的价值?

另外,大一点的公司,服务器都上几百,上千,甚至数万台,这种情况下怎样做自动化运维?用 SHELL 写脚本 FOR 循环?呵呵,歇了吧, SHELL 也就适合简单的系统管理工作。到复杂的自动化任务还得要用专门的开发语言。你可能说了,自动化管理有专门的开源软件\监控也有,直接拿来用下就好了,但是现有的开源软件如 puppet\saltstack\zabbix\nagio 多为通用的软件,不可能完全适用你公司的所有需求,当你需要做定制、做二次开发的时候,你咋办?找开发部门?开发部门不懂运维的实际业务逻辑,写出来的东西烂烂不能用,这活最后还得交给运维开发人员来做。

其次,不会运维开发,你就不能自己写运维平台\复杂的运维工具,一切要借助于找一些开源软件拼拼凑凑,如果是这样,那就请不要抱怨你的工资低,你的工作不受重视了。

为什么要学 PYTHON ?

PYTHON 第一是个非常牛 B 的脚本语言, 能满足绝大部分自动化运维的需求,又能做后端 C/S 架构,又能用 WEB 框架快速开发出高大上的 WEB 界面,只有当你自已有能力做出一套运维自动化系统的时候,你的价值才体现出来,你才有资格跟老板谈重视, 否则,还是老老实实回去装机器吧。

运维开发为什么要用 PYTHON ?

Good question, 为什么不用 PHP , JAVA , C++ , RUBY ,这里我只能说,见人见智, 如果你碰巧已经掌握了除 PYTHON 之外的其它语言,那你爱用啥用啥,如果你是一个连 SHELL 都还没写明白的新手,想学个语言的话,请用 PYTHON , 为什么呢?首先, PHP 是跟 PYTHON 比的最多的,其实他俩根本就不用比,为什么呢?两个语言适用性不同, PHP 主要适用于 WEB 开发,可以迅速的做出中小型,轻量级的 WEB 网站,但后端嘛,基本还是要借助其它语言, 借助什么语言呢? SHELL ? PYTHON ?呵呵。 而 PYTHON 呢, 是个综合语言, 前后端都可以,单拿出来比 WEB ,也一点不比 PHP 差,但为什么WEB方向上 PHP 比 PYTHON 要火? 先入为主嘛, PHP 90 年代诞生就是做 WEB 的, PYTHON2000 年后才出现 WEB 框架,但论优秀程度上, PYTHON 的 WEB 框架基本上出其无左,至少是跟 PHP 比。

那 JAVA 呢?好吧,一个臃肿\中庸\豪无新意的语言,还是老老实实用它来做 ERP 吧,搞个运维小平台,用 JAVA 真心没啥必要,在我看来, JAVA 就是稳定的中年男人,稳定\成熟\秃顶,而 PYTOHN 代表的就是青春, 简洁\快\干净\帅!

C++ \ C ,这个嘛,我只能说,如果你会了 PYTHON, 又>>

问题六:运维工程师需要什么技能? 最好的方法就是去看一些招聘网站的招聘简介了 已经很全了

岗位职责:

1、负责公司网络总体系统及子系统的维护;

2、负责网络整体架构规划、实施、优化、安全;

3、负责整体网络的操作规范文档编写,整合系激资源;

4、负责整体网络的风险评估与备份系统实现;

5、研究主流的互联网应用技术,并负责将此是现在公司业务系统测试及应用;

6、公司整体网络架构规划,实施及维护;

7、主动发现问题,提出合理化建设,积极提出优化手段和建议。

任职资格:

1、大专学历,3年以上工作经验;

2、能够承受一定的工作压力,具备良好的沟通协调能力及突发事件单独处理能力;

3、熟悉unix/linux操作系统;

4、熟悉Linux下不同数据库的安装和调试,熟练使用shell脚步语言;

5、精通LAMP架构,对LAMP架构的部署、搭建、优化、排错等方面有丰富的经验。对高负载、大访问量 情况下的LAMP架构有运维经验者优先。

6、熟悉Linux下不同的存储解决方案,同时管理超过50太以上的linux服务器组,有整体管理经验者优先;

7、利用syslong收集各个关键出口设备情况,充分利用snmp协议,规划并架设一整套网络监控系统;

8、具备独立的工作能力,良好的沟通能力和团队精神,高度的责任心,工作积极主动

问题七:想做IT运维 该从什么方面学起 这个东西不知道你有基础没,没有基础的话入门比较吃力,我做这块是从培训学校出来的,学了一年半花了近三万块。看视频用处不是很大,我从学校出来的感觉学的东西跟实际的都有些出入,找一个人带吧,这个要快点,自己学有那个毅力没有方向。给你讲下网络运维具体都要求哪块吧。1、网络运维离不开Linux,现在大些的企业基本上用的都是这个系统,特别是做金融,电商的,安全性,稳定性高,如果这个不会,哪基本上一般的工作机会都没了。2、网络日常基本问题的维护,像网络不稳定啊,丢包啊,服务器上网站不能访问啊,公司的服务器跨掉了啊,这些都是网络运维的工作。3、这个就是日常一些软件的管理了,像网站IIS,APACHE的搭建啊,MYSQL的管理啊,还有一些服务器上的基本应用等,这个都要熟练。说了这三条,其实要求的也没那么严格,都要精通,关键都得有所了解,遇到问题了知道大概的处理思路,多多百度,就可以应付过来,重要的是在工作的过程中多多学习,这就进步的快,想往这方面发展可以咨询我。

问题八:想学 网络运维工程师 需要什么要求 如何入门呢? 你是打算自学是吗?运维不仅仅是单机方面的知识哟,还涉及局域网,还有路由交换等等呢!你现在到底有什么样的基础,大家也不是很清楚哈。要不你说说自己的情况吧。

问题九:运维工程师必须掌握的基础技能有哪些 技能:

1 Linux基础

包括对Linux整体的理解/使用和基本命令:

了解Linux FHS : Filesystem Hierarchy Standard,国人写的这本书不错 Linux系统架构与目录解析 (豆瓣)

入门Linux:鸟哥的Linux私房菜基础学习篇(第三版) (豆瓣) 个人认为鸟哥的这本书是一本非常好的入门书

基本操作命令:Google,如Linux mand cheat sheet

熟悉至少一个内置编辑器: vi, nano

至少熟悉一个发行版(或系列),建议作为服务器常用的如Centos, Debian, Ubuntu,可以了解多个常用发行版

2 运维的命令:

运维相关的工具(命令),了解它能解决很多问题。

前几天刚回答了一个问题:如何才能更深入的学习linux?

里面的图在这里也可以用到:

可以对着图对学习了解这些命令。

另外我个人也会对平时用到的这些工具做一个整理和记录,总结到我的个人维基上:Wiki ・ Tanky Woo

3 基础服务:

LAMP或LNMP :Apache/Nginx,MySQL,PHP/Python/Perl LAMP (software bundle)

FTP

DNS

SAMBA

EMAIL

NTP

DHCP

可以本地搭建练练手

这里推荐鸟哥另外一本书 服务器架设篇: 鸟哥的Linux私房菜 (豆瓣)

4 运维平台工具:

也在这个问题 如何才能更深入的学习linux? 里提到了:

Nagios

Puppet

Zabbix

Cacti

SaltStack

可以选择性的折腾下,因为这个涉及到业务,没有实际环境,很难去理解他们的功能和特点。

5 脚本:

必备:Shell

额外:Python,Perl

6 底层:

Linux C,内核

7 网络:

网络是非常重要的一块

把《TCP/IP协议详解》多看几遍,理解。

熟练使用tcpdump等抓包工具

8 安全:

防火墙配置,如 iptables

9 硬件:

接口类型

查看硬件信息

知道各类型服务器,如塔式、机架式、刀片式

10 其它:

了解更多特定技能要求的方式:

Google搜Linux运维工程师 招聘,看看他们的需求。

最后推荐一本书:Unix/Linux系统管理技术手册 UNIX/Linux 系统管理技术手册 (豆瓣)

后续想到再做补充

素养/处理方式:

除了技能,我觉得素养(态度)也可以谈谈

这个正好看到右边相关问题:运维工程师需要具备哪些性格特质?

1 安全

运维人员的权限很大,所以一定要保证帐号/私钥的安全。

最好使用加密工具存储。比如truecrypt,1password

基于本地存储。切勿用网盘,也不建议用lastpass等

ssh私钥添加密码

以上任何一点都很重要,否则弄丢了,风险会非常大。

2 责任心

如上面那个帖子里 @山大 提到的 Owner 意识

遇到报警,第一时间处理,而不要等着他人去处理

如果无法处理,应该第一时间让同事协助帮忙,而不要禁止报警,让问题掩盖

3 细心

你的任何一个操作,都可能造成系统的损坏、业务出问题。所以敲命令时一定要细心、再三确认。你敲的再快,也就节省那么一点时间,出了问题才是大事。

4 推进/改善

如果代码有问题,导致系统开销很大,比如负载,io等。应该第一时间和开发部门确认,要求优化代码。

5 进取心/不断学习

运维的知识范围很广>>

问题十:关于系统运维方面,需要掌握哪些方面的知识 我来试着回答一下吧:以前做过企业内部的支持顾问,也做过外部的技术支持顾问,现在主要做系统实施,对各方面的掌握知识的理解多少有点,提出几点,希望对你有帮助。我觉得你肯定指的是企业内部的SAP运维工程师吧,是吧?对于这个职位你需要掌握的几个重点内容如下:1》能够了解和掌握所负责的模块的公司业务情况。2》熟悉并掌握所负责模块的系统应用操作。3》能够配置所负责模块的系统配置。4》最好还能掌握其他相关联的模块的基本知识,比如说,你是SD模块的工程师,那你还应该掌握一些MM库存的知识,FICO的少量知识,最好还能了解一些WM的相关知识。5》对于系统内的增强开发非常熟悉,知道这些增强开发都控制了什么系统操作,如果更改的话,会对系统操作有什么影响。6》要会一些ABAP的基本知识,能够开发简单的程序,包括报表、表单和增强开发。7》起码要掌握一些debug技巧,能够知道说一个程序出错后,如何去跟踪这个程序的取数。8》对于表结构应该有了解,能够熟悉的写出负责模块的基本常用表名。9》除了以上技术方面的意外,还应该能够有能够跟业务人员沟通和了解业务需求的能力,能够把他们的需求转换为系统功能的实力,当然到了这一步,你就可以向外部顾问的方向迈进了。

运维工程师推荐看书学基础,然后找师傅带啊,书呢,就推荐两本吧,一本是经典的《鸟哥的Linux私房菜》另一本是基于现在最新的Redhat7系统为环境的《Linux就该这么学》,就该这么学这本书非常实用,如果你要快速入门的话就去看这本,想多了解点东西的话就去看鸟哥,顺便说一下,《Linux就该这么学》是免费在线阅读的,并且提供了读者群、论坛等渠道来反馈读书信息或者资讯问题,你可以访问http://wwwlinuxprobecom/ 去瞅瞅,感觉的好的话采纳一下吧,谢谢。

异常信息:

问题解决方式:

/data/var/lib/zookeeper/version-2 文件夹下的文件全部删除

然后重启zookeeper,启动成功。

此角色的日志目录所在的文件系统的可用空间小于50吉字节。到出现故障的节点查看磁盘使用情况。

可以看到由于数据都挂载在根目录,而home、data目录却有大量空间,故在home目录下创建dfs、log,并将根目录下/dfs,/var/log下关于cdh的文件或目录mv到/home下,并做软链接,然后启动服务就ok了,记得mv前停止服务。

接下来分析,为什么 / 根目录下的磁盘空间全部使用完了。

发现以上文件目录占用磁盘大于100M,使用du -h 文件名 依次查看文件大小。

G7项目居然没做日志大小限制。如果是java开发使用log4j打印日志,可以把日志的大小限制,一共只许生成多少个文件,循环覆盖。

参考: https://wwwcnblogscom/xiaowangba/p/6314179html

修改配置:

异常信息:

和上面问题相同,也是磁盘空间不够。

将清研日志打开查看究竟是什么日志需要打印96G大小,且不删除。

实际上两个异常原因相同。

继续往上翻日志,发现一个INFO级别的异常日志

日志显示analye8服务器被拒绝,是因为ClockOutOfSyncException异常,Reported time is too far out of sync with master Time difference of 131097ms > max allowed of 30000ms

上环境查看各服务器的时钟是否同步。

到这,就清楚了HRegionServer 为什么被中止了,出现该问题的原因:因为整个集群时间没有统一,导致master连接slave超时,所以导致从节点的HRegionServer进程没有正常启动。

实际上analye8 时间与互联网时间一致,是其它服务器的时间跑快了

为了方便,这里将analye8 的时间往前调整三分钟,与Master保持一致。修改方式:

重启hbase服务。

至此,135集群环境所有异常修复完毕,看着干净无污染的监控界面,心情顿时开朗了。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 有好的IT运维管理书籍推荐吗

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情