如何运营服务器,第1张

摘要:服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器上线以后,基本是不间断,724小时运行,否则会影响业务及用户体验。那么如何运营服务器呢?下面来了解服务器运营注意事项吧!一、服务器怎么运营?

检查磁盘使用率,当磁盘使用率超过80%,可以清除一些日志文件;

检查内存使用情况,当内存使用过多时,需要检查是哪个进程占用,是否合理;

检查CPU使用情况,负载大小;当CPU使用过多,负载过大时,需要检查是哪个进程占用,是否合理。

检查服务器网卡接口的数据统计和每秒收发包的个数和流量。

还需要结合服务器的业务,当然,这些可用使用监控软件自动检查,故障报警等,实时掌握服务器的运行情况。

二、服务器运营注意事项

1、提前检查

服务器和网站漏洞检测,对Web漏洞、弱口令、潜在的恶意行为、违法信息等进行定期扫描。

代码的定期检查,安全检查,漏洞检查。

服务器安全加固,安全基线设置,安全基线检查。

数据库执行的命令,添加字段、加索引等,必须是经过测试检查的命令,才能在正式环境运行。

2、数据备份

服务器数据备份,包括网站程序文件备份,数据库文件备份、配置文件备份,如有资源最好每小时备份和异地备份。

建立五重备份机制:常规备份、自动同步、LVM快照、Azure备份、S3备份。

定期检查备份文件是否可用,避免出故障后,备份数据不可用。

重要数据多重加密算法加密处理。

程序文件版本控制,测试,发布,故障回滚。

3、安全监控

nagios监控服务器常规状态CPU负载、内存、磁盘、流量,超过阈值告警。

zabbix或cacti监控服务器常规状态CPU负载、内存、磁盘、流量等状态,可以显示历史曲线,方便排查问题。

监控服务器SSH登录记录、iptables状态、进程状态,有异常记录告警。

监控网站WEB日志(包括nginx日志php日志等),可以采用EKL来收集管理,有异常日志告警。

运维人员都要接收告警邮件和短信,至少所负责的业务告警邮件和短信必须接收,运维经理接收重要业务告警邮件和短信。(除非是专职运维开发)

除服务器内部监控外,最好使用第三方监控,从外部监控业务是否正常(监控URL、端口等),比如:监控宝。

4、故障避免预防

网站WEB增加WAF,避免XSS跨站脚本、SQL注入、网页挂马等漏洞威胁。

程序代码连接数据库、memcache、redis等,可以使用域名(域名HOSTS指定IP),当出问题,有备用的服务器,就可以通过修改DNS或者HOSTS,恢复服务。

建立应急预案机制,定期演练事故场景,估算修复时间。

部署蜜罐系统,防范企业和服务器内网APT攻击。

建立双活集群,包括业务服务的高可用,避免业务服务单点。

服务器集群采用跳板机或堡垒机登录,避免服务器集群每台服务器可以远程连接管理。

操作重要业务升级、迁移、扩容之前,列一下操作步骤,越详细越好,实际操作按步骤操作,操作完做好记录。

5、事中操作

网站WEB增加WAF,发现XSS、SQL注入、网页挂马等攻击,会自动拦截,并记录日志。

检查服务器数据备份是否可用。

在处理需求和故障时,执行风险命令(比如rm、restart、reboot等)需再三确认,执行命令前,检查所在服务器,所在服务器路径,再执行!

不要疲劳驾驶,喝酒不上机,上机不喝酒,尤其别动数据库,避免在不清醒的状态下,在服务器上执行了错误命令,导致数据丢失或业务故障。

在处理事故时,一定要考虑处理措施是否会引发连锁故障,重要操作三思而行。

6、事后检查分析

实现网络安全可视化管理,可以看到每天有那些异常IP和异常URL请求,服务器集群开放端口列表等。能对全网进行安全策略集中管理。统一日志收集和分析。

备份及篡改恢复功能,程序文件、、数据文件、配置文件的备份,故障回滚机制。

对攻击日志进行深度分析,展现攻击路径、攻击源,协助管理员溯源。

践行DevOps的无指责文化,尤其是在做事故分析时。事故分析重在定位原因,制定改进措施。

  保持服务器的正常运行和唤醒状态,或者至少准备好一旦有需要就立刻投入运行,这个目标可能是所有数据中心经理们最渴望实现的目标之一。

  然而很少有数据中心经理们能够诚实地说,他们所做的一切绝对都是为了让系统的正常运行时间最大化。专家们说,事实上很多经理都把大量的时间和金钱浪费在了很少或者不能对正常运行时间产生积极作用的技术和实践上去了。

  美国金融数据服务商Six Telekurs负责IT运营与后勤保障的副总裁Walter Beddoe认为,实现正常运行时间的最大化既是科学也是一门管理艺术。“需要将诸多不同的东西组合在一起,包括可胜任此项工作的人员,利用容错硬件,采纳动态安全、良好的维护与变更管理实践等。最重要的是,你必须承诺尽最大可能将一切做好。”

  普林斯顿一家诊断医学成像公司Princeton Radiology的IT部门主任Alan Howard敦促其属下不要把时间和资源浪费在不能直接对提高正常运行时间有贡献的行为和工具上面。比方说进行集群的努力就是“相当浪费的”,还不如冗余配置再辅以工具更能实现全自动化。

  不能自动化的集群——其中的同步需要手工完成——可能会引起更多的问题,Howard说。“某个主节点一旦失灵就可能是灾难性的;与其让主节点失灵再去恢复它,还不如让备用节点失灵更好些。”

  他举例说,他的团队做了一个Windows Server的集群,用作失效备援,结果却导致了应用程序的崩溃,因为该应用配置文件的一个变动未能及时拷到备用服务器上去。“修复应用崩溃故障所花费的努力往往要比修复一个集群节点失灵故障的努力大多了。”

  之后,他的团队就不再配置传统意义的集群服务器了。相反,他们配置了一个“单独的备用服务器集群”——并将该集群全部映射到一个双控制器的Compellent存储中心SAN上,“这样我们就能够基本上无缝地按需迁移虚拟机了。”

  精心规划

  大多数数据中心经理都同意,仔细地规划所有与服务器相关的工作——从采购到管理到替换,是保障系统可靠性的关键性步骤。

  华盛顿大学的IT运营及工程设计经理Raoul Gabiam说,生命周期管理是服务器正常运行时间规划的一个内在组成部分。“知道在何时、如何更换硬件,并升级软件是非常重要的,因为这会影响系统的性能、持续性和总体的正常运行时间。”

  比方说,如果你必须做一次软件升级,那么了解清楚对硬件的需求,以及现有硬件的状态就是至关重要的。你或许得购买硬件来满足软件升级的需求,以避免出现更多的宕机,Gabiam解释道。

  Gabiam还强烈地推崇标准化与协调,作为确保服务器可靠运营的方法。“在任何人安装任何东西或者进行某个变动之前,必须先走一个变动管理流程。”

  变动管理就是要了解“每件东西是如何配置的,并在实施变动之前对变动做出评估,”Gabiam说。“用这种方法,你就总能了解清楚哪些事情是不允许的,哪些事情可能会产生相互影响。”

  他说,遵守变动管理的纪律,就可能预见到以某种方式配置服务器,或者将其安放在一个新环境中时会产生什么影响。

  在线资源公司是一家为金融机构提供交易服务的企业,其CTO Paul Franko认为,工作态度也会产生巨大作用。他说,他进行了一项额外的努力,以确保常规但很关键的服务器相关工作能够被认真严肃地对待,并及时得到处理。

  “我们提出了一套系统检查与平衡机制,以确保我们的各种规则能够被遵守,”他说。按照Franko的说法,经理们必须常规性地检查下属的管理工作,再辅之以其他手段的双重检查,就可以把人工失误降至最低限度。“是人就会犯错,如果你没有设置多个检查点,事情就会滑向错误的一边。”

  推行预防性维护

  常规性的预防维护措施或许是支撑服务器可靠运行最容易,也最少痛苦的方法。“系统的正常运行时间只能和整个系统中最弱组件的正常运行时间一样长,”Beddoe说。长此以往地执行各项基本任务——升级系统软件、提供有条件的电力,保证适当的冷却环境——方能在不突破预算的前提下让数据中心的服务器无故障地运行,才可不必从其他关键任务组抽调人手来修复故障。

  Paul Franko,在线资源公司的CTO认为,工作态度在服务器管理中可以发挥巨大的作用。他说他他进行了一项额外的努力,以确保常规但很关键的服务器相关工作能够被认真严肃地对待,并及时得到处理。

  Franko说,为了确保所有必须要做的工作在需要时加以贯彻,就应该确定哪些工作是服务器维护工作,并将它们组织成明确的日程表。“有些事情是必须立刻执行的,比如安全升级,而其他一些任务批量执行,或者每隔一段固定期限加以执行是比较合理的。”这第二类任务就包括软件非关键性功能改进的升级等。

  Franko补充说,服务器的维护工作应该这样加以处理:维护工作本身不应占用服务器的正常运行时间。“我们不能为了进行某些维护工作而让系统的运行速度下降,无论如何,我们都得做到这一点。”

  如果必须拆下某台服务器进行维护的话,Franko的团队就会把这项维护工作安排到午夜或周末,用户的需求量很低的时候进行。在正常工作时间拆下一台功能服务器的唯一理由只能是必须安装或执行关键性的软件升级,例如需要安装零日安全补丁。

  自动执行基本的服务器管理任务

  在过去数年间,服务器的管理已变得越来越复杂,其中大部分原因是由于虚拟化及其相关技术的出现;为了提升服务器的效率和使用率,必须设计各类最佳实践。

  虚拟化本身有助于保护数据中心不受服务器宕机的影响。通过对服务器进行整合,在一个共享环境中相互连接,虚拟化允许多个虚拟机运行在不同的主机上。任何一台主机的失灵都会导致工作负载在剩余的主机间进行重新分配。“某台服务器或许会失灵,但这并不意味着这将会影响到整个服务的提供,”Gabiam论述道。

  为了更有效地管理日益扩张的虚拟化环境,Xenos软件、Uptime软件、Nimsoft和Nagios企业等公司纷纷推出了旨在帮助数据中心工作人员关注服务器性能、定位出现的问题,以及充分利用性能改进机会的工具。

  Beddoe觉得这样的工具是必不可少的。“你必须要有某种让人放心的东西,保证你的所有服务器能在任何时候做它们该做的事情。”

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 如何运营服务器

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情