常见服务器故障类型及排查方法总结
四,服务器故障排查方法总结
问题描述:
每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。
查找步骤:
1、查找top检查服务器负载是否有问题
一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了
2、在服务器中查看网站的访问记录
这些访问记录存储在:/home/对应的网站名/access-logs/对应的网站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进行重启,对apache进行重启
service mysql restart
service httpd restart
重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。
4、查找数据库错误日志
首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用
还有一种方法,就是通过ps -ef | grep mysql来查看
或者也可以通过进入mysql,使用select @@basedir as basePath from dual来查看mysql安装目录
我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析
mysql有以下几种日志
错误日志:-log-err
查询日志:-log
慢查询日志:-log-slow-queries
更新日志:-log-update
二进制日志:-log-bin
以上便是对应的数据库错误日志和慢查询日志的查看方法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
dns是我们上网的一个很重要参数,dns设置或者解析错误就无法正常上网了,有用户遇到错误信息:无法解析服务器的DNS地址”,这该怎么办呢那么你可以使用以下方法进行解决。
方法如下:
1、在开始菜单上单击右键,选择命令提示符(管理员);
2、接着在择命令提示符(管理员) 打开后输入:ipconfig /flushdns
3、重置winsock 目录设置后等待提示已成功刷新DNS 解析缓存,继续输入:netsh winsock reset 命令按下回车键执行命令
重启计算机后查看能否正常打开,若不能打开,再通过下面方法设置DNS:
1、任务栏网络图标右键打开网络共享中心;
2、左上侧找到点击更改适配器设置
3、在打开的窗口中找到当前连接的网卡上单击右键,选择属性;
4、此时在弹出窗口中找到Internet 协议版本4 (TCP/IPv4),选中后点击右下侧属性,或者双击打开;
5、点击使用下面的DNS 服务器地址,然后在下面填入:114114114114 点击确定-确定保存设置即可解决问题!
补充:服务器介绍
服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。
相关阅读:服务器常见问题有哪些
1系统蓝屏、频繁死机、重启、反映速度迟钝
服务器的与我们平常电脑不论是硬件结构还是运行系统,都是极其类似的。因此,就如同我们的电脑一样,一样可能会感染病毒,同样会因为系统漏洞、软件冲突、硬件故障导致死机、蓝屏、重启等故障,同样会因为垃圾缓存信息过多而导致反应迟钝。
2远程桌面连接超出最大连接数
由于服务器默认为允许连接数为2个,如果登陆后忘记注销,而是直接关闭远程桌面的话,服务器识别此次登陆还是留在服务器端的。出现这种情况,最常见的就是重启服务器,但是,如果是高峰期,重启服务器带来的损失是显而易见的。那么此时,就可以利用mstsc/console指令进行强行登陆了。打开“运行”框,键入“mstsc/v:xxxxxxxxxxxx(服务器IP)/console”,即可强行登陆到远程桌面了。
3无法删除的文件该怎么清理
遇到这种情况,可能是该文件还在运行中,可以重启删之,或者运行CMD,输入arrtib-a-s-h-r想要删除的文件夹名,最后输入del想要删除的文件夹名即可删除,运行该命令后无法恢复,请慎用。
4系统端口隐患
对于服务器来说,首要保障稳定性和安全性。因此,我们仅需保证服务器最基本的功能即可,就像声卡都是默认禁止的。我们并不需要太多的功能,也不需要太多的端口支持。像一些不必要,而且风险较高的端口大可封掉。而一些必要的,又有风险的端口,比如:3389、80等端口,我们可以通过修改注册表的方法将其设置不特殊的秘密端口,这样服务器端口的安全隐患就不复存在了。
eMule电驴服务器常见问题及解答
(一)服务器连接的相关说明:(以服务器日志当中的反馈信息为例)
1。正常连接到服务器的情况:
2004-10-25 22:58:47: 正在连接到DateAttackede(622415317:4242)
2004-10-25 22:58:48: 连接到DateAttackede(622415317:4242),发送登陆请求
2004-10-25 22:58:57: 连接建立于:DateAttackede
2004-10-25 22:58:58: 新的客户ID为
正常成功连接到服务器日志当中的反馈就是这样的,没有什么好说的。
2。服务器到达最大客户连接数的情况:
2004-10-25 22:57:26: 正在连接到Razorback(195245244243:4661)
2004-10-25 22:57:28: 连接到Razorback(195245244243:4661),发送登陆请求
2004-10-25 22:57:30: Warning Razorback (195245244243:4661) - This server is full
2004-10-25 22:57:30: Razorback (195245244243:4661)可能到达最大客户连接数了
每个服务器都有自己的承受能力,因此也就对连接的客户数量有一定的限制。限制客户连接数也是为了维护服务器的正常运行,不至于因为连接数过大而造成负载过大的后果。对于那些“人气”比较旺的服务器来说发生这种事情的可能性是比较多。而且很多朋友都喜欢长时间开着eMule!这样一来,服务器的连接端口则被长期占用,这个时候就容易出现这种问题。建议暂时选择连接其他的服务器,过一会再来连接该服务器试试。切忌不可在单位时间内过于频繁的申请连接。那样很容易被服务器“误认为”是攻击而把你加入“黑名单”。
3。服务器端暂时没有相应的情况:
2004-10-25 23:06:14: 正在连接到SciFi-Network Server(66908180:4646)
2004-10-25 23:06:17: SciFi-Network Server (66908180:4646)可能是无响应
很有可能是因为你所连接的服务器暂时调整或是出现问题,所以暂时无法响应你的连接申请。如果你连接的服务器距离较远的话,还有可能是不太理想的网络情况造成的暂时无法响应。建议暂时先连接其他的服务器。
4。已连接到服务器但是很快就被“踢出”的情况:
有可能是你的某些方面不符合服务器连接的要求。比如:ID的高低,共享文件的数量和容量太大,下载任务过多等原因。也有极少数的可能是因为你的网络状况不佳造成的,不过这种情况应该不多见。建议更换需要连接的服务器,或者调整eMule的某些方面以符合服务器的要求。
5。服务器连接超时的情况:
这种情况应该是比较少见的。一般很有可能是因为网络情况不好造成的。另外也可能是因为在同一时间申请连接的客户数量比较多,服务器暂时来不及处理连接申请的缘故。建议暂时连接其他的服务器试试。
(二)服务器连接的一些注意事项
没有绝对的最快或者最好的服务器。服务器是用来连接其他eMule用户、搜索文件和搜索源用的。当用户使用全局服务器搜索时,eMule会向列表里的每个服务器询问搜索结果并返回用户。同样,下载文件的时候,eMule会在服务器内搜索速度最快的源。
关于“ping”的一些说明:
“ping”值表示的是你跟服务器之间的距离。一般来说数值越大表示你距离服务器就越远,这个距离的远近不光是指地理上的距离,还和你的网络带宽,网络线路的好坏有很大的关系。一般说来“ping”值越大的服务器表示你越不容易连接上,通常“ping”值在500以下的服务器是不容易连接上的。
注意需要注意的事项:
1)推荐使用“安全连接”
2)无法获得HighID的用户不要勾选“启用智能LowID检测”
3)“已连结上但马上就被踢出来”—— 可能是你的网络条件条件不好(这种原因比较少),共享文件数量不符合要求(太多太大),任务太多等。
4)只要出现“连接到XXX服务器,发送登陆请求”就说明服务器正常,若连不上问题不在服务器。
5)关于“安全连接”,用安全连接比不用安全连接连接到服务器稍慢,但连接成功的可能性比后者高很多。有骡友提问连接好几次才能连接上服务器。请选择安全连接再试试。
6)绝对不要在短时间内频繁对某一服务器申请连接,特别是老连接不上的时候。会被认为是攻击行为而加入Blacklist 。
(三)更新服务器列表的相关说明
1。如何更新服务器列表!
方法之一:
在“选项”—“服务器”里面,然后点击第3项后面的“列表”,会打开写字板,把以下的每日更新的服务器列表拷贝到里面:
http://wwwsrv1000com/x1/servermet
http://emule945cn/servermet
http://wwwedk-filescom/x1/servermet
方法之二:
推荐一个每天都更新的世界服务器列表的网站:
http://ed2k2x4ude/listhtml
网页左下方有个 Home (servermet) 文件,点击进入另外一个网页,出现下面的内容:
connect list: servermet (add to eMule) 29kB (25 servers)
best servers: servermet (add to eMule) 67kB (63 servers)
all servers: servermet (add to eMule) 99kB (94 servers)
选择最下面的一个,点击(add to eMule)就可以把所有的服务器自动添加到eMule当中。
补充说明:何时应该更新服务器列表,更新之后有什么好处吗!?
如果你的连接没有什么问题,下载都一切正常的话没就有必要经常更新服务器列表。如果哪天连接服务器总是失败或超时的话,可以试着更新一下服务器列表。或许会有帮助。一般来说,其实只要你选中“选项”—“连接”里面的“连接到服务器时自动更新服务器列表”和“连接到其他客户时更新服务器列表”这两项的话。你的服务器列表一般都可以保证没有问题。另外,更新服务器列表的优点就是:更新之后能在更大的范围内搜索文件!
(四)ED2K连接的相关说明
如果ED2K连接失效!
解决办法:依次“选项”—“常规”—然后点击右下角的“ED2K连接”即可。
ED2K连接不能正常工作,浏览器出现一个错误!
(一般说来都是因为安装了不止一个的eMule版本或者是同时安装了eMule和eDonkeyz造成的。)
解决办法:eMule需要正确的和指定的连接各式相关联,一些其他类型的软件也许会改变这个文件的关联性。所以点下一个连接时会产生一个浏览器错误的提示或者是下载/服务器清单未被加入。假如在eMule的“选项”—“常规”里面的“ED2k连接”也是灰色但是连接工作仍然不可以工作。
点击“开始”—“运行”—输入“regedit”运行注册表程序。找到下面的键值:
HKEY_CLASSES_ROOT\ed2k\shell\open\command
名称:默认
类型:REG_SZ
数据:“eMule的安装路径”%1(如默认的:"C:\Program Files\eMule\eMuleexe" "%1")
检查
HKEY_LOCAL_MACHINE\SOFTWARE\Classes\ed2k\shell\open\command
里面的“数据”是否和上面的保持一致。
如果你的eMule有连接关联的问题。删除所有
HKEY_CLASSES_ROOT\ed2k\ 和 HKEY_LOCAL_MACHINE\SOFTWARE\Classes\ed2k\
项目之后,再按“ED2K连接”看看!
(五)关于Kad的相关说明
Kad(Kademlia)是一种分散式(decentralized)的P2P通信协议,是将所有的使用者连成一个网络,不通过服务器,从而直接进行搜索资源和来源的操作。这样可以在一定程度上减低服务器的负担。
Kademlia 网路的详细解释
基本上,Kademlia不是一个网路,是一个很热门的技术,通称为DHT (Distributed Hash Table 分散式杂凑表)。Kademlia虽说不是DHT中最好的,但是已经相当不错,而且很新。DHT有很多应用,但是P2P可能是其中最重要的。因为它可以让 P2P网路,完全不必使用伺服器。目前我所知道的网路,大概只有Freenet和早期的Gnutella没有类似伺服器的东西。其他的网路,举凡 Fasttrack,eDonkey,OpenNap,WinMX等等,都有类似伺服器的东西。但是前两者的著名问题是效率不彰,因此DHT就可以帮助解决这个问题。另外没有伺服器的好处,一是不怕伺服器被有关单位查禁,二是可以让更多人连上P2P网路。像Overnet就是使用Kademlia技术的纯 P2P网路,但是eMule Kademlia并没有和Overnet相容,听说是eMule的设计师认为Overnet不够好,所以把Overnet不好的地方修改了。总之,Overnet/eMule Kademlia都是基於Kademlia的网路,只是eMule并没有发明另一个新名称罢了。至於哪个会成功,我个人看好eMule,因为 eDonkey网路上超过7成以上使用eMule。Overnet虽然问世超过1年,但是使用人数始终无法站上百万。如果eMule Kademlia能把使用者带进来,我想基於纯P2P的好处,eMule Kademlia网路可能超过5百万,超过Fasttrack的极盛时期。
kad网络是一种根本不需要服务器的架构,每个emule客户端负责处理一小部分search和source finding的工作。分配工作的原理是基于客户端的唯一id和search或者source的hash之间的匹配来决定。比如说LordOfRing1avi这个文件由用户abc来负责(通过文件的hash决定),则任何用户共享这个文件的时候都会告诉用户abc我有这个文件,其他用户去下载这个文件的时候也会询问abc,abc告诉他们谁有这个文件,source finding就完成了。search的方法也差不多,每个人负责一个keyword。
至于如何找到用户abc则是通过一种将用户id异或的方式,两个id的二进制异或值决定他们之间的逻辑距离,比如1100距离1101要比距离1001近。当一个哟用户加入kad后,首先通过一个已知的用户找到一批用户的id和ip:port。当此用户A要寻找某特定用户x时,A先询问几个已知的逻辑距离X较近的用户,如x1,x2,x3,x1,x2,x3会告诉A他们知道的更加近的用户的id,ip和port,一次类推,A最终就能找到X。寻找的次数应该在logN数量级,N是总人数。
(六)服务器连接常见问题
如果每次打开eMule都回弹出这样的窗口:
在“adresssdat”找不到任何的服务器清单位置,请贴一个有效的服务器清单位置到这个档案或使用自动更新!
解决方法:依次“选项”—“服务器”—取消“启动时自动更新服务器清单”即可。
关于“黑名单”的说明:
如果你在单位时间之内频繁的向同一台服务器提出连接申请,服务器端就会把你的“频繁连接”误认为是“攻击”!因此就会暂时把你列入黑名单。特别是网络情况不好,eMule总是连接服务器失败的时候,大家就要特别注意。切忌不要频繁连接服务器,以免被列入黑名单。
如果你是低ID,建议取消“选项”—“连接”—里面的“断开时自动连接”选项。以避免重复连接申请而被列入黑名单。
(七)关于“Creditfile已加载”已加载的说明
2004-11-20 09:57:30 上午: 发现14个已知的共享文件
2004-11-20 09:57:30 上午: Creditfile已加载,5005个客户已知
eMule的“选项”-“扩展设置”里可以设置启用信用系统--Credit system(受益上传者)。如果你启用了这个Credit system,那你的eMule 5个月后就会出现客户被删除的信息。那这个信用系统(Credit system)是用来让上传者受益的。这就是UserHash在起作用了。举个简单的例子,比如A给B上传了,那么B就会记下A的UserHash。如果下次张A要下载B的东西时,B就会给A的评分比普通的用户高。这样A在B这儿就可以少排队或者不排队进入下载。当然,A和B建立的这种信用的评分关系只能持续5个月,如果5个月内两个用户都没有再建立过连接,就会出现上面的被删除的现象了。
另外,这也就是我们为何要加大上传原因。因为上传多了后给你带来的好处就是以后你下载东西时可以少排队或者不排队。所以,大家对自己的UserHash要加倍的珍惜,特别是上传量大的洛友,经常备份config下的文件是很有必要的。一旦UserHash变了,你和其他骡骡建立的这种信用关系也就没了。
(八)服务器常见问题“FAQ”
Q1:连接服务器时user为0,file为0的服务器是否不需要连接?
A1:不一定的,有些服务器是要你连上了才会显示那些数据的。
Q2:在完成时出现错误提示,文件下完了吗?可以看吗?
A2:这个错误的问题,我想是由于源文件出错造成的,在最后完成时出错改一下后缀名就可以看了,不用在等待下载了。但前提是出错的文件有保存在硬盘上。最新的emul有自动修复错误功能,下载过程中的错误时可修复的。
Q3:服务器是越多越好的吗?什么样的服务器才算是好服务器?
A3:不是,因为你同时只能连一个服务器,所以留下些好的就够了。文件数多,在线人数多的服务器就是好服务器。你可以把一些好的服务器设置成静态服务器,这样就看着舒服,用的方便。
Q4:为什么钢连上服务器就有断开了!?
A4:连上几分钟就断有几种情况,(1)服务器关机或重起(2)你被设为不受欢迎(可能是因为你的自动连接速度太快!)(3)你的网络有问题,连接中断!(4)你共享的文件数太多导致服务器传输出错。排除以上情况的话,请查看你的共享设置,把所有的勾都去掉,同时把下载的文件减到8个以下!
Q5:EM里我的连接用户名单中总有几个用户在黑名单中,可我没有把任何用户列入黑名单。
A5:黑名单是因为该用户在极短的时间内,多次尝试连接你的客户端,被你的EM客户端BAN了,(可能他用了BOT)一般过几个小时会自动把他从黑名单中剔除。不然的话,再次开机后也行。
服务器软件故障是在服务器故障中占有比例的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。
有一台HP LH6000R服务器,开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 288V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。
维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为 FlashEXE,然后将从网上下载的LH6KCBIN(CPU管理板的FIRMWARE)拷贝到一张Dos启动盘上,用这张盘启动服务器。然后在 DOS下运行”FLASH /CMC A:LH6KCBIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新 FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU 占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。
由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以 Windows NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的管理人员就应该经常在服务器网站上下载的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。
但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windataexe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。
对于此类软件故障,操作员先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。
还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。
人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。
正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。
这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是Unix,但思路对于其它操作系统均有效)。
0条评论