故障分析和处理的过程、工具与方法
(1)处理过程
1、确认故障,是否真的是故障、故障的表现是什么等。
2、分析故障影响,影响的对象、影响的范围、影响的程度等。
3、查看应用、系统日志,看日志是否有关联的报错或告警日志。
4、检查监控告警平台是否有告警信息。
5、查看服务器或集群容量和性能指标,主要看是否有容量指标超阀值,性能出现瓶颈等。
6、是否是变更导致了问题。
7、确定故障处理方案,现场如何保护、处理步骤是什么,有什么风险等。
8、处理故障
9,验证故障处理结果
(2)分析方法
1、对比分析
2、排除法
3、历史数据分析
4、趋势分析
5、时序日志分析法
(三)处理方法
1、故障隔离
2、交易降级
3、熔断
4、交易限流
5、服务、进程重启
6、服务器重启
7、变更回退
故障分析:
1、出现12007错误,是由于DNS地址解析问题所引起。先排除路由器中是否做了相关策略(检测中发现未设置)。
2、检测电脑DNS地址设置是否正确。
解决方法:一般建议是先修复瑞星防火墙,然后再升级试试,如果升级之后仍不行,则应该重新设置DNS服务器IP了:
进入网上邻居-右击属性-本地连接-属性-TCP/IP协议属性
常见故障有两种,第一,硬件故障第二,软件故障
<br>听报警声
<br>一长两短是内存有问题
<br>一长几短是显卡有问题
<br>如果没报警声,风扇转,屏幕无显示,说明CPU有问题
<br>以上情况都没有,系统自检也成功的话,就是操作系统有问题或者硬盘坏了,如果自检不成功,则检查CMOS设置
脑常见故障及排除
从PC诞生到现在,电脑经过了无数次的更新换代。随着各项技术的不断突破,电脑作为一个奢侈品的时代已一去不返,已经从商务应用过渡到了娱乐休闲,走入了寻常百姓家;电脑从原本单纯的专业使用,变成了目前的大众家庭娱乐中心,更多的家庭用户还将电脑作为一个家庭装饰品。
但在电脑给我们带来方便的同时,也给我们带来了不少烦恼。比如说:死机、重启、黑屏等一些电脑故障,就经常困扰着不少朋友。当自己的电脑出了故障,不少朋友只能将自己的电脑送去电脑城维修,废时废力不说,还得付上那高额的维修费。而实际上,许多故障往往很容易搞定,不需要任何专业工具,自己动手也就是几分钟的事情。
电脑启动不了,是不是很着急?
在本文中,笔者会以简练详尽的语言“手把手”的带你走进电脑基础维修的大门,力求在最短的时间内教会您电脑基本硬件故障解决之道。
首先,需要明确的一点是,电脑故障分别软件故障和硬件故障。对于专业维修人员,一般是采用先“硬”后“软”方法来检测故障的所在处(即先检查硬件,确认硬件是否有故障,如果排除了硬件故障,再检查软件问题);而对于动手能力较差的新手来说,笔者建议朋友们选择先软后硬的方法。
由于这篇文章是以“电脑常见硬件故障解决方案”为核心,所以对于排除电脑软件故障,我们只教大家一点。即将电脑系统盘完全格式化,重新安装操系统,仅仅安装必要驱动。这时,如果故障解决了,即为软件故障;如果故障仍没有解决,即为硬件故障。还有一种情况是,格式化后不能正常安装操作系统,这同样为硬件故障。
另外,还有两点需要确认,明确了这两点有助于您更快的理解本文。
一、本文中的“常见故障”是指电脑在正常使用过程中,非人为原因出现的故障。其它故障不在本文讨论范围之内,比如说:新攒的电脑;更换CPU、内存、硬盘、显卡等;暴力磕碰等情况下出现的故障。
二、如果您的电脑安装的是Windows 98或Windows ME操作系统,那么经常遇到死机、重启、蓝屏等情况是正常的,这是操作系统本身的BUG造成的。解决之道也很简单,就是升级Windows 2000或XP系统。
电脑常见故障之一——死机
死机是电脑的常见故障之一,每个使用过电脑的人恐怕都遇到过死机现象,电脑的死机确实是一件很烦人的事,有时还会给您带来不小的损失。
在笔者的实际维修生涯中,造成死机的硬件故障最常见就是:CPU散热器出问题,CPU过热所致。
检测方法:检测这个故障的方法也很简单,首先将电脑平放在地上后,打开电脑,观察CPU散热器扇叶是否在旋转,如果扇叶完全不转,故障确认。有时候,CPU风扇出现故障,但却没有完全停止转动,由于转数过小,所以同样起不到良好的散热作用。检测这种情况笔者常用的一个方法是:将食指轻轻的放在CPU风扇上(注意,不要把指甲放到风扇上),如果有打手的感觉,证明风扇运行良好;如果手指放上去,风扇就不转了,风扇故障确认。
解决方案:很间单,更换CPU散热器。
其它造成死机的常见硬件故障:显卡、电源散热器出问题,过热所致。
检测方法:完全可以用上述方法来检测显卡散热器,在这里我们就不再赘述。电源散热风扇故障的检测方法稍有不同,将手心平放在电源后部,如果感觉吹出的风有力,不是很热,证明正常;如果感觉吹出的风很热,或是根本感觉不到风,证明有问题。
解决方案:显卡问题可以直接更换显卡风扇;电源风扇虽然在内部,但同样拆开自行更换,所需要只是一个螺丝刀而已。
电脑常见故障之二——重启
电脑在正常使用情况下无故重启,同样常见故障之一。需要提前指出的一点是:就算没有软、硬件故障的电脑,偶尔也会因为系统BUG或非法操作而重启,所以偶尔一两次的重启并不一定是电脑出了故障了。
造成重启的最常见硬件故障:CPU风扇转速过低或CPU过热。
一般来说,CPU风扇转速过低或过热只能造成电脑死机,但由于目前市场上大部分主板均有:CPU风扇转速过低和CPU过热保护功能(各个主板厂商的叫法不同,其实都是这个意思)。它的作用就是:如果在系统运行的过程中,检测到CPU风扇转速低于某一数值,或是CPU温度超过某一度数,电脑自动重启。这样,如果电脑开启了这项功能话,CPU风扇一旦出现问题,电脑就会在使用一段时间后不断重启。
检测方法:将BIOS恢复一下默认设置,关闭上述保护功能,如果电脑不再重启,就可以确认故障源了。
解决方案:同样为更换CPU散热器。
造成重启的常见硬件故障:主板电容爆浆
电脑在长时间使用后,部分质量较差的主板电容会爆浆。如果是只是轻微爆浆,电脑依然可以正常使用,但随着主板电容爆浆的严重化,主板会变得越来越稳定,出现重启的故障。
比较严重,这种情况电脑根本就不可能启动
不是很严重,这种情况电脑应该还可正常使用
检测方法:将机箱平放,看主板上的电容,正常电容的顶部是完全平的,部分电容会有点内凹;但爆浆后的电容是凸起的。
解决方案:拆开电脑,拿到专门维修站点去维修,一般更换主板供电部分电容的维修费在20块钱以内(成本不过几毛钱);超过这个数,你就碰到JS了。
如果是某一次非法关机后或是磕碰电脑后,电脑可以通过硬件自检的过程,但在进入操作系统的过程中重启,并且一再如此的话,就要考虑是否是硬盘问题了。
检测方法:使用“金海硕-效率源磁盘坏道修复程序16破解版”,去网上下载一个,很好找的。使用这款软件时,注意要将系统时间调整到2003年5月到2003年12月之间,进入这款软件运行界面后,完全是中文傻瓜式操作就不用介绍了。
解决方案:上文介绍的“效率源”同样可以修复硬件坏道,不过就笔者使用,修复效果并不是很好。在这里,笔者推荐大家使用“HDD Regenerator Shell硬盘坏道修复工具”,操作介面虽然是英文的,不过英文比较简单,就算是你完全看不懂,那就一直按“回车键”就可以进入修复界面。需要提醒大家的是,在使用“HDD”前,请注意备份硬盘数据。
在使用HDD修复完后,再使用“效率源”检测一下,90%以上的硬盘可以完全修复。如果这时检查你的硬盘依然有坏道,建议你更换一块新硬盘,为你的老硬盘准备“后事”吧。
请朋友们注意,以上方法适用于任何情况下的硬盘坏道修复,是笔者在多年的维修工作中,发现的比较简单,同样是修复率比较高的一个方法,完全修复率可达90%以上。
电脑常见故障之三——开机无响应(上)
经常使用电脑的朋友应该会碰到这种情况,开机时按下电源按钮后,电脑无响应,显示器黑屏不亮。除去那些傻瓜式的故障原因,如显示器、主机电源没插好;显示器与主板信号接口处脱落外,常见的故障原因如下。
其实这个故障还分两种情况,一是开机后CPU风扇转但黑屏,二是按开机键CPU风扇不转。我们先来分析比较简单第一种情况。
“开机后CPU风扇转但黑屏”的故障原因一般可以通过主板BIOS报警音来区分,我们将常用主板BIOS报警音的意义列在后面。
AWARD BIOS程序,开机时按DEL可进入
一般我们的BIOS是AWARD,所以在这里我们只列这种BIOS的报警音含义。
1短 系统正常boot机
2短 常规错误,请进入CMOS SETUP重新设置不正确的选项
1长1短 RAM或主板出错
1长2短 显卡错误-----------------------常见
1长3短 键盘控制器错误
1长9短 BIOS损坏
不断地响(长声) 内存插不稳或损坏-------常见
不停地响 电源,显示器未和显示卡连接好
重复短响 电源
如果你的电脑属于上文报警音中之一,你就可以“头疼医头,脚痛医脚”了。注意在上文中标出的两个“常见”项,这两项故障一般可以通过将配件拔下,用橡皮擦干净金手指重新安装上解决。据笔者经验,90%以上的这两种故障可以通过上述方式解决。
还有时开机后,主板BIOS报警音没有响。这时,就需要注意一下主板硬盘指示灯(主机上显眼处红色的那个),如果一闪一闪的(间隔不定),像是不断的在读取硬盘数据,正常启动的样子,那就将检查的重点放在显示器上。如果确定是显示器的问题,就只能送维修站了。注意:普通用户请不要自行打开显示器后盖进行维修,里面有高压电。
如果主板硬盘指示灯长亮,或是长暗的话,就要将检查的重点放在主机上。可以试着将内存、显卡、硬盘等配件逐一插拔的方式来确认故障源。如果全部试过后,电脑故障依然没有解决,就只能送维修站了。估计故障是:CPU或主板物理损坏。
电脑常见故障之三——开机无响应(下)
下面我们来分析“按开机键CPU风扇不转”的故障原因。这种故障可以说是最难处理的,尤其是在没有任何专业设备的情况下。笔者只能根据以往的维修经验给出一些确实可行的检验步骤。请注意,以下的每一步骤全都是笔者曾经见到的实际故障案例。
电脑主机一大杀手——灰尘
1、检查电源和重启按键是不是出了物理故障,最常见的是按下去起不来,两个按键的任一个出现这种问题,均可以造成电脑无法正常开机。解决方法只能送修或更换机箱,因为机箱由于集成在机箱内部,普通用户很难修理。
2、打开机箱,将主板BIOS电源拔下,稍等一会,再重新按上,看电脑是否可以正常运行。
3、将主板与机箱的链接线全部拔下,用螺丝刀碰触主板电源控制针(由于有许多针,电源控制针的确认请参照主板说明书,别乱碰,会烧主板的),如果正常开机,证明是机箱开机和重启键的问题。解决方法同上。
4、将电源和主板、光驱、硬盘、软驱等设备相互之间的数据和电源线全部拔下,将主板背板所有设备,如显示器、网线、鼠标、键盘也全部拔下,吹干主板电源插座和电源插头上的灰尘后重新插上,开机。如果可以开机,再将设备一件一件插上,以确认故障源。确认后更新出故障的配件即可解决问题。
以上四步全部试完了,依然不可以确定故障源的话,在现在设备的情况下,已经不能确定故障源所在,只能将电脑主机送维修站了。估计故障是:电源或主板烧毁。
电脑常见故障之四——显示器色斑
CRT显示器全屏、一个角或是一小块地方,出现色班,可以说并不是一个大故障,电脑仍然可以使用。但对于这个面子上的事情,如果不解决掉,总是用着不“爽”。
显示器色斑,即磁化现象。消磁
参考资料:
四,服务器故障排查方法总结
问题描述:
每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。
查找步骤:
1、查找top检查服务器负载是否有问题
一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了
2、在服务器中查看网站的访问记录
这些访问记录存储在:/home/对应的网站名/access-logs/对应的网站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进行重启,对apache进行重启
service mysql restart
service httpd restart
重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。
4、查找数据库错误日志
首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用
还有一种方法,就是通过ps -ef | grep mysql来查看
或者也可以通过进入mysql,使用select @@basedir as basePath from dual来查看mysql安装目录
我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析
mysql有以下几种日志
错误日志:-log-err
查询日志:-log
慢查询日志:-log-slow-queries
更新日志:-log-update
二进制日志:-log-bin
以上便是对应的数据库错误日志和慢查询日志的查看方法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
服务器故障排除是一门精细的工艺,但也有一些方法和技巧可以把这件事情变得简单和快速。ITIL方法深入研究如何解决服务器故障或相关问题,但总的主旨是尽可能快速和有效地缩小问题范围。退一步想想如何从逻辑上解决中断期间的问题。例如,如果有用户抱怨不能访问一些东西,看看其他用户有没有相同的问题,这样可以消除本地某个具体终端用户设备问题的可能性。以下全方面指南旨在帮助考虑故障诊断流程和过程。请结合自己的指导原则和技术优势使用。 需要的第一条信息是停机或效率变慢发生的范围以及产生了什么样的影响。就像是网络问题可能是因为踩线而影响了一台PC或小的群集。
如果同一问题影响到了多位用户,可以排除环境变量,比如本地PC上的软件误操作或硬件问题。
如果有多个网站,它们全部受影响吗?这样可以确定问题是否在于本地服务器。 不同的部门之间倾向于相互指责。系统管理员会将服务前台缓慢的应用程序响应归咎于网络;网络管理员抱怨存储区域网络(SAN);存储管理员指责软件部门。如果正在解决一个问题——尤其是像应用程序变慢这类无法确定原因所在的问题——那么,确定数据中心里哪些区域的基础设施受到了影响。当多个服务器和应用程序发生故障,通常可以排除服务器问题,真正的问题可能来自网络或存储阵列。虚拟化环境中,检查所有受影响的虚拟机的物理主机位置,确保它们没有共享受损的硬件。
通过排除,结果最终通常会指向某个明确的罪魁祸首,但并非总是如此。发现问题的共性,尝试不同的因素组合,以缩小可能性。例如,问题可能源于文件共享时复制时间过长。如果在相同站点上,从一台服务器复制到另一台服务器时,是否也很缓慢?如果是的话,可排除广域网络的嫌疑。在服务器上的本地磁盘之间复制过程是否缓慢?如果是的话,可排除SAN或局域网的嫌疑。如果你不得不使用数据包捕获或输入/输出(I/O)速度测试,故障排除可能需要很长时间。 文档是一个非常有价值的故障诊断工具,可轻松访问环境的拓扑,并了解应用程序是如何工作的,使得能够迅速排除服务器问题。
需要有扎实的数据中心操作知识,并拷问自己几个重要的问题:每个应用程序涉及多少台服务器?基本的网络设置是什么?当前是什么基础设施?这些问题很有价值。例如,如果有两台应用服务器供客户端通过循环DNS访问,同时一半用户反馈有问题。从一开始就知道一半的用户连接到各自的服务器,因此不会将时间浪费到另外一台服务器上并试图解决问题。 沟通是诊断服务器故障的关键。例如同事昨晚更改了服务器设置,结果第二天一些东西无法使用。那么需要了解做了哪些更改,因为这可能就是原因所在。大型企业有正式的改革形势,涉及到每个人,但并不是所有的IT小组都会享受(或者阻碍,这得看你怎么看待这件事了)的。
当一个新的应用程序或其他项目改变投入生产时,沟通可以帮助数据中心团队做好准备并积极地检查环境。否则当终端用户开始抱怨应用无法正常工作的时候,不得不询问新应用程序的部署和资源需求等情况。 在对服务器进行故障排除时,对正在进行的操作进行完整的描述可以帮助节省时间。
市场上有很多监控工具用于不同规模和架构的数据中心。正确配置之后,它们会跟踪关键指标,如延迟和I/O速度等。监控工具还会提醒你潜在的有用的信息,例如一个只剩1%磁盘空间的驱动器将要导致服务器问题。
很多产品还会对服务进行监控,因此如果某个关键服务崩溃或中断,监控工具会发出警告或自动按照已设置的规则尝试重启。 令人惊讶的是,服务器和相关的日志常常被忽视。
当出现问题时,技术人员认为他们知道问题出自哪里,并且会花好几个小时来证明他们的正确性。但是如果他们花上几分钟的时间检查一下日志,会发现已记录下来的确切的问题。例如,如果知道正在交互的两件事情以及它们的账户,就能够很容易解决许可问题。
查看微软Windows中的Event Viewer日志或Unix/Linux服务器上的系统记录,这上面显示了警告和错误。应用程序日志也值得一看,因为它们通常包含错误的数据,指向正确的根本方向。 有些管理员调用供应商和日志记录,但最好不要这样做。检查基础事项之后,花几分钟调用日志,而不是直到停机几个小时后再这样做。
在解决事情之前不要着急,检查数据中心供应商支持的服务水平协议。如果供应商直到第二个工作日都没主动联系你,记录问题可以尽早避免一个令人沮丧的夜晚。
许多供应商网上有具体说明如何解决服务器问题。从知识库和在线论坛中检查供应商的资源。
不能排除服务器问题并且在前五分钟内解决问题着实会令人沮丧,但是不要害怕寻求帮助。充足的准备、沟通和对环境的理解是拯救错误的有利工具。
0条评论