宕机是什么意思
简要回答 宕机是指操作系统无法从一个严重系统错误中恢复过来,致使系统长时间无响应,只能重启计算机的现象。
当某位计算机维修人员对普通客户说,你的计算机经常宕机吗?相信很多用户都无法回答,毕竟宕机这个词太专业了,很多人都不明白是什么意思,下面让我们一起去了解宕机的真实含义吧。
详细内容 01
一般情况下宕机指的就是计算机主机出现意外故障而死机。其次,一些服务器例如数据库死锁也可以称为宕机,一些服务器的某些服务挂掉了。
02
一般来说,普通的电脑出现故障,称之为“死机”,很少会说宕机;而一些知名网站或者媒体服务器出现故障时,通常会被报道为宕机。
03
宕机是一种非常常见的现象,一般是指网站服务器出现故障,导致服务中断。由于服务器通常都是365天不间断的工作,因此很多网站都会出现宕机故障,不过大网站通常会配备多台服务器,因此宕机出现的概率极少。
04
对一些中小网站来说,其实每天都在上演宕机,只是鲜为人知罢了。媒体从来只会曝光成功的大型网站宕机故障,一些失败的企或小网站,是没有理会或在乎的,因此宕机事件也不是经常有报道,但是很多宕机现象在很多中小网站中,基本天天都在上演。
05
防止宕机的方法:可以设置一个宕机警报框架,对有可能发生宕机的网站进行监控,一般情况下,我们可以设置15分钟就诊断一次,从而减少出现宕机的几率。
宕机的读音是dàng jī,具体释义如下:
表达意思:宕机是计算机术语,在计算机中用dowm来表示把机器停止,转换成汉字就是宕机,也可以理解为死机,服务器不能正常工作了,其中也包括一切服务器出现死机的原因。
宕机指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重新启动计算机的现象。它属于电脑运作的一种正常现象,任何电脑都会出现这种情况。
词性:通常在句中作动词,修饰主语或宾语。
例句
1、我们还将设置一些安全措施,以确保我们的网站不会因为愤怒的吸血鬼黑客活动而宕机。
2、使用监控软件来检测主服务器是否宕机。
3、您还会测试一次有意识的和一次不干净的集群宕机情况,以判断集群的状态能否得到安全保持。
服务器宕机有可能是网络故障,有可能是突发的访问量暴增、服务器处理不过来的问题。
服务器处理和响应不过来,会导致丢弃部分请求不予处理,更严重的会导致服务端崩溃。
防止由于服务器宕机可能导致的数据丢失问题的解决办法有:
一、数据备份与“多云”
如果是物理机,要做好数据备份,比如做raid;如果是选择的公有云,则最好把数据分存在不同的服务商那里。
二、web服务器配置优化
对Web服务器进行配置优化,比如:调整内存数量、线程数量等;提供多个能提供相同服务的Web服务器,以实现负载均衡;仔细规划Web服务器上部署的应用规模;对Web服务器进行集群。
三、数据库集群,进行读写分离
严格的说,Hbase 和它的支持系统源于著名的Google BigTable和Google文件系统设计(GFS的论文发于2003年,BigTable的论文发于2006年)。而 Cassandra 则是最近Facebook的数据库系统的开源分支,她在实现了BigTable的数据模型的同时,使用了基于Amazon的Dynamo的系统架构来存储数据(实际上,Cassandra的最初开发工作就是由两位从Amazon跳槽到Facebook的Dynamo工程师完成的)。
备注1Dynamo是亚马逊的key-value模式的存储平台,可用性和扩展性都很好,性能也不错:读写访问中999%的响应时间都在300ms内。
在Dynamo的实现中提到一个关键的东西,就是数据分区。假设我们的数据的key的范围是0到2的64次方(不用怀疑你的数据量会超过它,正常甚至变态情况下你都是超不过的,甚至像伏地魔等其他类Dynamo系统是使用的 2的32次方),然后设置一个常数,比如说1000,将我们的key的范围分成1000份。然后再将这1000份key的范围均匀分配到所有的节点(s个节点),这样每个节点负责的分区数就是1000/s份分区。
如图二,假设我们有A、B、C三台机器,然后将我们的分区定义了12个。
图二:三个节点分12个区的数据的情况
因为数据是均匀离散到这个环上的(有人开始会认为数据的key是从1、2、3、4……这样子一直下去的,其实不是的,哈希计算出来的值,
备注2DHT(Distributed Hash Table,分布式哈希表),它是一种分布式存储寻址方法的统称。就像普通的哈希表,里面保存了key与value的对应关系,一般都能根据一个key去对应到相应的节点,从而得到相对应的value。
备注3Consistency(一致性):即数据一致性,简单的说,就是数据复制到了N台机器,如果有更新,要N机器的数据是一起更新的。
Availability(可用性):好的响应性能,此项意思主要就是速度。
Partition tolerance(分区容错性):这里是说好的分区方法,体现具体一点,简单地可理解为是节点的可扩展性。
定理:任何分布式系统只可同时满足二点,没法三者兼顾
这个理论说明,分布式(或共享数据)系统的设计中,至多只能够提供三个重要特性中的两个——一致性、可用性和容忍网络分区。简单的说,一致性指如果一个人向数据库写了一个值,那么其他用户能够立刻读取这个值,可用性意味着如果一些节点失效了,集群中的分布式系统仍然能继续工作,而容忍分区意味着,如果节点被分割成两组无法互相通信的节点,系统仍然能够继续工作
对比关系型数据库,NoSQL的优点在哪里看NoSQL具有高性能、良好的扩展性以及高可靠性等优点。然而,没有一个产品可以在所有的方面都达到完美。当你仔细审视NoSQL的产品,完全可以找到一些弱点,就像那些杰出的优点一样逗鲜明出众地。基于此原因,选择经过验证的NoSQL产品就是关键。在本文中,作者从运行方面分析Cassandra,HBase以及MongoDB等产品的扩展性和可靠性。
Cassandra故障恢复以及数据一致性
Cassandra在数据的分布式和可靠性方面展示了自身卓越的性能。首先,作者检测了它的分布能力,Cassandra通过一致性哈希算法来实现数据的分配处理。
Cassandra的一致性哈希算法
通过一致性哈希算法,用户可以不经过查询元数据就能搜索并发现key存储在哪个节点上。用户通过计算key的哈希值就能发现key,同样只通过Hash值就可以找到节点所在。你可以想像一致性哈希被作为哈希值顺序的放在圆环上,每个节点处理环上的一个部分。如果环上增加了一个节点,那么某个拥有很大体积数据的特定节点就会被拆分然后分配给新的节点;如果某个节点被移除,分配给该节点的资源就会转移到邻节点上。利用这种方式,Cassandra使增加或者移除节点带来的影响降到了最小。
Cassandra的运行中不需要主服务器,换句话说:并没有特定的服务器来管理数据的分配或者故障恢复。这就意味着,Cassandra并不存在单点故障(Single Point Of Failure,SPoF)。取代主服务器,每个节点都和其他节点周期性地分享元数据,这个也被称之为Gossip协议。使用Gossip协议,节点可以对其他节点的运行状态进行查询。
Cassandra通过提供一致性级别来实现系统的可靠性。如果使用一个很低的一致性级别,即使一个节点宕掉也可能导致整个服务的停滞。例如,3个节点中的某一个节点在存储副本数据的过程中宕掉了,一个通用的写操作,就不能立刻返回成功信息,这是因为故障节点不能完成写入数据的请求。然而,如果一致性级别被定义成一个约定值或者是1,而存活的节点数大于或者等于设定值,这样的话就能立刻返回成功。如果是这样的话,只有在所有的3个节点都同时宕掉,才会发生请求错误。
但是,读/写操作真的没有受到节点出错的影响吗看
为了证明这点,当有新节点添加时,作者在不断的服务器请求下故意让一个节点发生故障。结果如下所示:
移除一个节点和增加一个新的节点
以下是移除一个节点和增加一个新的节点的结果:
在管理工具中明确移除一个节点,存储在此节点中的数据就被迁移到剩余的节点中,然后该节点被移除。
当一个新节点被增加,这个被称之为引导指令,增加的节点就会向种子节点(seed nodes)报告它已经添加完毕。基于配置信息,新节点会被添加在环上配置信息中指定的范围,或者环上资源被占用最高的节的附近—— 当然这是在没有其它节点被引导在这个范围上。
数据从那个节点迁移到到新节点上。
一旦数据迁移进程结束,新节点就能进行使用。
节点失败后增加一个新节点
下面是节点失败后新增节点的结果:
当一个节点宕掉之后,存储在节点上的数据并没有迁移到其他的节点上,服务在于两个副本(节点)共舞。换句话说,并没有返回任何错误信息,即使在这段时间里又收到服务请求。
当一个新节点被增加的时候,该节点会被分配到环上的一个特定区域。然而,引导指令并没有执行,因为引导指令只有系统中存在3份副本的时候才会被执行!
新增的节点并没有数据,但是它能处理请求,这是因为它可以提供服务。如果此时接受到一个读请求,节点并不会对key返回数据。如果备份因子是3而读一致性的级别是1,那么1/3的读请求可能不会返回数据。如果一致性级别被设置为约定值,1/6的读请求可能会返回空数据。简单来讲,这没有读一致性的保证,除非故障节点已经恢复。实际上在级别1中,协调节点是最有可能第一个接受来自新节点的响应。出现这种情况是因为没有来自新节点的I/O请求——因为它没有数据。出于这个原因,新的节点比现有节点有更大的机率返回空数据。
当通过管理工具对新节点做Read Repair时,节点通过读其他节点的同步数据才能得以建立。此时读一致性就被破坏了,只到Read Repair完成。
即使节点失败,Cassandra也能提供无错的服务。尽管Cassandra在写数据的时候,展示了自身强大的性能,但是在读数据的时候并非如此,因为Read Repair的延迟必然导致数据的非一致性的延迟。因此,为了在节点故障中保持读一致性,需要使用以下的方法:
设置读一致性水平为逗all地然后执行读操作。在这种情况下,就能获得所有来自副本的最新数据。
一旦读请求失败,Cassandra会再次进行尝试。这是因为在第一次读写的时候Read Repair可能会作为第二次读写时的恢源数据源。然而,这种方法能确保Rread Repair在二次读之前完成。(当一致性的水平较低,那么读修复就会在后台执行,这是一个独立的线程,区别于读操作过程的线程)
HBase的失败因子和恢复方法
HBase包含以下几个组件:
HRegionServer负责数据的分布处理,由HMaster进行监控。HDFS存储和复制数据,Zookeeper存储了HMaster以及备选HMaster的储存单元信息。如果没有为每个组件建立冗余,所有的组件都会成为SPoF。
HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。HRegionServer内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region,HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储,可以看出每个Column Family其实就是一个集中的存储单元,因此最好将具备共同IO特性的column放在一个Column Family中,这样最高效。()
HRegionServer把数据分布到一些称之为逗region地的单元中,region就是将一张大表格通过指定字段对数据进行排序,然后针对排序键的范围拆分出的结果(就像大表中的一小块)。每个region排序字段的值范围存储在一个单独的region中,被称为meta region。而region和meta region的对应关系被存储在root region中。长话短说,region服务器存储着一个层次树中,包含了root region、meta region以及data region。如果一个region服务器宕机,这个region服务器包含的region都不可以被访问直到被分配给了其它region服务器。因此产生了服务器宕机时间,直到那个region被恢复。
服务器宕机,首先应该联系的就是你的服务器租用商,让他们先排查一下原因。一般服务器宕机,是机房的原因比较多。有可能是服务器电子元件损坏,或者机房网络瘫痪,或者机房遭遇断电等。集体原因还是要联系你的服务器租用商检查出原因,然后处理。
海腾小贺为你解答。
以下我分简单和复杂的两种方法给你讲一下,或许有用,可以参赞考一下。
简单版
一、病毒的原因。
二、硬件的问题。比如电源
三、软件的问题。比如CPU测温监控软件。
四、系统文件丢失,误操作造成的。
五、黑客攻击你。
具体解决方法是重做系统,就可以排除第1、3、4、5;如果还死 ,就是硬件问题了。
专业版
※硬件方面原因:
★“散热不良”:显示器、电源和CPU在工作中发热量非常大,因此体质良好的通风关况非常重要,如果显示器过热将会导致色彩、图像失真甚缩短显示器寿命。工作时间太长也会导致电源或显示器散热不畅而造成电脑死机。CPU的散热是关系到电脑运行的稳定性的重要问题,也是散热故障发生的“重灾区”。
★ “灰尘杀手”:机器内灰尘过多也会引起死机故障。如软驱磁头或光驱激光头沾染过多灰尘后,会导致读写错误,严重的会引起电脑死机。
★ “软硬件不兼容”:例如3D制作及一些特殊软件,可能在有的电脑中不能正常安装或启动,其中可能就有软硬件兼容方面的问题。
★ “内存条故障”:主要是内存条松动、本身质量所致。应根据具体情况排除内存条接角故障,如果是内存条质量存在问题,则需更换内存才能解决问题。
★ “硬盘故障”:主要是硬盘老化或由于使用不当造成坏道、坏扇区。这样机器在动行时就很容易发生死机。可以用专用工具软件来进行排障处理,如损坏严重则只能更换硬盘了。另外对于不支持UDMA66/100的主板,应注意CMOS中硬盘运行方式的设定。
★ “CPU超频”:超频提高了CPU的工作频率,同时,也可能使其性能变得不稳定。解决办法当然也比较简单,就是让CPU回到正常的频率上。
★ “硬件资源冲突”:常见的是声卡或显示卡的设置冲突,引起异常错误。此外,其它设备的中断、DMA或端口出现冲突的话,可能导致少数驱动程序产生异常,以致死机。解决的办法是以“安全模式”启动,在“控制面板”->“系统”->“设备管理”中进行适当调整。
★ “劣质零部件”:少数不法商人在给顾客组装机时,使用质量低劣的板卡、内存,有的甚至出售冒牌主板和打磨过的CPU、内存条,这样的机器在运行时很不稳定,发生死机在所难免。因此,用户购机时应该警惕。
0条评论