一般小型网络服务器会有哪些故障以及如何解决?
服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。
有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 288V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASHEXE,然后将从网上下载的LH6KCBIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KCBIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。
这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。
在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windataexe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。
对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。
还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。
人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。
正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。
这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它操作系统均有效)。
正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。
另外,为了避免数据丢失,你应该按照如下的步骤操作:
· 经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。
· 安装第二块硬盘并与原来的硬盘设置成镜像,
一旦Server Apliance未能正确关闭,并无法重起,请按如下操作恢复:
1 当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。
2 连接串口线的另一头到一台运行Windows的PC的串口上。
3 运行超级链接程序(HyperTerminal),并设置端口的参数为19200, n-8-1, Flow control - None 你可以看到appliance的控制提示,并要求你输入管理员口令。
4 重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。
5 敲入"emergency"并回车。此时需要耐心等待几分钟。然后,登录提示又将出现,此时,LCD屏又能正常工作了。
6 在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)
翻至Defaults… 并按右箭头键选中。
翻至Root Password…并按右箭头键选中。
翻至Random 并按右箭头键选中,会提示一个随机产生的密码。
记下此密码。
翻至Yes并按右箭头键选中,系统密码会立刻更改。
7 回到超级链接的控制屏,登录appliance,用"root"用户名和刚才的密码,此时会出现“#”提示。
8 为修复分区,请按如下方法操作:
对于sa1100,按顺序输入:
[…]#: fsck /dev/hda5
[…]#: fsck /dev/hda6
[…]#: fsck /dev/hda7
对于sa1120,按顺序输入:
[…]#: fsck /dev/sda5
[…]#: fsck /dev/sda6
[…]#: fsck /dev/sda7
当所有的分区都被修复后,应回到“#”提示符下。
9 输入“reboot”重新启动系统。
如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。
对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。
答案来自百度
给你个方案,换个多口交换机就能实现:
建议:IP地址采用手动配置,或者将其中一台路由器开启DHCP自动分配,通过指向不同网关就能实现两条宽带出口选择,希望对你有用。
既然是服务器,那么就是用来做服务使用的,具体的比如说Web服务、FTP服务、Mail服务等等。
为什么要选择小型机来做服务器,那么就必须要了解一下小型机。
小型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机,它是70年代由DEC(数字设备公司)公司首先开发的一种高性能计算产品。
小型机具有区别PC及其服务器的特有体系结构,还有各制造厂自己的专利技术,有的还采用小型机专用处理器,比如美国Sun、日本Fujitsu(富士通)等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构;Compaq公司是Alpha架构。另外I/O总线也不相同,Fujitsu是PCI,Sun是SBUS,等等。这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的。此外,小型机使用的操作系统一般是基于Unix的,像Sun、Fujitsu是用Sun Solaris,HP是用HP-Unix,IBM是AIX。所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可靠性和专用服务器的高速运算能力。
现在生产小型机的厂商主要有IBM和HP及浪潮、曙光等。IBM典型机器有RS/6000、AS/400等。它们的主要特色在于年宕机时间只有几小时,所以又统称为z系列(zero 零)。AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI(技术独立机器界面),单级存储,有了TIMI技术可以做到硬件与软件相互独立。RS/6000比较常见,用于科学计算和事务处理等。
小型机仅仅是低价格、小规模的大型计算机,典型的小型机运行UNIX或者象MPE、 VEM等专用的操作系统。它们比大型机价底,却几乎有同样的处理能力。HP的9000系列小型机几乎可与IBM的传统大型计算机相竞争。
在高端小型机一般使用的技术有:基于RISC的多处理器体系结构,兆数量级字节高速缓存,凡千兆字节RAM,使用I/O处理器的专门I/O通道上的数百GB的磁盘存储器,以及专设管理处理器。它们较小并且是气冷的,因此对客户现场没有特别的冷却管道要求。现在小型机跟中型机跟大型机之间没有绝对明确的界限了,因为IBM把很多原来只在大型机和中型机上应用的技术都在小型机中实现了。
小型机跟普通的服务器(也就是常说的PC-SERVER)是有很大差别的,最重要的一点就是小型机的高RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)特性。
RAS是Reliability, Availability, Serviceability三个英文单词的缩写,它们反映了计算机的高可靠性、高可用性、高服务性三个著名特点,它们的具体含义如下:
高可靠性(Reliability):计算机能够持续运转,从来不停机。
高可用性(Availability):重要资源都有备份;能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到其它资源,以减少停机时间,保持生产的持续运转;具有实时在线维护和延迟性维护功能。
高服务性(Serviceability):能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。
关于IBM的小型机的RAS特性,不得不提到IBM eLiza(蜥蜴)计划。
eLiza 的称呼最早起源于六十年代中期IBM的一个计划,即采用人工智能技术设计一种实现人和计算机之间通讯的程序。在九十年代,IBM设计的深蓝超级计算机战胜了国际象棋大师卡斯帕罗夫,其综合处理能力可比喻于一个蜥蜴(lizard)所具有的功力,即具有预测防范、处理判断以及自我愈合再生能力。
在当今的IT世界,众多企业都无情地面对一个巨大挑战:为了构成一个强大的灵活自如的电子商务运做环境,需要使用大量的服务器、网络设备、复杂的应用软件等,这些设备所涉及的IT技术在发生着日新月异的变化,企业严重缺乏有经验的工程师来维护和管理整个软硬件系统。
IBM公司综合自己多年的IT经验,应运而生的提出了eLiza计划,并给它赋予了具有前瞻性的重要内容:即现代企业要想处于不败的竞争地位,其电子商务环境所使用的软硬件系统应具备下列四项原则:
自我配置能力:系统可以动态自我配置有关资源。
自我保护能力:系统有能力保护自己,不受到非法访问和攻击。
自我愈合能力:系统能够自动预测错误、避免错误、修复错误、取代有关错误部件。
自我优化能力:系统能够自动监视和管理有关资源,将系统性能调整到最佳状态。
为了达到以上目标,系统还需具备以下七个要素:
负载管理(Workload Management)
安全机制(Security)
群集技术(Clustering)
虚拟主机托管(Virtual Server Hosting)
端到端的自动控制(End-to-End Automation)
灾难恢复机制(Disaster Recovery)
端到端的系统管理(End-to-End Systems Management)
下面是IBM p690服务器的RAS特性的介绍
自动首次错误数据捕获和诊断错误隔离能力
自治愈内部POWER4处理器组冗余
业界第一的PCI总线奇偶错误恢复
避免检查中止的不可收集错误处理
动态错误恢复
错误检查和纠正(ECC)或在主存上的等价保护,所有一、二、和三级缓存和内部处理器组
连续和冗余的位操作被使主存具有自治愈功能
在主存上具有的Chipkill纠正功能
N+1的冗余电源,双电源线,和对电源及风扇的在线维护
针对处理器、缓存、内存、I/O和DASD的预计性错误分析
基于运行时错误来决定是否分离处理器运行和启动(动态处理器离线和永久处理器离线)
缓存和主存的离线技术
通过选择高品质的部件最大限度的减少故障
针对电源、风扇和I/O子系统的基于首次故障数据捕获技术的并行、运行间检测技术
0条评论