服务器硬盘热插拔后无法启动
POST过程中出现CTRL + C提示符,进入LSI逻辑配置实用工具v6100200
1,在SAS1064E进入菜单请按CTRL + C
RAID性能:创建,管理阵列
高级适配器属性:查看高级属性还原为默认值(此操作不会删除RAID)
/> 2,选择RAID Properties,三个选项(如果你已经配置了RAID选项,将有四个跳到“其他操作说明):
创建IM卷:创建集成的RAID1,2磁盘镜像,热备用
创建IME卷:创建集成的RAID1E,3到8个磁盘,包括热备用磁盘
创建的卷创建集成条带化,条2-8磁盘条带化
3选择“创建IM卷,下面的代码创建新阵列 - SAS1064E菜单:
将光标移动到磁盘,RAID磁盘下面的[否](配置RAID否),然后按空格/减号,菜单,弹出:
中号保留数据,并迁移到新的RAID1
d删除数据,并创建一个全新的RAID1
选择M,返回到上一级菜单后,RAID磁盘状态变为“是”
4,然后将光标移动到第二个磁盘,RAID磁盘下面的[否],然后按下空格/减号,状态变化的RAID磁盘是
5 ,C,创建阵列
6,选择“保存更改,然后退出此菜单。退出RAID1的配置,在后台自动同步启动。
RAID0步骤:
如果您需要配置RAID0,在步骤2中,选择“创建卷的其他步骤与RAID1。
如果问题能够再现,那么问题已经解决 80% 了。对于操作系统核心而言,如果有问题的再现方法,那么可以说是已经解决 99% 了。经常遇到的问题是系统可以正常运行一段时间,然后死机。如果不好再现问题,那么只有根据死机现场遗留的东西来进行分析了。
如果系统没有死干净,比如磁盘中断和文件系统是好的,那么也许能有日志信息保留在文件中,不过这样的好运气我是从来没有遇到过的。如果键盘中断还能响应 (按下Num Lock,可以看见键盘小灯亮灭),那么运气就算是足够好了,这时可以祭出 sysrq 大法,同时按下 Alt-Sysrq-T 获得进程系统堆栈信息,按下 Alt-Sysrq-M 获得内存分配信息,按下 Alt-Sysrq-W 获得当前寄存器信息。
linux/Documentation/sysrqtxt。另外,最好关闭终端的自动 blank 功能,这样系统死的时候至少能从屏幕上看到一些信息。设置方法是:
# echo 1 > /proc/sys/kernel/sysrq
# setterm -blank
这两个设置最好加到系统启动脚本中 (比如 /etc/rcd/rclocal),保证每次启动都能得到运行。
如果很不幸,键盘也死悄悄了,(更为不幸的是,这种情况很常见),那么也不是只有等死一个办法,这时可以用串口终端 (serial console)将系统信息发送
到另一台系统上,这样可以通过对这些信息分析来定位问题。设置方法如下:
准备工作
1 一台被监视的服务器,一台进行监视工作的PC。
2 一根串口直连线。
配置
1 在服务器上,加入一个新的 grub 项目,增加核心参数 "console=ttyS0 console=tty1",如:
kernel /boot/vmlinuz-2421-930AXsmp ro root=LABEL=/1 console=ttyS0
console=tty1
2 在服务器上,修改 /etc/sysconfig/syslog,加入 klogd 选项 "-c 7",保证更多内核信息得到输出。如:
KLOGD_OPTIONS="-x -c 7"
3 重新启动服务器
4 用串口直连线连接两台机器,测试:
1) 在PC上运行 "cat /dev/ttyS0",在服务器上运行 "echo hi > /dev/ttyS0",看在 PC 上是否有 "hi" 输出。
2) 在PC上运行 "cat /dev/ttyS0",在服务器上运行 "echo w > /proc/sysrq-trigger",看 PC 上是否有相应内核信息输出。
3) 在PC上运行 "cat /dev/ttyS0",在服务器上运行 "modprobe loop",看 PC 上是否有相应内核信息输出。
5 如果测试通过,那么在 PC 上运行:cat /dev/ttyS0 | tee /tmp/result
另外,也可以用 Windows 超级终端获得串口信息。
that’s it
此外,一些核心支持 LKCD, netdump 等调试功能,也可以一试。
剩下的,就只有靠经验和运气了,一般造成 Linux 系统死机的原因有:
系统硬件问题 (SCSI 卡,主板,RAID 卡,网卡,硬盘)
外围硬件问题 (终端切换器,网络)
软件问题
驱动 bug (去找更新的驱动试试)
核心系统 bug (去 LKML 上看看,或换个核心试试)
系统设置
0条评论