分类:
2006-11-08 19:39:19
中午的时候,突然同事告诉我一台sun的机器去重起某个服务时不成功,我开新终端登陆不成功.
ssh root@1.1.6.188
root's password:
Authentication successful.
Failed to allocate pty!
Connection to 1.1.6.188 closed.
幸好同事有个已登陆的终端,用他的终端查看
# pwd
/usr/netgainagent/netgain/bin
# ls -rlt
./a.sh: I/O错误
./agent-restart.sh: I/O错误
./agent-start.sh: I/O错误
./agent-stop.sh: I/O错误
./ioss_linux: I/O错误
./ioss_linuxd: I/O错误
./ioss_sun: I/O错误
./license.txt: I/O错误
./monagt.sh: I/O错误
./netgain_agent_linux: I/O错误
./restore.sh: I/O错误
./upgrade.sh: I/O错误
总数2
# pwd
cannot determine current directory
# cd ..
..: bad directory
用df –k显示输出正常!
# df -k
文件系统 千字节 已用 可用 容量 挂接在
/proc 0 0 0 0% /proc
/dev/dsk/c0t0d0s0 770943 212769 504208 30% /
/dev/dsk/c0t0d0s6 1489367 1246871 182922 88% /usr
fd 0 0 0 0% /dev/fd
/dev/dsk/c0t0d0s1 770943 591877 125100 83% /var
/dev/dsk/c0t0d0s7 11232700 7933109 3187264 72% /export/home
/dev/dsk/c0t2d0s7 17413250 5869099 11370019 35% /export/home0
/dev/dsk/c0t0d0s5 1987399 541520 1386258 29% /opt
swap 2521832 40 2521792 1% /tmp
初步判断是磁盘的问题,和头沟通了一下,准备先umount 该分区fsck一下看看能否修好!
#umount /usr
Umount cannot execute
#umount /dev/dsk/c0t0d0s6
umount cannot execute
以为是umount的文件属性被人改为不可执行,查看后发现该命令正常
# ls -rlt /usr/sbin/umount
-r-xr-xr-x 1 bin bin 19668 1998 10月 6 /usr/sbin/umount
这时候才醒悟过来,即使系统此时允许你umount /usr,你也不能把/usr分区umount下来,因为系统命令都放在/usr下!
无法umount,只得准备重起,执行sync,reboot均提示cannot execute无法完成!
通过KVM登陆后,发现只能写login,不给你机会输root密码! 找了半天没找到用键盘重起server的键,只得去机房用钥匙打开sun 3500的小柜子,关掉后再启动!
回到监控室,通过KVm监控,大概20分钟发现可以login了!系统没有要求你手工执行fsck,谢天谢地!
尝试ssh登陆,发现不成功. 通过kvm登上主机,用
# netstat -nr
Routing Table:
Destination Gateway Flags Ref Use Interface
-------------------- -------------------- ----- ----- ------ ---------
127.0.0.1 127.0.0.1 UH 0 45 lo0
原来是路由表丢失,赶紧添加路由表! 忘了route add的语法了,刚紧尝试之!
#route add default gw 1.1.6.190
Gw :bad value
#route add default gateway 1.1.6.190
dafault :bad value
#route add default 1.1.6.190
dafault :bad value
这是怎么回事呢? 再次看route add的语法,尝试好几次,均不行!
# ifconfig -a
lo0: flags=849
inet 127.0.0.1 netmask ff000000
hme0: flags=843
inet 0.0.0.0 netmask 0.0.0.0
ether 8:0:20:e4:a3:1e
原来是IP没配上啊,看了/etc/host文件,发现内容很正常,不知道为何未加载IP地址信息!
#ifconfig hme0 1.1.6.188 netmask 1.1.6.128 up
# ifconfig -a
lo0: flags=849
inet 127.0.0.1 netmask ff000000
hme0: flags=843
inet 1.1.6.188 netmask 9fe20680 broadcast 255.255.255.255
ether 8:0:20:e4:a3:1e
已启动的网卡flags=843
#route add default 1.1.6.190
Add net default gateway 1.1.6.190
# netstat -nr
Routing Table:
Destination Gateway Flags Ref Use Interface
-------------------- -------------------- ----- ----- ------ ---------
1.1.6.128 1.1.6.188 U 2 3 hme0
default 1.1.6.190 UG 0 280
127.0.0.1 127.0.0.1 UH 0 45 lo0
Ping 外网主机已通!! OK了!
这次简单的事故出力过程还是牵涉到很多知识面,感觉自己对solaris有些命令又有些生疏!
感觉sun的服务器重起后老出现IP,路由表,硬盘分区信息丢失,不知为何?
以前用hp+sco就没这种问题!!