全部博文(2759)
分类: LINUX
2013-11-18 11:39:56
原文地址:Linux系统管理员系统维护省劲小技巧大搜罗之一 作者:fengzhanhai
好的系统管理员区分在工作效率上,假如一位系统管理员能在 10 分钟内完成一件别人需要 2 个小时才能完成的任务,那么他应该受到奖励。因为他为公司节约了时间,而时间就是金钱,不是吗?下面我们来介绍几个在系统维护过程中实用的小技巧:
1)卸载无响应的 DVD 驱动器
网络新手的经历:按下服务器(运行基于 Redmond 的操作系统)DVD 驱动器上的 Eject 按钮时,它会立即弹出。他然后抱怨说,在大多数企业 Linux 服务器中,如果在那个目录中运行某个进程,弹出就不会发生。作为一名长期的 Linux 管理员,我会重启机器。如果我不清楚正在运行什么,以及为何不释放 DVD 驱动器,我则会弹出磁盘。但这样效率很低。
下面介绍如何找到保持 DVD 驱动器的进程,并轻松弹出 DVD 驱动器:首先进行模拟。在 DVD 驱动器中放入磁盘,打开一个终端,装载 DVD 驱动器:
# mount
/media/cdrom
# cd /media/cdrom
# while [ 1 ]; do echo "All your drives are belong to us!"; sleep 30;
done
现在打开第二个终端并试着弹出 DVD 驱动器:
# eject
将得到以下消息:
umount: /media/cdrom: device is busy
在释放该设备之前,让我们找出谁在使用它。
# fuser /media/cdrom
进程正在运行,无法弹出磁盘其实是我们的错误。
现在,如果您是根用户,可以随意终止进程:
# fuser -k /media/cdrom
现在终于可以卸载驱动器了:
# eject
2)屏幕协同工作
# ssh到需要协同工作的服务器
登录后运行如下命令:
# screen -S foo
另一个同事在远程终端运行命令
# screen -x foo”
这时您和另一个同事的会话将在shell 中联接在一起。您可以输入,他也可以输入,但彼此可以看到对方所做的事情。这避免了进入其他层次,而且双方都有相同的控制权。这样做的好处是 David 可以观察到您的故障诊断技巧,并能准确了解如何解决问题。
关于此技巧需要注意的一点是,双方需要以同一用户登录。screen 命令还可以:实现多个窗口和拆分屏幕。请阅读手册页获取更多相关信息。
3)找回根密码
如果忘记根密码,就必须重新安装整台机器。更惨的是,许多人都会这样做。但是启动机器并更改密码却十分简单。这里介绍一个 CentOS Linux 示例:
首先重启系统。重启时会跳出GRUB引导界面。移动箭头键,这样可以保留在此屏幕上,而不是进入正常启动。
再次使用箭头键突出显示以 kernel 开始的行,按 E 编辑内核参数。在所示的参数后追加数字 1 即可;
然后按 Enter 和 B,内核会启动到单用户模式;
最后运行passwd命令,更改用户根密码:
sh-3.00# passwd
New UNIX password:
Retype new UNIX password:
passwd: all authentication tokens updated successfully
现在可以重启了,机器将使用新密码启动。
4)命令行脚本和实用程序
Linux 系统管理员通过使用权威的命令行脚本会变得更高效。这包括巧妙使用循环和知道如何使用 awk、grep 和 sed 等的实用程序解析数据。通常这可以减少击键次数,降低用户出错率。
例如,假设需要为即将安装的 Linux 集群生成一个新的 /etc/hosts 文件。一般的做法是在 vi 或文本编辑器中添加 IP 地址。不过,可以通过使用现有 /etc/hosts 文件并将以下内容追加到此文件来实现。在命令行上运行:
# P=1; for i in
$(seq -w 200); do echo "192.168.99.$P n$i"; P=$(expr $P + 1);
done >>/etc/hosts
200 个主机名(n001 到 n200)将由 IP 地址(192.168.99.1 到 192.168.99.200)来创建。手动填充这样的文件有可能会创建重复的 IP 地址或主机名,因此这是使用内置命令行消除用户错误的好例子。请注意,这是在 bash shell(大多数 Linux 发行版的默认值)内完成的。
再举一个例子,假设要检查 Linux 集群中的各个计算节点中的内存大小是否一样。通常,拥有一个发行版或类似的 shell 是最好的。但是为了演示,以下使用 SSH。
假设 SSH 设置为不使用密码验证。然后运行:
# for num in
$(seq -w 200); do ssh n$num free -tm | grep Mem | awk '{print $2}';
done | sort | uniq
这样的命令行相当简洁。(如果在其中放入正则表达式情况会更糟)。让我们对它进行细分,详细讨论各部分。
首先从 001 循环到 200。使用 seq 命令的 -w 选项在前面填充 0。 然后替换 num 变量,创建通过 SSH 连接的主机。有了目标主机后,向它发出命令。本例中是:
free -m | grep Mem | awk '{print $2}'
这个命令的意思是:
使用 free 命令获取以兆字节为单位的内存大小。
获取这个命令的结果,并使用 grep 获取包含字符串 Mem 的行。
获取那一行并使用 awk 输出第二个字段,它是节点中的总内存。
在每个节点上执行这个操作。
在每个节点上执行命令后,200 个节点的整个输出就传送(|d)到 sort 命令,以对所有内存值进行排序。
最后,使用 uniq 命令消除重复项。这个命令会导致以下情况中的一种:
如果所有节点(n001 到 n200)拥有相同的内存大小,则只显示一个数字。这个数字就是每个操作系统看到的内存大小。
如果节点内存大小不同,将会看到几个内存大小的值。
最后,如果某个节点上的 SSH 出现故障,则会看到一些错误消息。
这个命令并不是完美无缺的。如果发现与预期不同的内存值,您就不知道是哪一个节点出了问题,或者有多少个节点。为此需要发出另一个命令。
这个技巧提供了一种查看某些内容的快速方式,而且如果发生错误,您可以立刻知道。其价值在于快速检查。
5)随机系统信息收集
在 技巧 8 中,介绍了一个使用命令行获取有关系统中总内存信息的例子。在这个技巧中,我将介绍几个其他方法,用于从需要进行验证、故障诊断或给予远程支持的系统收集重要信息。
首先,收集关于处理器的信息。通过以下命令很容易实现:
# cat /proc/cpuinfo。
这个命令给出关于处理器的速度、数量和型号的信息。在许多情况下使用 grep 可以得到需要的值。
我经常做的检查是确定系统中处理器的数量。因此,如果我买了一台带双核处理器的四核服务器,我可以运行以下命令:
# cat /proc/cpuinfo | grep processor | wc -l。
然后我看到值应该是 8。如果不是,我会打电话给供应商,让他们给我派送另一台处理器。
我需要的另一条信息是磁盘信息。可以使用 df 命令获得。我总是添加 -h 标记,以便看到以十亿字节或兆字节为单位的输出。# df -h 还会显示磁盘的分区情况。
列表最后是查看系统固件的方式 —— 一个获取 BIOS 级别和 NIC 上的固件信息的方法。
要检查 BIOS 版本,可以运行 dmidecode 命令。遗憾的是,不能轻易使用 grep 获取信息,所以这不是一个很有效的方法。对于我的 Lenovo T61 laptop,输出如下:
#dmidecode |
less
...
BIOS Information
Vendor: LENOVO
Version: 7LET52WW (1.22 )
Release Date: 08/27/2007
...
这比重启机器并查看 POST 输出有效得多。
要检查以太网适配器的驱动程序和固件版本,请运行 ethtool:
# ethtool -i
eth0
driver: e1000
version: 7.3.20-k2-NAPI
firmware-version: 0.3-0