Linux内核崩溃转储机制。-onlyzq-ChinaUnix博客

相濡以沫onlyzq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

onlyzq

博客访问： 2707404
博文数量： 2110
博客积分： 18861
博客等级：上将
技术积分： 24420
用户组：普通用户
注册时间： 2008-04-05 18:23

文章分类

全部博文（2110）

DataBase（345）

PostgreSQL（4）

Oracle（271）

MySQL（62）
DataBase（0）

PostgreSQL（0）

Oracle（0）

MySQL（0）
七七八八（667）

健康百年（155）

家长里短（12）

人在职场（209）

社会百态（222）

历史疑云（26）

体育人间（4）

时尚天地（7）

娱乐星空（32）
七七八八（80）

健康百年（0）

家长里短（0）

人在职场（0）

社会百态（0）

历史疑云（0）

体育人间（0）

时尚天地（0）

娱乐星空（0）
其它技术（363）

Cloud Computing（0）

Java（98）

Storage（75）

Script（0）

JavaScript（31）

Html/Css（36）

ProjectManager（2）

Hareware（10）

Network（18）
其它技术（0）

Cloud Computing（0）

Java（0）

Storage（0）

Script（0）

JavaScript（0）

Html/Css（0）

ProjectManager（0）

Hareware（0）

Network（0）
Microsoft（176）

PowerShell（0）

Office System（28）

ISA/Forefront（4）

SCCM/SMS/BDD/MDT（0）

Exchange（22）

SQL Server（34）

Windows Client（56）

Windows Server（12）
Microsoft（0）

PowerShell（0）

Office System（0）

ISA/Forefront（0）

SCCM/SMS/BDD/MDT（0）

Exchange（0）

SQL Server（0）

Windows Client（0）

Windows Server（0）
Linux/Unit/BSD（211）

IDS（0）

SELinux（0）

Squid（0）

FTP（0）

Nagios/Cacti/MRT（0）

Virtualization（0）

Nginx（0）

VPN（0）

System（0）

Shell（0）

PAM（0）

OpenLDAP（0）

Mail（0）

IPTables（0）

Cluster（0）

Bind（0）

Kernel（0）

Samba（0）

Apache（0）
Linux/Unit/BSD（262）

IDS（3）

SELinux（2）

Squid（6）

FTP（8）

Nagios/Cacti/MRT（18）

Virtualization（27）

Nginx（14）

VPN（2）

System（24）

Shell（90）

PAM（0）

OpenLDAP（0）

Mail（12）

IPTables（6）

Cluster（4）

Bind（0）

Kernel（18）

Samba（2）

Apache（26）
未分配的博文（6）

文章存档

2011年（139）

2010年（1971）

我的朋友

相关博文

Linux内核崩溃转储机制。

分类： LINUX

2010-04-24 08:03:32

　概述

　　当系统出现panic的时候，kdump（内核崩溃转储机制）会通过调用kexec来快速的启动预先准备好的dump-capture kernel.该启动方式与快速启动机制类似，不会经过BIOS，属于热启动。dump-capture kernel 启动后，前一个内核运行时的内存镜像会被保存到/proc/vmcore，可以通过cp 或者scp将其vmcore文件拷贝到磁盘上。重启系统后，即可通过分析工具对刚才保存的vmcore文件进行分析，查找导致panic的原因。

　　dump-capture kernel 启动只是使用少量的内存，并且这些内存由第一个内核提供。这样设计保证了第一个内核启动且正在运行中的DMA不会破坏第二个内核的运行。在内核崩溃之前所有有关于核心映像的必要信息都用ELF格式编码并储存在预先保留的内存区域中。

　　目前kdump和kexec只支持 x86,x86_64,ppc64,ia64这四种架构。

　　设置

　　1.安装kexec-tools工具，至于如何安装，在此不再多说。

　　2.编译支持kdump的系统内核，我们叫他primary kernel。

　　确认以下内核选项已经被打开并重编内核。

　　1) 使能"kexec system call => Processor type and features." ,使内核支持kexec系统调用

　　CONFIG_KEXEC=y

　　2) 使能"Filesystem" => "Pseudo

　　filesystems."=> "sysfs file system support"

　　CONFIG_SYSFS=y

　　注意：如果"General Setup."=>"Configure standard kernel features (for small system)" 没有打开的话，"sysfs file system support"可能并不会在"Pseudo

　　filesystems."中出现，如果是这种情况，可以直接检查.config文件，确认CONFIG_SYSFS是不是已经开启。

　　grep 'CONFIG_SYSFS' .config

　　3）使能"Kernel hacking."=>"Compile the kernel with debug info" ，保证编译出的内核带有调试符号。因为dump分析工具在读取和分析dump文件时需要这些调试符号。

　　CONFIG_DEBUG_INFO=Y

　　3. 编译dump-capture kernel

　　针对不同的架构，内核选项也有不同，但是不论哪种架构，以下两个选项是必选的

　　"Processor type and features"=> "kernel crash dumps"

　　CONFIG_CRASH_DUMP=y

　　"Filesystems" => "Pseudo filesystems"=>"/proc/vmcore support"

　　CONFIG_PROC_VMCORE=y

　　（当 CONFIG_CRASH_DUMP 被选中时，CONFIG_PROC_VMCORE会被自动选中）

　　下面我们看一下针对不同的架构，编译内核还有哪些特殊的选项

　　1）i386 和x86_64

　　＊在i386上，使能高内存支持"Processor type and features"=>"high memory support"

　　CONFIG_HIGHMEM64G=y

　　CONFIG_HIGHMEM4G

　　＊在i386 和x86_64上，关闭"Processor type and features"=>"symmetric multi-processing support"

　　CONFIG_SMP=n

　　如果没有将该选项设为n，则需要在加载dump- capture kernel时指定参数maxcpus=1。

　　＊如果想编译一个加载地址可浮动的内核，则选中"Processor type and features"=>"Build a relocatable kernel"

　　CONFIG_RELOCATABLE=y

　　＊设置合适的值给"Processor type and features"=>"Physical address where the kernel is loaded"

　　该值的设置与内核加载地址是否是可浮动的（即是否选中CONFIG_RELOCATABLE）有关。

　　如果内核加载地址不可浮动，则该值必须与crashkernel=Y@X中的X相同（至于crashkernel=Y@X的含义即如何使用将在后面讲到），例如：crashkernel=64M@16M，则CONFIG_PHYSICAL_START=0x100000

　　0。

　　如果内核加载地址可浮动，则CONFIG_PHYSICAL_START的值便可不必在意，使用默认的即可。不过为了保险起见，为了能使kdump正确执行，CONFIG_PHYSICAL_START的值不论在何时，都要于X的值相同。

　　2）ppc64

　　除了前面两个必须的选项，其余选项默认即可。

　　3）ia64

　　除了前面两个必须的选项，其余选项默认即可。

　　4.准备好两个内核后，即可按如下步骤使用kdump

　　1）使用primary kernel启动系统，但是要在启动参数中加入“crashkernel=Y@X”，Y表示为dump-capture kernel 预留了多少内存空间，X该段空间的起始地址，即内核选项中CONFIG_PHYSICAL_START的值。

　　对于x86和x86_64架构，一般使用crashkernel=64M@16M，CONFIG_PHYSICAL_START＝0x1000000

　　对于ppc64架构，一般使用 crashkernel=128M@32M，CONFIG_PHYSICAL_START＝0x2000000

　　对于ia64架构，通常使用 crashkernel=256M@256M。

　　2）加载dump-capture kernel

　　系统启动后，即可加载dump- capture kernle。

　　不同的架构，可以选择使用为压缩的dump-capture kernle （vmlinux）或者压缩过的dump-capture kernle（bzImage/vmlinuz）。

　　i386 和x86_64：

　　如果dump-capture kernel编译时未选中CONFIG_RELOCATABLE，则只能使用vmlinux

　　如果dump-capture kernel编译时打开了CONFIG_RELOCATABLE，则可以使用bzImage/vmlinuz

　　ppc64 :

　　只能使用vmlinux

　　ia64：

　　可以使用vmlinux或者vmlinuz.gz

　　加载方法：

　　kexec -p \

　　--initrd= --args-linux \

　　--append="root= "

　　dump- capture-kernel-vmlinux-image：表示存放dump-capture kernel 的路径

　　initrd-for- dump-capture-kernel：表示initrd的路径，如果没有，可以省略该参数

　　--args-linux：表示Pass linux kernel style options，没看明白什么意思，但是ia64架构不需要加这个参数，其他架构都要有。

　　--append：该参数后跟内核启动参数。

　　arch-specific-options：内核启动参数的一部分，该处根据不同架构，填写不同参数。 i386, x86_64 和 ia64 填"1 irqpoll maxcpus=1 reset_devices"，ppc64填"1 maxcpus=1 noirqdistrib reset_devices"。

　　注：

　　默认情况下，ELF文件头采用ELF64格式存储以支持那些拥有超过 4GB内存的系统。但是可以指定“--elf32-core-headers”标志以强制使用ELF32格式的ELF文件头。这个标志是有必要注意的，一个重要的原因就是：当前版本的GDB不能在一个32位系统上打开一个使用ELF64格式的vmcore文件。ELF32格式的文件头不能使用在一个“没有物理地址扩展”（non-PAE）的系统上。（即是说，少于4GB内存的系统）

　　1 这个参数，将启动“转储捕捉内核”到一个没有网络支持的单用户模式。如果你希望有网络支持，那么使用“init 3”

　　maxcpus=1，这个前面说过，如果CONFIG_SMP=n，则需要在启动参数中加入maxcpus=1。

　　irqpoll 的启动参数可以减低由于在“转储捕获内核”中使用了“共享中断”技术而导致出现驱动初始化失败这种情况发生的概率。

　　举例：

　　kexec -p /boot/vmlinux_capture --args-linux --append="root=/dev/nfs rw nfsroot=128.224.149.6:/tftpboot/cxu/15554/rootfs ip=dhcp console=ttyS0,115200 1 maxcpus=1 noirqdistrib reset_devices"

　　3）测试 kdump是否成功

　　手动产生一个crash：echo c > /proc/sysrq-trigger。

　　或者可以些一个强制产生 crash的模块。

　　如果成功，系统将会进入热启动过程，系统启动完成后，可以执行一下uname -a ,看看内核的名字是不是有-kdump的标签呢？

　　然后就可以把生成的转储文件vmcore拷贝出来了，直接cp即可：

　　cp /proc/vmcore

　　也可以通过/dev/oldmem这个设备将其考出：

　　cd ~

　　mknod /dev/oldmem c 1 12

　　dd if=/dev/oldmem of=oldmem.001

　　成功将vmcore 拷贝出来后即可重启系统了。

　　4）分析vmcore文件

　　在开始分析“转储文件”之前，应该确定重启到一个稳定的内核。

　　可以使用GDB在‘转储文件’上做有限的分析。分析的时候需要“带有调试信息的vmlinux文件”（编译的时候带有-g选项），运行如下命令：

　　gdb vmlinux vmcore

　　注意：GDB不能分析x86平台上以ELF64格式产生的“内核转储文件”。在一个最大内存为4GB的系统上，可以通过在“转储捕捉内核”上指定“--elf32-core-headers”标志来使用ELF32格式的文件头。

　　也可以使用Crash工具集来分析Kdump产生的“内核转储文件”,crash 工具可以到网上下载：

　　~anderson/

阅读(228) | 评论(0) | 转发(0) |

上一篇：Linux内核崩溃转储机制。

下一篇：九大Oracle性能优化基本方法详解。

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6