Linux内核调试方法-Kernel的makefile-ChinaUnix博客

Kernel的makefile

首页　| 　博文目录　| 　关于我

Kernel的makefile

博客访问： 3266664
博文数量： 685
博客积分： 0
博客等级：民兵
技术积分： 5303
用户组：普通用户
注册时间： 2014-04-19 14:17

个人简介

文章分类

全部博文（685）

Ubuntu12.04小应（4）
语音识别及语音合（3）
Pjsips与mqtt（17）
Linux内存管理子（2）
笔记本内核升级及（5）
Linux内核态进程（14）
Linux内核设计模（1）
Linux开发常用命（22）
Ubuntu常见系统故（19）

init进程_Ubuntu（3）

Grub与wingrub（4）

Ubuntu系统启动（5）
Tools Packa（34）

fstools（2）

内核热插拔事件的（3）

shell相关（2）

json-c0.9库与jso（1）

Tc：traffic-cont（3）

uci（2）

Ctags与Taglist（3）

uhttpd（7）

busybox（0）

netifd（2）

procd（0）

ubus（1）

Uboot（5）
Linux-2014（70）

I2C接口存储芯片(（3）

LED灯添加删除（4）

单板启动重要函数（1）

flash芯片更换（20）

内核重要函数（8）
TMP:boot/busybox（1）
人脸识别openCV（4）
摄像头（2）
openSIPS与流媒体（4）
Samba服务器安装（1）
Web服务器与Cgi/i（7）
Linux内核调试（10）
内核网络编程（18）
shell（1）
Android安卓（45）

Goldfish安卓模拟（4）

Android系统移植（5）

安卓驱动（1）

Android系统集成（7）

Cubietruck（1）

MTK的解决方案（8）

S3c6410（8）
原创--TMP（46）
openWRT（145）

brctl网桥（3）

lua（19）

系统机制（4）

智能路由：必备功（8）

基本路由配置：联（1）

防火墙/DMZ/UPNP（3）

dnsmasq与dnsmasq（1）

linux常用网络命（0）

netifd（1）

netstat（2）

文件系统（9）

应用软件包及内核（5）

系统日志syslogd+（1）

procd+libubox（2）

DHCP移植（1）

Hostapd与wpa移植（5）

Iptables移植（6）

Arm移植wifi驱动（5）

Ifconfig移植：网（2）

Iwpriv移植：Wifi（5）

Web服务器（2）

迅雷（0）

ARM移植openWRT（5）

工具（2）

pppoe拨号上网（2）

刷机（5）

底层驱动（11）

系统编译框架及脚（16）

LuCI（19）
driver（22）
名词概念（7）
Linux（148）

Cfg80211内核（2）

物理地址与虚拟地（1）

按键驱动（1）

Timer定时器（1）

linux_Platform设（1）

linux_tty串口驱（3）

flash驱动（3）

I2c子系统（3）

/sys与/proc（10）

MMU、cache、DDR（3）

Mips裸机（7）

pinctrl（2）

leds子系统（3）

workqueue与taskl（1）

input子系统（3）

内核机制（4）

开源应用工具移植（2）

编译链接vmlinux.（5）

函数解读（7）

内核挂死（3）

DTS设备树（4）

内核调试Kernel&n（3）

内核移植与升级（10）

根文件系统（22）

软件配置及工具链（7）

rootfs与Initramf（4）
Uboot（23）
代码检视&&心得（1）
未分配的博文（9）

文章存档

2015年（116）

2014年（569）

我的朋友

内核bug跟踪

oops消息分析

（1）oops消息产生机制

oops（也称 panic），称程序运行崩溃，程序崩溃后会产生oops消息。应用程序或内核线程的崩溃都会产生oops消息，通常发生oops时，系统不会发生死机，而在终端或日志中打印oops信息。

当使用NULL指针或不正确的指针值时，通常会引发一个 oops 消息，这是因为当引用一个非法指针时，页面映射机制无法将虚拟地址映像到物理地址，处理器就会向操作系统发出一个"页面失效"的信号。内核无法"换页"到并不存在的地址上，系统就会产生一个"oops"。

oops 显示发生错误时处理器的状态，包括 CPU 寄存器的内容、页描述符表的位置，以及其一些难理解的信息。这些消息由失效处理函数（arch/*/kernel/traps.c）中的printk 语句产生。较为重要的信息就是指令指针（EIP），即出错指令的地址。

由于很难从十六进制数值中看出含义，可使用符号解析工具klogd。klogd 守护进程能在 oops 消息到达记录文件之前对它们解码。klogd在缺省情况下运行并进行符号解码。

通常Oops文本由klogd从内核缓冲区里读取并传给syslogd，由syslogd写到syslog文件中，该文件典型为/var/log/messages(依赖于/etc/syslog.conf)。如果klogd崩溃了，用户可"dmesg > file"从内核缓冲区中读取数据并保存下来。还可用"cat /proc/kmsg > file"读取数据，此时，需要用户中止传输，因为kmsg是一个"永不结束的文件"。

当保护错误发生时，klogd守护进程自动把内核日志信息中的重要地址翻译成它们相应的符号。klogd执行静态地址翻译和动态地址翻译。静态地址翻译使用System.map文件将符号地址翻译为符号。klogd守护进程在初始化时必须能找到system.map文件。

动态地址翻译通常对内核模块中的符号进行翻译。内核模块的内存从内核动态内存池里分配，内核模块中符号的位置在内核装载后才最终确定。

Linux内核提供了调用，允许程序决定装载哪些模块和它们在内存中位置。通过这些系统调用，klogd守护进程生成一张符号表用于调试发生在可装载模块中的保护错误。内核模块的装载或者卸载都会自动向klogd发送信号，klogd可将内核模块符号的地址动态翻译为符号字符串。

（2）产生oops的样例代码

使用空指针和缓冲区溢出是产生oops的两个最常见原因。下面两个函数faulty_write和faulty_read是一个内核模块中的写和读函数，分别演示了这两种情况。当内核调用这两个函数时，会产生oops消息。

函数faulty_write删除一个NULL指针的引用，由于0不是一个有效的指针值，内核将打印oops信息，并接着，杀死调用些函数的进程。

ssize_t faulty_write (struct file *filp, const char _ _user *buf, size_t count, loff_t *pos) { /* make a simple fault by dereferencing a NULL pointer */ *(int *)0 = 0; return 0; }

函数faulty_write产生oops信息列出如下（注意 EIP 行和 stack 跟踪记录中已经解码的符号）：

Unable to handle kernel NULL pointer dereference at virtual address \

00000000

printing eip: c48370c3 *pde = 00000000 Oops: 0002 CPU:0 EIP: 0010:[faulty:faulty_write+3/576] EFLAGS: 00010286 eax: ffffffea ebx: c2c55ae0 ecx: c48370c0 edx: c2c55b00 esi: 0804d038 edi: 0804d038 ebp: c2337f8c esp: c2337f8c ds: 0018 es: 0018 ss: 0018 Processcat (pid:23413,stackpage=c2337000) Stack: 00000001 c01356e6 c2c55ae0 0804d038 00000001 c2c55b00 c2336000 \

          00000001 
     0804d038 bffffbd4 00000000 00000000 bffffbd4 c010b860 00000001 \ 
          0804d038 
     00000001 00000001 0804d038 bffffbd4 00000004 0000002b 0000002b \ 
          00000004

Call Trace: [sys_write+214/256][system_call+52/56]

Code: c7 05 00 00 00 00 00 00 00 00 31 c0 89 ec 5d c3 8d b6 00 00

上述oops消息中，字符串 3/576 表示处理器正处于函数的第3个字节上，函数整体长度为 576 个字节。函数faulty_read拷贝一个字符串到本地变量，由于字符串比目的地数组长造成缓冲区溢出。当函数返回时，缓冲区溢出导致产生oops信息。因为返回指令引起指令指针找不到运行地址，这种错误很难发现和跟踪。

ssize_t faulty_read(struct file *filp, char _ _user *buf, size_t count, loff_t *pos) { int ret; char stack_buf[4]; /* Let's try a buffer overflow */ memset(stack_buf, 0xff, 20); if (count > 4) count = 4; /* copy 4 bytes to the user */ ret = copy_to_user(buf, stack_buf, count); if (!ret) return count; return ret; }

函数faulty_read产生oops信息列出如下：

EIP: 0010:[<00000000>]

Unable to handle kernel paging request at virtual address ffffffff printing eip: ffffffff Oops: 0000[#5] SMP CPU: 0 EIP: 0060:[] Not tainted EFLAGS: 00010296(2.6.6) EIP is at 0xffffffff eax: 0000000c ebx: ffffffff ecx: 00000000 edx: bfffda7c esi: cf434f00 edi: ffffffff ebp: 00002000 esp: c27fff78 ds: 007b es: 007b ss: 0068 Processhead (pid: 2331,threadinfo=c27fe000 task=c3226150) Stack: ffffffff bfffda70 00002000 cf434f20 00000001 00000286 cf434f00 fffffff7 bfffda70 c27fe000 c0150612 cf434f00 bfffda70 00002000 cf434f20 00000000 00000003 00002000 c0103f8f 00000003 bfffda70 00002000 00002000 bfffda70 Call Trace:[] sys_read+0x42/0x70[] syscall_call+0x7/0xb

Code: Bad EIP value.

在上述oops消息中，由于缓冲区溢出，仅能看到函数调用栈的一部分，看不见函数名vfs_read和faulty_read，并且代码（Code）处仅输出"bad EIP value."，列在栈上开始处的地址"ffffffff"表示内核栈已崩溃。

（3）oops信息分析

面对产生的oops信息，首先应查找源程序发生oops的位置，通过查看指令指令寄存器EIP的值，可以找到位置，如：EIP: 0010:[faulty:faulty_write+3/576]。

再查找函数调用栈（call stack）可以得到更多的信息。从函数调用栈可辨别出局部变量、全局变量和函数参数。例如：在函数faulty_read的oops信息的函数调用栈中，栈顶为ffffffff，栈顶值应为一个小于ffffffff的值，为此值，说明再找不回调用函数地址，说明有可能因缓冲区溢出等原因造成指针错误。

在x86构架上，用户空间的栈从0xc0000000以下开始，递归值bfffda70可能是用户空间的栈地址。实际上它就是传递给read系统调用的缓冲区地址，系统调用read进入内核时，将用户空间缓冲区的数据拷贝到内核空间缓冲区。

如果oops信息显示触发oops的地址为0xa5a5a5a5，则说明很可能是因为没有初始化动态内存引起的。

另外，如果想看到函数调用栈的符号，编译内核时，请打开CONFIG_KALLSYMS选项。

klogd 提供了许多信息来帮助分析。为了使 klogd 正确地工作，必须在 /boot 中提供符号表文件 System.map。如果符号表与当前内核不匹配，klogd 就会拒绝解析符号。

有时内核错误会将系统完全挂起。例如代码进入一个死循环，系统不会再响应任何动作。这时可通过在一些关键点上插入 schedule 调用可以防止死循环。

系统崩溃重启动

由于内核运行错误，在某些极端情况下，内核会运行崩溃，内核崩溃时会导致死机。为了解决此问题，内核引入了快速装载和重启动新内核机制。内核通过kdump在崩溃时触发启动新内核，存储旧内存映像以便于调试，让系统在新内核上运行，从而避免了死机，增强了系统的稳定性。

（1）工具kexec介绍

kexec是一套系统调用，允许用户从当前正执行的内核装载另一个内核。用户可用shell命令"yum install kexec-tools"安装kexec工具包，安装后，就可以使用kexec命令。

工具kexec直接启动进入一个新内核，它通过系统调用使用户能够从当前内核装载并启动进入另一个内核。在当前内核中，kexec执行BootLoader的功能。在标准系统启动和kexec启动之间的主要区别是：在kexec启动期间，依赖于硬件构架的固件或BIOS不会被执行来进行硬件初始化。这将大大降低重启动的时间。

为了让内核的kexec功能起作用，内核编译配置是应确认先择了"CONFIG_KEXEC=y"，在配置后生成的.config文件中应可看到此条目。

工具kexec的使用分为两步，首先，用kexec将调试的内核装载进内存，接着，用kexec启动装载的内核。

装载内核的语法列出如下：

kexec -l kernel-image --append=command-line-options --initrd=initrd-image

上述命令中，参数kernel-image为装载内核的映射文件，该命令不支持压缩的内核映像文件bzImage，应使用非压缩的内核映射文件vmlinux；参数initrd-image为启动时使用initrd映射文件；参数command-line-options为命令行选项，应来自当前内核的命令行选项，可从文件"/proc/cmdline"中提取，该文件的内容列出如下：

^-^$ cat /proc/cmdline

ro root=/dev/VolGroup00/LogVol00 rhgb quiet

例如：用户想启动的内核映射为/boot/vmlinux，initrd为/boot/initrd，则kexec加载命令列出如下：

Kexec –l /boot/vmlinux –append=/dev/VolGroup00/LogVol00 initrd=/boot/initrd

还可以加上选项-p或--load-panic，表示装载新内核在系统内核崩溃使用。

在内核装载后，用下述命令启动装载的内核，并进行新的内核中运行：

kexec -e

当kexec将当前内核迁移到新内核上运行时，kexec拷贝新内核到预保留内存块，该保留位置如图1所示，原系统内核给kexec装载内核预保留一块内存（在图中的阴影部分），用于装载新内核，其他内存区域在未装载新内核时，由原系统内核使用。

阅读(1171) | 评论(0) | 转发(0) |

上一篇：kernel debug: linux系统内核的调试（一）

下一篇：Linux内核调试指南

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6