1. Oops信息来源及格式
Oops这个单词含义为“惊讶”,当内核出错时(比如访问非法地址)打印出来的信息被称为Oops信息。
Oops信息包含以下几部分内容:
(1)一段文本描述信息。
比如类似“Unable to handle kernel NULL pointer dereference at virtual address 00000000"的信息,他说明了发生的是哪类错误。
(2)Oops信息的序号。
比如是第几次等。这些信息与下面类似,括号内的数据表示序号。
-
Internal error: Oops: 806 [#1]
(3)内核中加载的模块名称,也可能没有,以下面字样开头。
(4)发生错误的CPU的序号,对于单处理器系统,序号为0,如:
-
CPU: 0 Not tainted (2.6.22.6 #36)
(5)发生错误时CPU的各个寄存器值。
(6)当前进程的名字及进程ID,比如:
-
Process swapper (pid: 1, stack limit = 0xc0480258)
这并不是说发生错误的是这个进程,而是表示发生错误时,当前进程是它。错误可能发生在内核代码、驱动程序,也可能就是这个进程的错误。
(7)栈信息。
(8)栈回溯信息,可以从中看出函数调用关系,形式如下:
-
Backtrace:
-
[<c001a6f4>] (s3c2410fb_probe+0x0/0x560) from [<c01bf4e8>] (platform_drv_probe+0x20/0x24)
-
......
(9)出错指令附近的指令机器码,比如(出错指令在小括号内):
-
Code: e24cb004 e24dd010 e59f34e0 e3a07000 (e5873000)
2. 配置内核使Oops信息的栈回溯信息更直观
Linux 2.26.32自身具备的调试功能,可以使打印出的Oops信息更直观。通过Oops信息中PC寄存器的值可以知道出错指令的地址,通过栈回溯信息可以知道出错时的函数调用关系,根据这两点可以很快定位错误。
要让内核出错时能够打印栈回溯信息,编译内核时要增加“-fno-omit-frame-pointer"选项,这可以通过配置CONFIG_FRAME_POINTER来实现。查看内核目录下的配置文件.config,确保 CONFIG_FRAME_POINTER已经被定义,如果没有,执行“make menuconfig”命令重新配置内核。 CONFIG_FRAME_POINTER有可能被其他配置项目自动选上。
3使用Oops信息调试内核的实例
(1)获得Oops信息
本小节故意修改 LCD 驱动程序 drivers/video/s3c2410fb.c,加入错误代码:在 s3c2410fb_
probe 函数的开头增加下面两条代码:
-
int *ptest = NULL;
-
*ptest = 0x1234;
重新编译内核,启动后会出错并打印出如下 Oops 信息:
-
Unable to handle kernel NULL pointer dereference at virtual address 00000000
-
pgd = c0004000
-
[00000000] *pgd=00000000
-
Internal error: Oops: 805 [#1]
-
last sysfs file:
-
Modules linked in:
-
CPU: 0 Not tainted (2.6.32 #24)
-
PC is at s3c2410fb_probe+0xc/0x18
-
LR is at platform_drv_probe+0x18/0x1c
-
pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
-
sp : c3823f30 ip : c3842e7c fp : 00000000
-
r10: 00000000 r9 : 00000000 r8 : c0445008
-
r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
-
r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
-
Flags: NzCv IRQs on FIQs on Mode SVC_32 ISA ARM Segment kernel
-
Control: c000717f Table: 30004000 DAC: 00000017
-
Process swapper (pid: 1, stack limit = 0xc3822270)
-
Stack: (0xc3823f30 to 0xc3824000)
-
3f20: 00000000 c01d2e7c c0440d18 c042d178
-
3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
-
3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
-
3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
-
3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
-
3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
-
3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
-
[<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
-
[<c01d3f88>] (platform_drv_probe+0x18/0x1c) from [<c01d2e7c>] (driver_probe_device+0x148/0x2d8)
-
[<c01d2e7c>] (driver_probe_device+0x148/0x2d8) from [<c01d3068>] (__driver_attach+0x5c/0x7c)
-
[<c01d3068>] (__driver_attach+0x5c/0x7c) from [<c01d24e8>] (bus_for_each_dev+0x48/0x78)
-
[<c01d24e8>] (bus_for_each_dev+0x48/0x78) from [<c01d1d48>] (bus_add_driver+0xe0/0x288)
-
[<c01d1d48>] (bus_add_driver+0xe0/0x288) from [<c01d3334>] (driver_register+0xa4/0x130)
-
[<c01d3334>] (driver_register+0xa4/0x130) from [<c0018f90>] (s3c2410fb_init+0xc/0x28)
-
[<c0018f90>] (s3c2410fb_init+0xc/0x28) from [<c002e37c>] (do_one_initcall+0x5c/0x1b4)
-
[<c002e37c>] (do_one_initcall+0x5c/0x1b4) from [<c00083f8>] (kernel_init+0x94/0x10c)
-
[<c00083f8>] (kernel_init+0x94/0x10c) from [<c002fe54>] (kernel_thread_exit+0x0/0x8)
-
Code: eafffe97 e3a02000 e59f3008 e1a01002 (e5823000)
-
---[ end trace da227214a82491b7 ]---
-
swapper used greatest stack depth: 5792 bytes left
-
Kernel panic - not syncing: Attempted to kill
-
[<c00352ac>] (unwind_backtrace+0x0/0x150) from [<c0311c54>] (panic+0x40/0x120)
-
[<c0311c54>] (panic+0x40/0x120) from [<c0046cbc>] (do_exit+0x64/0x5f4)
-
[<c0046cbc>] (do_exit+0x64/0x5f4) from [<c0032f28>] (die+0x15c/0x180)
-
[<c0032f28>] (die+0x15c/0x180) from [<c00360a0>] (__do_kernel_fault+0x64/0x74)
-
[<c00360a0>] (__do_kernel_fault+0x64/0x74) from [<c0036268>] (do_page_fault+0x1b8/0x1cc)
-
[<c0036268>] (do_page_fault+0x1b8/0x1cc) from [<c002e2c0>] (do_DataAbort+0x34/0x94)
-
[<c002e2c0>] (do_DataAbort+0x34/0x94) from [<c002ea20>] (__dabt_svc+0x40/0x60)
-
Exception stack(0xc3823ee8 to 0xc3823f30)
-
3ee0: c042d170 00000000 00000000 00001234 00000000 c042d178
-
3f00: c0440d18 c38a0840 c0445008 00000000 00000000 00000000 c3842e7c c3823f30
-
3f20: c01d3f88 c0018f78 a0000013 ffffffff
-
[<c002ea20>] (__dabt_svc+0x40/0x60) from [<c0018f78>] (s3c2410fb_probe+0xc/0x18)
-
[<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
-
[<c01d3f88>] (platform_drv_probe+0x18/0x1c) from [<c01d2e7c>] (driver_probe_device+0x148/0x2d8)
-
[<c01d2e7c>] (driver_probe_device+0x148/0x2d8) from [<c01d3068>] (__driver_attach+0x5c/0x7c)
-
[<c01d3068>] (__driver_attach+0x5c/0x7c) from [<c01d24e8>] (bus_for_each_dev+0x48/0x78)
-
[<c01d24e8>] (bus_for_each_dev+0x48/0x78) from [<c01d1d48>] (bus_add_driver+0xe0/0x288)
-
[<c01d1d48>] (bus_add_driver+0xe0/0x288) from [<c01d3334>] (driver_register+0xa4/0x130)
-
[<c01d3334>] (driver_register+0xa4/0x130) from [<c0018f90>] (s3c2410fb_init+0xc/0x28)
-
[<c0018f90>] (s3c2410fb_init+0xc/0x28) from [<c002e37c>] (do_one_initcall+0x5c/0x1b4)
-
[<c002e37c>] (do_one_initcall+0x5c/0x1b4) from [<c00083f8>] (kernel_init+0x94/0x10c)
-
[<c00083f8>] (kernel_init+0x94/0x10c) from [<c002fe54>] (kernel_thread_exit+0x0/0x8)
(2)分析 Oops 信息
由出错信息“Unable to handle kernel NULL pointer dereference at virtual address 00000000” 可知内核是因为非法地址访问出错,使用了空指针。
内核崩溃时,可以从 pc 寄存器得知崩溃发生时的函数、出错指令。但是很多情况下,错误有可能是它的调用者引入的,所以找出函数的调用关系也很重要。
部分栈回溯信息如下:
-
[<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
这行信息分为两部分,表示后面的 platform_drv_probe 函数调用了前面的 s3c2410fb_probe函数。
前半部含义为:“c0018f78”是 s3c2410fb_probe 函数首地址偏移 0xc 的地址,这个函数大小为 0x18。
后半部含义为:“c01d3f88”是 platform_drv_probe 函数首地址偏移 0x18 的地址,这个函数大小为 0x1c。
另外,后半部的“[<c01d3f88>]”表示 s3c2410fb_probe 执行后的返回地址。
对于类似下面的栈回溯信息,其中是 r8~r4 表示 driver_probe_device 函数刚被调用时这
些寄存器的值。
从上面的栈回溯信息可以知道内核出错时的函数调用关系如下,最后在 s3c2410fb_probe函数内部崩溃。
-
do_exit ->
-
kernel_init ->
-
do_one_initcall ->
-
s3c2410fb_init ->
-
driver_register ->
-
bus_add_driver ->
-
bus_for_each_dev ->
-
__driver_attach ->
-
driver_probe_device ->
-
platform_drv_probe ->
-
s3c2410fb_probe
上述 Oops 信息中出错时的寄存器值如下:
-
PC is at s3c2410fb_probe+0xc/0x18
-
LR is at platform_drv_probe+0x18/0x1c
-
pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
-
sp : c3823f30 ip : c3842e7c fp : 00000000
-
r10: 00000000 r9 : 00000000 r8 : c0445008
-
r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
-
r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
"PC is at s3c2410fb_probe+0xc/0x18"表示出错指令为 s3c2410fb_probe 函数中偏移为0xc 的指令。
"pc : [<c0018f78>] "表示出错指令的地址为 c0018f78(十六进制)。
先生成内核的反汇编代码 vmlinux.dis,执行以下命令:
-
$ cd ~/Documents/myTest/kernel/linux-2.6.32
-
$ arm-linux-objdump -D vmlinux > vmlinux.dis
出错地址 c0018f78 附近的部分汇编代码如下:
-
c0018f64 <s3c2412fb_probe>:
-
c0018f64: e3a01001 mov r1, #1 ; 0x1
-
c0018f68: eafffe97 b c00189cc <s3c24xxfb_probe>
-
-
c0018f6c <s3c2410fb_probe>:
-
c0018f6c: e3a02000 mov r2, #0 ; 0x0
-
c0018f70: e59f3008 ldr r3, [pc, #8] ; c0018f80 <s3c2410fb_probe+0x14>
-
c0018f74: e1a01002 mov r1, r2
-
c0018f78: e5823000 str r3, [r2] <===========出错指令
-
c0018f7c: eafffe92 b c00189cc <s3c24xxfb_probe>
-
c0018f80: 00001234 .word 0x00001234
-
-
c0018f84 <s3c2410fb_init>:
-
c0018f84: e92d4010 push {r4, lr}
-
c0018f88: e59f0014 ldr r0, [pc, #20] ; c0018fa4 <s3c2410fb_init+0x20>
-
c0018f8c: eb06ed06 bl c01d43ac <platform_driver_register>
-
c0018f90: e3500000 cmp r0, #0 ; 0x0
-
c0018f94: 18bd8010 popne {r4, pc}
-
c0018f98: e59f0008 ldr r0, [pc, #8] ; c0018fa8 <s3c2410fb_init+0x24>
-
c0018f9c: e8bd4010 pop {r4, lr}
-
c0018fa0: ea06ed01 b c01d43ac <platform_driver_register>
-
c0018fa4: c0440d04 .word 0xc0440d04
出错指令为“ str r3, [r2] ”,它把 r3 寄存器的值放到内存中,内存地址为 r2 寄存器的值。
根据 Oops 信息中的寄存器值可知:r3 为 00001234 , r2 为 0。0 地址不可访问,所以出错。
-
static int __init s3c2410fb_probe(struct platform_device *pdev)
-
{
-
// add for kernel panic --begin
-
int *ptest = NULL;
-
*ptest = 0x1234;
-
// add for kernel panic --end
-
return s3c24xxfb_probe(pdev, DRV_S3C2410);
-
}
结合反汇编代码,很容易知道是“*ptest = 0x1234;”导致错误,其中的 ptest 为空。对于大多数情况,从反汇编代码定位到 C 代码并不会如此容易,这需要较强的阅读汇编程序的能力。通过栈回溯信息知道函数的调用关系,这已经可以帮助定位很多问题了。
4.使用 Oops 的栈信息手工进行栈回溯
前面说过,从 Oops 信息的 pc
寄存器值可知得知崩溃发生时的函数、出错指令。但是错误有可能是它的调用者引入的,所以还要找出函数的调用关系。由于内核配置了
CONFIG_FRAME_POINTER,当出现 Oops 信息时,会打印栈回溯信息。如果内核没有配置
CONFIG_FRAME_POINTER,这时可以自己分析栈信息,找到函数的调用关系。
(1)栈的作用
一个程序包含代码段、数据 段、BSS 段、堆、栈;其中数据段用来中存储初始值不为 0 的全局数据,BSS 段用来存储初始值为 0
的全局数据,堆用于动态内存分配,栈用于实现函数调用、存储局部变量。被调用函数在执行之前,它会将一些寄存器的值保存在栈中,其中包括返回地址寄存器
lr。如果知道了所保存的 lr 寄存的值,那么就可以知道它的调用者是谁。在栈信息中,一个函数一个函数地往上找出所有保存的 lr
值,就可以知道各个调用函数,这就是栈回溯的原理。
(2)栈回溯实例分析
仍以前面的 LCD 驱动程序为例,使用上面的 Oops 信息的栈信息进行分析,栈信息如下:
-
Stack: (0xc3823f30 to 0xc3824000)
-
3f20: 00000000 c01d2e7c c0440d18 c042d178
-
3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
-
3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
-
3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
-
3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
-
3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
-
3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
-
根据 pc 寄存器值找到第一个函数,确定它的栈大小,确定调用函数。
从 Oops 信息
-
PC is at s3c2410fb_probe+0xc/0x18
-
LR is at platform_drv_probe+0x18/0x1c
-
pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
-
sp : c3823f30 ip : c3842e7c fp : 00000000
-
r10: 00000000 r9 : 00000000 r8 : c0445008
-
r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
-
r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
可知 pc 值为 c0018f78,使用它在内核反汇编程序 vmlinux.dis 中可以知道它位于 s3c2410fb_probe 函数内。
-
c0018f6c <s3c2410fb_probe>:
-
c0018f6c: e3a02000 mov r2, #0 ; 0x0
-
c0018f70: e59f3008 ldr r3, [pc, #8] ; c0018f80 <s3c2410fb_probe+0x14>
-
c0018f74: e1a01002 mov r1, r2
-
c0018f78: e5823000 str r3, [r2] <===========出错指令
-
c0018f7c: eafffe92 b c00189cc <s3c24xxfb_probe>
-
c0018f80: 00001234 .word 0x00001234
lr存放的是函数返回值地址,为
c01d3f88,根据这个地址,搜索内核反汇编程序 vmlinux.dis ,可知它位于:
-
c01d3f70 <platform_drv_probe>:
-
c01d3f70: e92d4010 push {r4, lr}
-
c01d3f74: e1a03000 mov r3, r0
-
c01d3f78: e5933044 ldr r3, [r3, #68]
-
c01d3f7c: e2400008 sub r0, r0, #8 ; 0x8
-
c01d3f80: e1a0e00f mov lr, pc
-
c01d3f84: e513f014 ldr pc, [r3, #-20]
-
c01d3f88: e8bd8010 pop {r4, pc}
也就是说,函数
s3c2410fb_probe() 被 platform_drv_probe()调用。再看 platform_drv_probe()的反汇编代码,期中
-
c01d3f70: e92d4010 push {r4, lr}
栈中存放的是 r4, lr
对应
-
Stack: (0xc3823f30 to 0xc3824000)
-
3f20: 00000000 c01d2e7c c0440d18 c042d178
-
3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
-
3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
-
3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
-
3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
-
3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
-
3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
其中,lr对应的值为
c01d2e7c,用此值检索vmlinux.dis,位于
-
c01d2d34 <driver_probe_device>:
-
c01d2d34: e92d40f7 push {r0, r1, r2, r4, r5, r6, r7, lr}
-
c01d2d38: e5d13028 ldrb r3, [r1, #40]
-
c01d2d3c: e1a05001 mov r5, r1
-
....
-
c01d2e7c: e2504000 subs r4, r0, #0 ; 0x0
-
c01d2e80: 1a000016 bne c01d2ee0 <driver_probe_device+0x1ac>
-
c01d2e84: e1a00005 mov r0, r5
-
c01d2e88: ebffff6e bl c01d2c48 <driver_bound>
可知,
platform_drv_probe()被 driver_probe_device()调用 ,再用同样的方法就可以找出所有函数调用关系。
阅读(1258) | 评论(0) | 转发(0) |