如何分析oops-ztguang-ChinaUnix博客

张同光：Hello_everyone!ztguang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ztguang

博客访问： 6732837
博文数量： 1159
博客积分： 12444
博客等级：上将
技术积分： 12570
用户组：普通用户
注册时间： 2008-03-13 21:34

文章分类

全部博文（1159）

Android---Mobile（164）
编程-C/C++（104）
服务计算-物联网-（65）

物联网（2）

服务（1）

大数据（1）

云计算（5）

安全（4）
Web技术（101）
教材/著作（10）
linux内核（39）
Kali（1）
操作系统原理（16）
Linux操作系统RHE（268）

入门导读（3）

教学进度表-大纲（4）

Linux简介与安装（57）

Linux的用户界面（14）

系统管理（31）

磁盘与文件管理（48）

软件包管理（37）

组建Linux局域网（22）

提供Internet服务（21）

MySQL与PHP（12）

系统管理高级（4）

Shell编程（11）
嵌入式系统开发实（4）

第1章-嵌入式系统（0）

第2章-嵌入式系统（0）

第3章-嵌入式软件（1）

第4章-BootLoader（0）

第5章-Linux在ARM（0）

第6章-根文件系统（0）

第7章-嵌入式Linu（0）

第8章-嵌入式Linu（0）
信息安全技术实用（16）

第1章-信息安全概（2）

第2章-物理安全技（0）

第3章-基础安全技（0）

第4章-操作系统安（6）

第5章-网络安全技（4）

第6章-数据库系统（0）

第7章-应用安全技（1）

第8章-容灾与数据（0）
随想--&--相册（10）

相册（5）
论文（13）
IT & Linux文章（28）
教学--选修--考试（12）
嵌入式开发（9）
嵌入式实验（17）

skyeye（3）

qemu（9）
学生成果（16）
教育（48）
2009级嵌入式方向（51）
2010级嵌入式方向（80）
健身与保健（12）
信息发布（27）
嵌入式资料（14）
网文（34）
未分配的博文（0）

文章存档

2016年（126）

2015年（350）

2014年（56）

2013年（91）

2012年（182）

2011年（193）

2010年（138）

2009年（23）

我的朋友

相关博文

如何分析oops

分类： LINUX

2013-05-13 10:33:00

在Linux上，oops即Linux内核的行为不正确，并产生了一份相关的。许多类型的oops会导致内核错误，即使系统立即停止工作，但部分oops也允许继续操作，作为与稳定性的妥协。这个概念只代表一个简单的错误。

当内核检测到问题时，它会打印一个oops信息然后杀死全部相关进程。oops信息可以帮助Linux内核工程师调试，检测oops出现的条件，并修复导致oops的。

Linux官方内核文档中提到的oops信息被放在内核源代码Documentation/oops- tracing.txt中。通常klogd是用来将oops信息从内核缓存中提取出来的，然而，在某些系统上，例如最近的Debian发行版中，rsyslogd代替了klogd，因此，缺少klogd进程并不能说明log文件中缺少oops信息的原因。

若系统遇到了oops，一些内部资源可能不再可用。即使系统看起来工作正常，非预期的副作用可能导致活动进程被终止。内核oops常常导致内核错误，若系统试图使用被禁用的资源。

看到有人贴出oops的消息不禁想了解一下在linux下大家是如何解决这类问题的。

因为刚开始学习linux内核，所以也只是略知一二，现在就将我的了解说说：

1. Oops是什么？

看LKD对oops的描述，oops就应该是unix系统的system panic，叫法不同而已。

什么是panic呢？简单的说就是内核程序错误引发的一种debug和保护机制，系统会dump出内核映像，里面包含了当时CPU的状态，进程的状态，内核堆，栈的状态...最直观的最重要的恐怕就是调用栈的back trace.

很多情况下，一个oops是可以被重现的，根据调用栈的back trace和printk也许就搞定了问题。
但更多的时候，一个oops是很难重现，比如一个race condition.
这时候，分析一个oops之后的crash dump文件就变得尤为重要了。

2. 如何分析oops.

分析panic的思路和分析应用程序coredump的思路一样的。

首先，要看调用的backtrace和错误消息.

看程序是在哪个函数产生发生了错误，看消息里面有什么有价值的信息，比如空指针引用之类的。

其次，了解了backtrace在什么位置，就可以结合源代码来看是否有问题了。

幸运的话，光看具体函数的代码也许就会发现问题。

但多数时候，还需要检查crash dump的映像文件的。

这时候，一个好用的帮助分析crash dump的工具就尤为重要了。

在solaris下，我们可以通过mdb来查看panic时在CPU运行的所有线程的状态，

CPU寄存器的状态，信号量，锁...
因为IA32的特性，调用栈、backtrace里面每个函数的参数，都可以得到。
此外还有堆的状态。

通过以上这些数据，我们会试图重新描绘出系统崩溃那一刹那，发生了什么。

在linux下，该如何做类似的分析工作呢？

因为种种原因，linux至今没有集成kernel debug工具，但还是有一些第3方工具可用：

1.kdb

特点：二进制，汇编级的调试工具。只需要一台机器。

2.kgdb

特点：源代码级的调试工具，但需要两台机器，null modem线连接。

局限：需要patch重新编译内核。而且，在事后分析crash dump文件的情况下，尤其是当oops不可重现时，只能在汇编和二进制下工作了。

3.gdb

特点：linux环境中自带

局限：功能有限，但检查crash dump也许足够了。

linus本人不提倡用kernel debug工具，那他们是如何检查一个crash dump文件的呢？我猜想是用gdb

4.其它工具和方法...

大家不妨谈谈自己学习和使用这些工具的心得，拿出知道的一些资料共享一下。

阅读(2769) | 评论(0) | 转发(1) |

上一篇：内核社区的中心是内核邮件列表(Linux Kernel Mailing List，LKML)

下一篇：FreeNAS安装与应用—安装篇

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6