[FAQ14812]如何快速对系统重启问题进行归类-天川一水-ChinaUnix博客

天川一水的ChinaUnix博客

首页　| 　博文目录　| 　关于我

天川一水

博客访问： 1429324
博文数量： 478
博客积分： 0
博客等级：民兵
技术积分： 4833
用户组：普通用户
注册时间： 2014-06-28 11:12

文章分类

全部博文（478）

Git（1）
Camera（8）
高通平台资料（3）
VIM终端操作指令（2）
Tools（8）
Selinux（4）
LCD（8）
MIPI（3）
DTS（2）
按键配置-key（1）
Andriod编译环境（9）
驱动知识（3）
ARM（2）
I2C驱动和协议（3）
面试题（1）
TP驱动（12）
Root（1）
Python（2）
Android 预（2）
adb指令（2）
MTK文档密码（1）
系统属性（1）
Android Log（3）
Android开发规范（4）
apk反编译（1）
Java知识点（6）
C/C++知识点（5）
IPO-快速开机（4）
makefile相关知识（6）
Android Sel（6）
关机流程（2）
关机动画（2）
Android签名（4）
重启不开机（5）
不开机（3）
不开机问题分析（1）
Meta模式（2）
如何单编译某个模（1）
Fastboot（1）
Recovery（71）
开机动画（11）
关机动画（2）
Linux常用工具安（1）
展讯平台联系人方（1）
MTK 联系人（2）
工作解决的问题（26）
工作解决的问题（6）
开机加速（24）

重启问题（2）
Android log（10）
Linux配置工具（2）
Java（4）
Android（181）

关机（1）

死机问题快速分析（11）

preloader,lk,ker（1）

Recovery（22）

FAQ（73）

Android 遇（1）

开机加速（7）

编译（4）

Intent（3）

Intent（1）
STM32（1）
未分配的博文（1）

文章存档

2019年（1）

2018年（27）

2017年（21）

2016年（171）

2015年（258）

我的朋友

内容

[DESCRIPTION]

当手机发生系统重启，即导致kernel重启的异常时，会在手机中的/data/aee_exp目录下保存异常重启的db。工程师可以通过GAT的bug report功能，或者直接通过adb pull，把对应的db从手机中抓回来。进一步，对于异常重启的类型，需要通过GAT工具解开db档案（解开方式参考MTK-online上的文档GAT_User_Guide(Customer).docx之5.1的部分），对里面的SYS_KERNEL_LOG/SYS_LAST_LOG/SYS_REBOOT_REASON 内容进行解析，才能知道具体的重启的类型。

一般来说，导致kernel重启的异常重启，包括Kernel Panic, Watchdog Timeout, Hardware Reboot这三种类型。一个完整的Kernel Panic，其db解开来会包含如下的档案：

[SOLUTION]

1. Kernel Panic

即linux kernel发生了无法修复的错误，从而导致panic。通过查看SYS_KERNEL_LOG的内容，kernel Panic进一步可以分为如下几类：

a. 普通的data abort。从SYS_KERNEL_LOG中，可以检索到如下的info:

Unable to handle kernel NULL pointer dereference at virtual address XXXXXXXX

如上的XXXXXXXX代表某个非法地址。这种类型是最多的。

b. oom 主动触发的panic。从SYS_KERNEL_LOG中，可以检索到如下的info:

Kernel panic - not syncing: Out of memory and no killable processes...

此种类型的panic一般是某个process或者APK耗尽了memory资源，从而kernel主动触发的panic重启。对于这种类型的重启，强烈建议工程师把如上的info填写到eService 的标题中，这样MTK可以对eService进行一次到位的分配。

c. undefined instruction，未定义指令异常。从SYS_KERNEL_LOG中，可以检索到如下的info:

Internal error: Oops - undefined instruction

此类异常较为少见，可能是CPU/DRAM 不稳定或者受干扰导致的问题。

d. bad mode异常，即PC处于一个无效的virtual address。从SYS_KERNEL_LOG中，可以检索到如下的info:

Bad mode in Synchronous Abort handler detected

...

[14820.652408]-(1)[682:VSyncThread_0][] bad_mode+0x78/0xb0

此类异常较为少见，可能的原因是stack错乱，或者未注册回调函数引起。

2. watchdog 超时

a. 底层看门狗超时。从SYS_KERNEL_LOG中，可以检索到如下的info:

for arm64 platform

PC is at aee_wdt_atf_info+0x4c8/0x6dc

LR is at aee_wdt_atf_info+0x4c0/0x6dc

for arm32 platform

PC is at aee_wdt_irq_info+0x104/0x12c

LR is at aee_wdt_irq_info+0x104/0x12c

此类异常较为常见，多见于底层频繁irq/bus卡死，导致kicker无法被schedule，从而引起watch dog触发中断，引导系统进入FIQ处理流程，最终call到BUG触发重启。

b.上层hang_detect 触发看门狗超时。从SYS_KERNEL_LOG中，可以检索到如下的info:

[ 2131.086562] (0)[77:hang_detect][Hang_Detect] we should triger HWT ...

...

[ 2180.467416]-(0)[77:hang_detect]PC is at aee_wdt_irq_info+0x154/0x170

[ 2180.467426]-(0)[77:hang_detect]LR is at aee_wdt_irq_info+0x154/0x170

...

此异常类型较为常见，多见于GPU/SD卡/eMMC 无法满足surfacelinger/system_server的通讯需求，从而导致上层卡死，进而主动触发看门狗超时重启。对于这种类型的重启，强烈建议工程师把如上的Hang_Detect关键字填写到eService 的标题中，这样MTK可以对eService进行一次到位的分配。

3. Hardware Reboot

hardware reboot是watch dog直接发出reset信号，导致整个系统重启；在重启之前，并没有触发任何异常处理流程。一般情况下，hardware reboot对应的db不会有SYS_KERNEL_LOG 可以排查，只能从SYS_LAST_KMSG获知异常之前kernel的动作，以及从SYS_REBOOT_REASON 获知异常时的CPU寄存器值和其它参数。

从ZZ_INTERNAL 档案，可以知道发生了hardware reboot

Hardware Reboot,0,0,99,/data/core/,0,,HW_REBOOT,Fri Jul 3 14:31:53 CST 2015,1

就上面所罗列的诸多异常重启，工程师务必把如上黄底部分的log片段拷贝到eService的Description栏位，并把红色的关键字填写到eService的标题中，这样，可以大大加快eService的分配流程。

阅读(1573) | 评论(0) | 转发(0) |

上一篇：[转]C语言判断文件是否存在

下一篇：Android 5.x OTA Update官方文档（一，关于OTA 升级）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6