在RELEASE版本中快速定位DATA ABORT的方法-zhglinux-ChinaUnix博客

Feedback

#1楼 回复 引用

2007-09-28 21:12 by

dear walzer:

看你的BLOG有一段时间了,没想到现在找一个做CE开发的人,那么难,从你的笔下,可以看出,你真的是个"牛人",很想和你一起学习CE.

呵呵~,废话少说,我现在在做CE6的活,目前碰到了一个难点,请教您一下:

我的USB DRIVER在启动时出了点问题,打出了下面的MESSAGE:

Exception 'Data Abort' (4): Thread-Id=00d40002(pth=8fa5d6ec), Proc-Id=00400002(pprc=8c719308) 'NK.EXE', VM-active=01540002(pprc=8fa2ec58) 'udevice.exe'
PC=c09aafd0(usbfn.dll+0x0000afd0) RA=c09ac040(usbfn.dll+0x0000c040) SP=d03de250, BVA=00000000

按照你的方法,我试了一下,发现,问题在MDD层的ufnbus.cpp中,在AllocEndpoints()函数中 new CStaticPipe()时,没有成功,查看了一下.MAP 文件,发现上述的PC指的位置在:
0001:00009f30 ?PopulateCache@?$CFreePool@$03V?$fixed_block_allocator@$07@ce@@Utransfer_funcs@@@@IAAXXZ 1000af30 f i UFNMDDBASE:pipe.obj

0001:00009fd8 ??0?$list@PAVCUfnMddTransfer@@V?$fixed_block_allocator@$0BE@@ce@@@ce@@QAA@ABV?$fixed_block_allocator@$0BE@@1@@Z 1000afd8 f i UFNMDDBASE:pipe.obj

请问您碰到过吗?有没有什么IDEA? 困惑我很久..........,谢谢,

#2楼 [楼主] 回复 引用 查看

2007-09-28 23:03 by Walzer

楼上客气了，既然是相互学习，就不用以溢美之辞开篇嘛。这篇文章给出的方法是今天早上我和同事刚研究出来的，除了两个试验外，还缺乏能够真正解决实际问题的经验。我期望用这个方法可以直接定位到某个OEM完成的接口函数里，但是当我试图用这种方法来解决自己项目的一处泄漏时，PC指针居然定位到PRIVATE里面的KERNEL下的代码，真是无语。

我看了下，按照这篇文章的思路，你泄漏的位置应该是在common\oak\drivers\usbfn\controller\mdd\pipe.c所包含的头文件Xferlist.h里的CFreePool.PopulateCache函数里。PIPE处理完全在MDD层里面，和OEM所做的硬件寄存器操作无关，所以在这里泄漏也是匪夷所思。

如果你非要一点建议的话，我觉得
（1） DATA ABORT可以分两类，“强ABORT”（每次运行必定出现）和“弱ABORT”（概率性出现），如果你觉得自己的ABORT足够“强”，那么最好的方法就是编译一个带KITL的DEBUG版本，让它运行到PopulateCache里面挂掉，然后PB就会停在那句泄漏的地方了。“弱ABORT”的定位方法我仍然在摸索中，我们可以一起探讨研究

（2） Mike Hall有一篇How to Use Remote Tools to Track Memory Leaks in Windows CE Applications的文章，URL是由于CE5的device.exe也是运行在USER SPACE里面，也可以当作一个applications来看待，也许这篇文章对你会有所帮助。

#3楼 回复 引用

2007-10-09 13:45 by

Walzer,

最近在忙CE5的驱动向CE6 PORTING,前些时候看见你也在搞CE6,现在想问你一下,
The USB driver (usbfn.dll) exports the “Data abort” in the step of system initializing. After tracing I find the problem appeared in the AllocEndpoints() function in the ufnbus.cpp (MDD). The “Data abort” comes from at the line of

“CStaticPipe *pStaticPipe = new CStaticPipe(dwPipe, &pContext->PddInfo, pContext->pFreeTransferList, pContext);”, which may be caused of cannot allocate the memory for the CStaticPipe.

请问你一下,对于这样无法分配给类空间,你有没有什么好的解决办法.?

谢谢!-----------kevin

#4楼 [楼主] 回复 引用 查看

2007-10-10 22:10 by Walzer

@kevin_83
我现在看来文章这种定位方法存在漏洞.
比如你device.exe管理所有驱动的dll, 在USB以外的某个DLL里内存泄露了，但是泄露的地址不远, 是在device.exe进程空间内部, 那么运行时候泄露的那句是不会产生data abort等exception的(我们给这种情况起个名字叫"隐性泄漏"). 这处泄露正好影响到了你usbfn.dll的堆栈空间, 那么最后报data abort的就变成usbfn.dll这块了(显性泄漏), 那么usbfn这块就被白白冤枉了.

所以说, 文章这种方法只能查出显性泄露, 而不能查出隐性泄露, 所以不能100%成功定位泄漏所在的代码行.

我设想了两个方案来查你这个问题
(1) 在定位出来的这句前面加DBGMSG输出,把pContext, pFreeTransferList, &pContext->PddInfo这些指针地址打印出来, 看看是否是这句显性泄漏了, 也验证一下文章提的定位方法.
(2) 在注册表里尽量去掉device.exe加载的外设驱动, 尽量缩小成一个"最小化系统" + usbfn.dll, 看看这样是否还会出问题. 如果这样不出问题了，那么device.exe管辖下的其他驱动代码里就不能排除嫌疑.

#5楼 回复 引用

2007-11-30 09:00 by

请教下
我用evc4.2 sp4，sdk是smdk2440_916,运行平台是wince4.0的板上，
为什么用debug版本很多异常都无法定位到出错位置，堆栈都是数字没有函数名，如：divide by zero异常。你提到的DATA ABORT异常也有些是定位不到位置。而且那些异常用try{}catch(...)也无法捕获到，很难定位到出问题的地方，调试很不方便，你遇到这样的情况吗？？能给我提点建议吗？

#6楼 [楼主] 回复 引用 查看

2007-11-30 12:54 by Walzer

@sailing
是的，我也经常遇到你说的情况, DEBUG版本遇到异常时, IDE里显示一堆汇编. 什么都看不到. 这种情况下只能靠在各函数的开始和结束加debug message来慢慢跟踪出问题的地方了.
我的经验是在除法语句前面用assert判断一下除数是否为零, 这样就可以在出现divide by zero之前, 停在assert那句；还有在自己不太确定的指针访问之前，对指针assert一下，尤其是几个线程中都用到的指针。写代码的时候多写几句，后面调试时就方便了。

#7楼 回复 引用

2007-12-01 15:28 by

先多谢提的建议，确实编码的时候要多注意这些，而且有些是要功力和经验慢慢积累。现在项目里人参差不齐，这个问题不能马上解决。ce上找问题真的让我头大，现在我有时是让程序在pc上跑，有些问题在pc上能定位到，对于那些在ce上才会暴露出来的问题，那种还是办法，就只能在ce环境里跟踪，交替玩来提高点效率。我原本一直做pc的软件，现在在wince好多工具用不上。查看程序hdc，内存使用情况有用什么工具能用吗？测试的话有没有什么好工具介绍。

#8楼 回复 引用

2008-01-25 16:36 by

....这样定位,耗时又耗神.还不一定准,用工具定位吧...我猜你应该知道用什么工具.可以直接定位到source code 哦!

#9楼 [楼主] 回复 引用 查看

2008-01-28 09:47 by Walzer

@mowenli
我还真不知道. 楼上赐教一下，你用什么工具定位?

#10楼 回复 引用

2008-03-10 11:42 by

data abort是数据访问异常,arm cpu的7大异常之最常见版,对data abort楼主的方法相当好用.不过这和内存泄漏是两回事,标准意义上的内存泄漏是在堆上分配了内存却没有指针指向此内存,造成此内存无法再回收使用.查找内存泄漏通常实践中都是先用pclint工具走查一遍,去掉一些低级错误引起的,如果没有发现,那么用隔离二分法来判断,在目标化码中不断插入取系统内存状态代码比较,有较大差异时再去研究如果没有还没有发现,include,重写malloc和free函数,自已记录所有分配状况,再查,如果还没有发现,考虑多线程因素,一个线程一个线程查,严查线程间传递的内存区域.如果还没有发现,移植到PC端,用PC端工具查,boundchecker等.

#11楼 [楼主] 回复 引用 查看

2008-03-13 09:57 by Walzer

@bsxy
多谢bsxy分享一些好方法.
目前我还只会用重写malloc/free函数,加上次数记录的方法来查而已

#12楼 回复 引用 查看

2008-04-03 09:40 by wangjs

请问下面的DataAbort信息：
Data Abort: Thread=8eeab240 Proc=8c4d0470 'PushEmail.exe'
AKY=00002001 PC=03f700bc(coredll.dll+0x000220bc) RA=03f6ffa4(coredll.dll+0x00021fa4) BVA=1c000013 FSR=00000001

偏移地址在coredll.dll中，如何查找这个出错位置？

#13楼 回复 引用

2008-04-03 14:55 by

你好!我在用VS2005在wince5.0做串口通信程序,出现如下问题:
Data Abort: Thread=83c625f8 Proc=82326340 'device.exe'
AKY=00000405 PC=02981b5c(serial_smdk2440.dll+0x00001b5c) RA=0298450c(serial_smdk2440.dll+0x0000450c) BVA=06000000 FSR=00000007
RaiseException: Thread=83c625f8 Proc=82326340 'device.exe'
AKY=00000405 PC=03f8dfe8(coredll.dll+0x0001dfe8) RA=8029d1c0(NK.EXE+0x0009d1c0) BVA=00000001 FSR=00000001
该如何解决?谢谢,希望你能给点提示,即使定位到了还需要怎么修改?

#14楼 回复 引用

2008-06-23 14:19 by

请问下面的DataAbort信息：
Data Abort: Thread=845459e8 Proc=804e77f0 'gwes.exe'
AKY=20000021 PC=00035714(gwes.exe+0x00025714) RA=00035714(gwes.exe+0x00025714) BVA=0c0dd1e9 FSR=00000001
TLSKERN_NOFAULT set... bypassing kernel debugger.
偏移地址在gwes.exe中，如何查找这个出错位置？
msn:jameshana@hotmail.com

#15楼 [楼主] 回复 引用 查看

2008-06-23 16:05 by Walzer

上文在最末一行已经说了，这篇文章说的方法是不好用、不正确的了。只不过作为一种思路尝试仍然留在BLOG里面。
楼上各位，出了DATA ABORT就得看个人造化慢慢去查了, 尤其是device.exe和gwes.exe出了data abort, 80%可能就是BSP写得有问题导致.

社区新闻新用户注册

Feedback

#2楼 [楼主] 回复 引用 查看

#4楼 [楼主] 回复 引用 查看

#6楼 [楼主] 回复 引用 查看

#9楼 [楼主] 回复 引用 查看

#11楼 [楼主] 回复 引用 查看

#15楼 [楼主] 回复 引用 查看

#2楼 [楼主] 回复引用查看

#4楼 [楼主] 回复引用查看

#6楼 [楼主] 回复引用查看

#9楼 [楼主] 回复引用查看

#11楼 [楼主] 回复引用查看

#15楼 [楼主] 回复引用查看