怎样反汇编bzImage-raise_sail-ChinaUnix博客

Rover Yuroveryu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

raise_sail

博客访问： 359092
博文数量： 18
博客积分： 2049
博客等级：大尉
技术积分： 664
用户组：普通用户
注册时间： 2007-07-06 17:38

文章分类

全部博文（18）

networking（9）
python（1）
books（1）
kernel-misc（4）
skills（3）
scheduling（0）
未分配的博文（0）

文章存档

2012年（1）

2011年（8）

2010年（4）

2009年（2）

2008年（3）

我的朋友

相关博文

怎样反汇编bzImage

分类： LINUX

2009-03-01 13:59:41

   经过反复摸索，我终于找到反汇编bzImage的方法。虽然还有些不完善（在结果中还不能看到.text段之外的符号），但我们总算是有机会看到可爱的汇编代码了，聊胜于无吧。

    不要被bzImage的名字迷惑了，其实b代表着big的意思。而不是说这个image是用bzip2压缩。实际上，这个压缩过程是用gzip程序完成。我们在编译内核可以看到这一点。如果编译2.2或者2.4内核的话，可以直接看到，如果是2.6内核的话，可以用make bzImage V=1就也能看到了。

    这样，我们需要做的就是把主干内核代码的压缩数据前面的bootsector/setup/misc部分去掉就行了。因为这个主干内核就是用gzip压缩的，所以，在“掐头”后，可以简单地调用gunzip解压之。这一步还是比较简单的。

    下一步，我们得到了主干内核的image文件。但仍然不能直接反汇编！因为它没有ELF信息。当然，如果你满足于使用支持反汇编raw文件的汇编程序的话，就可以到此为止啦。我可没有那么高级的工具，所以，还是想方法恢复ELF的信息吧。恢复这个信息，我的想法就是用ld构造出一个不那么严格的ELF头，只要满足objdump反汇编的要求就行了。那么，如果把符号信息也恢复了呢，不过，我只考虑了.text。

    符号信息可以比较容易地从System.map获得。如果没有这个文件，基本恢复完整的符号表无望。我曾经花了些时间试图根据image文件直接恢复符号表，但浅尝辄止了。有了这些信息之后，就可以通过构造一个linker script会达到重新构造ELF信息的目标了。

    我用这个方法，成功反汇编了Ubuntu 8.04/x86-64上的2.6.24-23。

    具体步骤如下：

#! /bin/sh

set -x

#
# 一般gzip压缩包的magic值为0x8b1f后跟0x0008，或者0x0808。
# 这里就是要找出这个偏移。
# 119116，就是这个偏移，这个偏移在不同的bzImage里是不同的，所以，这里需要手动调整一下。
# 解压后的文件即vmlinux.bin
od -h -A d bzImage | grep --color -m 3 -A 1 -i 8b1f
dd if=bzImage bs=1 skip=11916 | gunzip > vmlinux.bin

# 调用我写的一个python脚本，生成gnu linker script。
./genlds.py > vmlinux.elf.lds

# 构造 ELF 信息，结果文件为vmlinux.elf
ld -m elf_x86_64 --format binary --oformat elf64-x86-64 -T vmlinux.elf.lds vmlinux.bin -o vmlinux.elf
# 如果是32位系统，可以用以下命令
#ld -m elf_i386 --format binary --oformat elf32-i386 -T vmlinux.elf.lds vmlinux.bin -o vmlinux.elf

# 删除在上一步生成的多余符号。
objcopy --strip-symbol _binary_vmlinux_bin_start --strip-symbol _binary_vmlinux_bin_end --strip-symbol _binary_vmlinux_bin_size vmlinux.elf
# 设置 .text section标志，否则objdump -d不能正常工作，只能用objdump -D。
objcopy --set-section-flag .text=alloc,readonly,code vmlinux.elf

# 以后只是出于验证目的。
# 以schedule函数作为一个样本，检查在vmlinux.elf文件里是不是包括了正确的偏移。
grep --color "[tT] schedule$" System.map
readelf -s vmlinux.elf | grep " schedule$" --color

genlds.py内容如下：

#! /usr/bin/python

import sys

#将形如 fffffff8989 的字符串转换为数字形式。
def to_no(hexstr):
    ret = 0
    start = -1
    len_hexstr = len(hexstr)
    while start>=-len_hexstr:
        c = hexstr[start]
        if c in "0123456789":
            n = ord(c) - ord('0')
        elif c in "abcdef":
            n = ord(c) - ord('a') + 0xa
        elif c in "ABCDEF":
            n = ord(c) - ord('A') + 0xa
        ret |= long(n<<((-start-1)*4))
        start -= 1
    return ret

# 计算addr-base
def sym_offset(addr, base):
    if base == "missing-base":
        return "missing-offset"
    addr = to_no(addr)
    base = to_no(base)
    return hex(int(addr-base))

lines = file("System.map").readlines()
result=""

# 求.text的开始地址
base="missing-base"
for line in lines:
    line = line.strip()
    addr, type, sym = line.split(" ")
    if type in "tT":
        if sym in ("startup_64", "startup_32"):
            base = addr
            break
# 生成lds中的符号行。
for line in lines:
    line = line.strip()
    addr, type, sym = line.split(" ")
    if type in "tT":
        offset = sym_offset(addr, base)
        result+="\t%s = %s; /* orig: 0x%s */\n" % (sym, offset, addr)

# 生成需要的脚本
template="""
OUTPUT_FORMAT("elf64-x86-64", "elf64-x86-64", "elf64-x86-64")
OUTPUT_ARCH(i386:x86-64)
SECTIONS
{
  . = 0x%s;
    .text . : {
        *(.data)
%s}
}
"""
print template % (base, result)

以下是反汇编的出来部分结果：

ffffffff80466ca0 <: ffffffff80466ca1: ffffffff80466ca8: ffffffff80466cab: ffffffff80466cb0: ffffffff80466cb3: ffffffff80466cb4: ffffffff80466cb9:
ffffffff80466cc0 <: ffffffff80466cc1: ffffffff80466cc8: ffffffff80466ccf: ffffffff80466cd2: ffffffff80466cd4: ffffffff80466cd6: ffffffff80466cd8: ffffffff80466cda: ffffffff80466cdb: ffffffff80466ce2: ffffffff80466ce9: >interruptible_sleep_on>:
55 push %rbp
48 ba ff ff ff ff ff mov $0x7fffffffffffffff,%rdx
ff ff 7f
be 01 00 00 00 mov $0x1,%esi
48 89 e5 mov %rsp,%rbp
c9 leaveq
e9 c7 fe ff ff jmpq ffffffff80466b80 <__sched_text_start>
0f 1f 80 00 00 00 00 nopl 0x0(%rax)
>schedule>:
55 push %rbp
48 c7 c0 80 ef 62 80 mov $0xffffffff8062ef80,%rax
48 c7 c2 00 b4 62 80 mov $0xffffffff8062b400,%rdx
48 89 e5 mov %rsp,%rbp
41 57 push %r15
41 56 push %r14
41 55 push %r13
41 54 push %r12
53 push %rbx
48 81 ec 98 00 00 00 sub $0x98,%rsp
48 c7 85 78 ff ff ff movq $0xffffffff8062ef80,-0x88(%rbp)
80 ef 62 80

阅读(4832) | 评论(1) | 转发(1) |

上一篇：Slab复习备忘

下一篇：splice()系统调用族探秘

给主人留下些什么吧！~~

chinaunix网友2009-12-17 18:36:28

你好，看了你对zbimage的反汇编方法想必你zbimage应该非常连接了，想请教您一点问题，zbimage需要和一个.gz文件进行配合吧，查看了网络上的文章说是GZIP压缩过的ramdisk的镜像文件，但是用GZIP不能对他解压缩也不能直接用MOUNT来挂在这个文件，请问下有什么方法可以对此GZ文件进行修改？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6