经过反复摸索,我终于找到反汇编bzImage的方法。虽然还有些不完善(在结果中还不能看到.text段之外的符号),但我们总算是有机会看到可爱的汇编代码了,聊胜于无吧。
不要被bzImage的名字迷惑了,其实b代表着big的意思。而不是说这个image是用bzip2压缩。实际上,这个压缩过程是用gzip程序完成。我们在编译内核可以看到这一点。如果编译2.2或者2.4内核的话,可以直接看到,如果是2.6内核的话,可以用make bzImage V=1就也能看到了。
这样,我们需要做的就是把主干内核代码的压缩数据前面的bootsector/setup/misc部分去掉就行了。因为这个主干内核就是用gzip压缩的,所以,在“掐头”后,可以简单地调用gunzip解压之。这一步还是比较简单的。
下一步,我们得到了主干内核的image文件。但仍然不能直接反汇编!因为它没有ELF信息。当然,如果你满足于使用支持反汇编raw文件的汇编程序的话,就可以到此为止啦。我可没有那么高级的工具,所以,还是想方法恢复ELF的信息吧。恢复这个信息,我的想法就是用ld构造出一个不那么严格的ELF头,只要满足objdump反汇编的要求就行了。那么,如果把符号信息也恢复了呢,不过,我只考虑了.text。
符号信息可以比较容易地从System.map获得。如果没有这个文件,基本恢复完整的符号表无望。我曾经花了些时间试图根据image文件直接恢复符号表,但浅尝辄止了。有了这些信息之后,就可以通过构造一个linker script会达到重新构造ELF信息的目标了。
我用这个方法,成功反汇编了Ubuntu 8.04/x86-64上的2.6.24-23。
具体步骤如下:
#! /bin/sh
set -x
#
# 一般gzip压缩包的magic值为0x8b1f后跟0x0008,或者0x0808。
# 这里就是要找出这个偏移。
# 119116,就是这个偏移,这个偏移在不同的bzImage里是不同的,所以,这里需要手动调整一下。
# 解压后的文件即vmlinux.bin
od -h -A d bzImage | grep --color -m 3 -A 1 -i 8b1f
dd if=bzImage bs=1 skip=11916 | gunzip > vmlinux.bin
# 调用我写的一个python脚本,生成gnu linker script。
./genlds.py > vmlinux.elf.lds
# 构造 ELF 信息,结果文件为vmlinux.elf
ld -m elf_x86_64 --format binary --oformat elf64-x86-64 -T vmlinux.elf.lds vmlinux.bin -o vmlinux.elf
# 如果是32位系统,可以用以下命令
#ld -m elf_i386 --format binary --oformat elf32-i386 -T vmlinux.elf.lds vmlinux.bin -o vmlinux.elf
# 删除在上一步生成的多余符号。
objcopy --strip-symbol _binary_vmlinux_bin_start --strip-symbol _binary_vmlinux_bin_end --strip-symbol _binary_vmlinux_bin_size vmlinux.elf
# 设置 .text section标志,否则objdump -d不能正常工作,只能用objdump -D。
objcopy --set-section-flag .text=alloc,readonly,code vmlinux.elf
# 以后只是出于验证目的。
# 以schedule函数作为一个样本,检查在vmlinux.elf文件里是不是包括了正确的偏移。
grep --color "[tT] schedule$" System.map
readelf -s vmlinux.elf | grep " schedule$" --color
genlds.py内容如下:
#! /usr/bin/python
import sys
#将 形如 fffffff8989 的字符串转换为数字形式。
def to_no(hexstr):
ret = 0
start = -1
len_hexstr = len(hexstr)
while start>=-len_hexstr:
c = hexstr[start]
if c in "0123456789":
n = ord(c) - ord('0')
elif c in "abcdef":
n = ord(c) - ord('a') + 0xa
elif c in "ABCDEF":
n = ord(c) - ord('A') + 0xa
ret |= long(n<<((-start-1)*4))
start -= 1
return ret
# 计算addr-base
def sym_offset(addr, base):
if base == "missing-base":
return "missing-offset"
addr = to_no(addr)
base = to_no(base)
return hex(int(addr-base))
lines = file("System.map").readlines()
result=""
# 求.text的开始地址
base="missing-base"
for line in lines:
line = line.strip()
addr, type, sym = line.split(" ")
if type in "tT":
if sym in ("startup_64", "startup_32"):
base = addr
break
# 生成lds中的符号行。
for line in lines:
line = line.strip()
addr, type, sym = line.split(" ")
if type in "tT":
offset = sym_offset(addr, base)
result+="\t%s = %s; /* orig: 0x%s */\n" % (sym, offset, addr)
# 生成需要的脚本
template="""
OUTPUT_FORMAT("elf64-x86-64", "elf64-x86-64", "elf64-x86-64")
OUTPUT_ARCH(i386:x86-64)
SECTIONS
{
. = 0x%s;
.text . : {
*(.data)
%s}
}
"""
print template % (base, result) |
以下是反汇编的出来部分结果:
ffffffff80466ca0 <interruptible_sleep_on>:
ffffffff80466ca0: 55 push %rbp
ffffffff80466ca1: 48 ba ff ff ff ff ff mov $0x7fffffffffffffff,%rdx
ffffffff80466ca8: ff ff 7f
ffffffff80466cab: be 01 00 00 00 mov $0x1,%esi
ffffffff80466cb0: 48 89 e5 mov %rsp,%rbp
ffffffff80466cb3: c9 leaveq
ffffffff80466cb4: e9 c7 fe ff ff jmpq ffffffff80466b80 <__sched_text_start>
ffffffff80466cb9: 0f 1f 80 00 00 00 00 nopl 0x0(%rax)
ffffffff80466cc0 <schedule>:
ffffffff80466cc0: 55 push %rbp
ffffffff80466cc1: 48 c7 c0 80 ef 62 80 mov $0xffffffff8062ef80,%rax
ffffffff80466cc8: 48 c7 c2 00 b4 62 80 mov $0xffffffff8062b400,%rdx
ffffffff80466ccf: 48 89 e5 mov %rsp,%rbp
ffffffff80466cd2: 41 57 push %r15
ffffffff80466cd4: 41 56 push %r14
ffffffff80466cd6: 41 55 push %r13
ffffffff80466cd8: 41 54 push %r12
ffffffff80466cda: 53 push %rbx
ffffffff80466cdb: 48 81 ec 98 00 00 00 sub $0x98,%rsp
ffffffff80466ce2: 48 c7 85 78 ff ff ff movq $0xffffffff8062ef80,-0x88(%rbp)
ffffffff80466ce9: 80 ef 62 80
|
阅读(4780) | 评论(1) | 转发(1) |