X86汇编之指令格式解析-王贤才-ChinaUnix博客

oops

首页　| 　博文目录　| 　关于我

王贤才

博客访问： 1262869
博文数量： 573
博客积分： 0
博客等级：民兵
技术积分： 66
用户组：普通用户
注册时间： 2016-06-28 16:21

文章分类

全部博文（573）

数据存储和恢复（2）
kernel+相关机制（53）

内核模块机制（3）

内核同步机制（2）

内核中断机制（3）

内核定时机制（2）

电源管理（5）

Linux IO（1）

netlink机制（2）

uio机制（1）

内核输入子系统（3）

platform机制（0）

内核读写文件（2）

initrd机制（1）

系统调用（7）

工作队列（2）

内核调试（5）

内核源码分析（7）

内核试题（2）

设备模型（1）

内核makefile（1）

其他（3）
kernel+设备驱动（48）

cdp驱动（8）

linux块设备驱动（1）

SCSI_target驱动（11）

SPI驱动（1）

IIC驱动（9）

DMA驱动（1）

LCD和触摸屏驱动（2）

内核+驱动移植（1）

应用程序移植（1）

设备驱动和管理（5）

PCI驱动（2）

编写驱动环境准备（6）
kernel+文件系统（23）

VFS（2）

根文件系统（1）

sysfs文件系统（4）

proc文件系统（5）
kernel+内存管理（26）
kernel+网络接口（4）
kernel+进程调度（11）

内核进程（2）

完成量（1）

内核线程（2）
kernel+进程通信（0）
Android系统（0）
嵌入式开发板（34）

S3C2440裸机驱动（15）

ARM体系结构（8）

硬件+原理图（2）

单片机（2）

bootloader（7）
linux系统编程（78）

socket编程（17）

IPC机制（5）

信号（8）

进程控制和管理（9）

线程控制和管理（6）

文件操作（11）

日期时间（3）

libxml2库（9）

系统相关（7）

其他系统调用API（3）
C/C++编程（47）

标准C语法（27）

标准C库函数（13）

GNU C语法（2）

C试题（2）

c++语法（3）
数据结构+算法（51）

排序和查找（2）

B树（0）

二叉树（4）

八皇后（1）

红黑树（3）

赫夫曼树（0）

Hash表（2）

队列（2）

栈（4）

链表（4）

字符串（3）

大整型数（1）

算法题（5）

其他（18）

位操作（1）
系统架构（11）

nginx（9）

zabbix（1）

apache（1）
辅助编程（115）

linux命令（26）

shell脚本（20）

编译链接（14）

动态库静态库（11）

TUXEDO（2）

thrift（10）

xpcom（12）

cmake（1）

makefile（2）

SVN（5）

vim（7）

source insi（1）

doc命令（1）

aix命令（3）
汇编编程（25）

ARM体系汇编（12）

X86体系汇编（11）

c内嵌汇编（1）

反汇编（1）
python编程（3）
java编程（0）
数据库（5）

C嵌入SQL（2）
《内核设计与实现（20）
IT杂谈（17）
未分配的博文（0）

文章存档

2018年（3）

2016年（48）

2015年（522）

我的朋友

相关博文

X86汇编之指令格式解析

分类：嵌入式

2015-12-09 18:57:42

X86汇编之指令格式解析

前言：
以前在学校编译原理老师总会提到的一句话，在编译器的后端由汇编代码转换为机器码很容易，容易是容易，但是，how？？
在编写shellcode的时候，有时候我们需要特定限制的机器码，比如在制造缓冲区溢出的时候strcpy不能出现0这个字节的机器码，这个时候我们需要精挑细选我们的汇编指令让它的机器码不出现0，但是，汇编指令和机器码是怎么转换的？？
在破解软件的时候，找到了关键的crack点，需要修改机器码，我们或许可以通过编译器编译一个我们需要的汇编指令以得到机器码，但是我们发现我们选择的汇编指令或长或短总是不尽人意，这就需要我们自己掌握汇编和机器码的转换密码。
偶然在看雪论坛上看到以前的一篇精华贴讲述了这个问题，

但是作为小白没太看明白，帖子也不再提供回复功能，所以只有自己动手，丰衣足食了。

正文：
讲述x86指令格式的官方文档intel公司的指令手册，我们有理由相信所有的编译器最终将汇编代码转换为机器码的时候都会参考这个手册。
Intel Manual：下载地址：

使用vs2008默认编译选项编译一个计算1加到100的小程序
工程和可执行程序
源码：
int _tmain(int argc, _TCHAR* argv[]) {
  INT i = 0, sum = 0;
  for (i; i <= 100; i++) {
    sum += i;
  }
  printf("%d\n", sum);
  return 0;
}
使用ida打开debug/tmp.exe

我们分析给i赋初值的汇编代码，它的二进制机器码为
C7 45 f8 00 00 00 00 mov [ebp + i], 0
分析汇编机器码之前我们先了解一下intel 指令格式。打开Intel Manual第二章31页，我们可以看见指令格式如下：

点击图片以查看大图
图片名称: 4.jpg
查看次数: 19
文件大小: 41.8 KB
文件 ID : 91830

图1
Instruction prefixes: 指令前缀，可选项，每个前缀一个字节，可选0个前缀到4个不等。详细信息参考intel manual 2.2节
Opcode: 操作码，这是唯一不可省略的项，1到2个字节，在某些情况下会有额外的三个位作为补充opcode，这三个位是ModR/M中的Reg/Opcode，稍后会讲述什么情况下reg/opcode作为opcode的补充操作码
ModR/M ：一共有三个域，mod，reg/opcode， r/m， reg/opcode 在特定情况下作为opcode的补充操作码，特定情况下作为第二个操作数寄存器，（这里的特定情况容稍后解释）。
Mod域和R/M域总共5个位，定义了32种寻址方式。可选项。
SIB：定义ModR/M的寻址方式的补充寻址方式，可选项，什么时候选后面再说。
Displacement:偏移，可选，0，1，2，4个字节
Immediate: 立即数，可选，0，1，2，4个字节。

好，有了这些准备知识，我们查看手册3.2节指令格式，mov指令格式 442页

图2
第一列是opcode机器码，第二列是汇编指令，第三列是描述
解释：
imm是立即数的意思，而imm8就是指8个比特大小的立即数，
r：寄存器，如r16就代表ax、cx等，r32就代表eax、ebx等
m：内存地址，如[01]、[123]、[0FFFF]等
r/m：寄存器或内存
ib：代表OpCode后面跟着一个byte型数值
iw：代表OpCode后面跟着一个word型数值
id：代表OpCode后面跟着一个dword型数值
/digit：代表此OpCode存在ModR/M结构，且ModR/M结构的reg/opcode域为opcode：opcode的补充操作码
/r：代表此OpCode存在ModR/M结构，且ModR/M结构的reg/opcode域为reg，表示第二个操作码寄存器

1.  找到指令参考，匹配指令的模式
我们的例子：mov  [ebp + i], 0，
是将一个立即数0移动到一个[ebp + i]这样一个内存里，属于指令的最后一种情况
Mov  r/m32,  imm32
这里的0如何判断是32位立即数而不是8位或者16位呢？我们观察[ebp+i]是32位的，而指令格式中并没有出现mov r/m32, imm8或者mov r/m32, imm16,所以可以看出为了适配指令可能的情况，编译器将0认为是32位立即数。
2.  计算opcode
计算这个词可能用的不恰当，因为我们不需要任何计算的步骤，所需要的只是去查表。我们看到匹配上的指令模式的第一列为c7 /0
回顾图1，我们可以得知该指令没有前缀，opcode为c7，由于有/0，所以有ModR/M选项，不确定是否有SIB和displacement，Immediate为4个字节的0。
3.  分析ModR/M
还是只有查看intel manual手册，在2.4节对ModR/M 和 SIB bytes有详细的描述，请参考。笔者着重介绍计算方法，参考36页的表格，如下

图3
对于这个图，intel手册有详细说明，笔者也介绍下，Mod两个字节和R/M三个字节总共5个字节，总共编码32种寻址方式，effective address那一列列出了32种方式，mod为00标识的为寄存器间接寻址，01标识的寄存器相对寻址，且偏移为8位，10标识的寄存器相对寻址，且偏移为32位，11为寄存器直接寻址。
mov  [ebp + i], 0 的寻址方式为寄存器相对寻址，且i为-8，所以8位偏移即可，
所以选择mod为01，R/M为101这行；
另外mov  [ebp + i]查出来的指令为c7 /0, 开始说过了/0 表示reg/opcode域表示为扩展opcode，在图中
名称: 7.jpg
查看次数: 0
文件大小: 21.9 KB

/digit digit为0，所以opcode为0，它为10进制表示。所以在行列交叉的位置，我们查表得出了ModR/M的值为45
也可以通过计算得到：
mod:01
reg/opcode:000
R/M:101
01 000 101 = 0x45 和查表数据吻合。
（顺便再次说明如果通过指令查出来89 /r ，那么reg/opcode这个域为reg，选择哪一个就根据第二个操作码寄存器来选择具体REG等于多少
比如：名称: 8.jpg
查看次数: 0
文件大小: 4.3 KB

的机器码为89 45 f8，指令为89 /r, 且第二个操作码寄存器为eax，所以reg = 0，查表得到ModR/M为45）

4. 分析displacement
在图2中我们可以发现名称: 9.jpg
查看次数: 0
文件大小: 13.5 KB

，这个表示寄存器相对寻址，disp8或者disp32表示偏移量为8位或者32位，同时请看note的第2条和第3条
名称: 10.jpg
查看次数: 1
文件大小: 13.0 KB

表明图一中displacement为1个字节或者4个字节，这里的i等于-8，
名称: 11.jpg
查看次数: 1
文件大小: 7.5 KB

所以deplacement为一个字节f8,
至此：我们的mov [ebp+i], 0 就全部分析完了。
没有前缀
opcode 为c7
ModR/M 为45
没有SIB字节
Displacement 为f8
Immediate为 00 00 00 00 ，
整个指令为：c7 45 f8 00 00 00 00 ，哈哈，成功了！！！

5. SIB字节
我们的示例中没有出现SIB字节，那么它什么时候出现呢？？
我们注意图3的note1，
名称: 12.jpg
查看次数: 1
文件大小: 4.7 KB

       当出现这种寻址方式的时候需要用到SIB字节来对ModR/M进行补充。在2.4节中对SIB进行了描述，当基址加变址寻址(base-plus-index)和比例寻址(scale-plus-index)的时候需要用到SIB.
示例：（以下部分摘抄看雪帖子）

01048E  ADD DWORD PTR DS:[ESI+ECX*4], EAX
    我们重新回顾一下所学知识，首先我们分析它的指令格式如下：
引用:
01 /r    ADD r/m32,r32  Add r32 to r/m32
    根据“/r”我们可以得知这是一个有“ModR/M”结构的OpCode，因此查表得出其“ModR/M”信息
ModR/M 为 04h
    根据“Effective Address”的“[--][--]”可知此OpCode还存在“SIB”结构，于是继续查位于Intel指令手册第37页的表格。
    这里我们要着重分解目的操作数“[ESI+ECX*4]”里的内容，我们可以将其分为两部分，既索引与倍率因子（或叫做比率因子）。
    索引指的是基址，本例中就是ESI了，而倍率因子在本例中则是“ECX*4”，我们先从横排取得倍率因子信息如下：
引用:
Scaled Index  SS  Index
[ECX*4]       10  001

    而后由竖排取得索引信息如下：

r32  ESI
Base=  6
Base=  110

    将其组合起来就是：

SS  Index  Base
10  001    110  = 10001110 = 8Eh

结束语
学习完了x86汇编指令opcode以后我们可以解决前言所提及的问题了，也可以揣测编译器工程师在后端将汇编代码转换为机器码的时候也是捧着这样一本书册仔细研读，做很多的笔记和备注，也知道了为什么大神们会喜爱写xor eax, eax，而不使用mov eax, 0 也明白了为何有的指令长有的指令短，为何汇编代码改变了一点点编译出来的机器码差别很大等等问题。感谢  作者 A1Pass*转载请注明来自看雪论坛@PEdiy.com

阅读(3332) | 评论(0) | 转发(0) |

上一篇：AT&T汇编与Intel汇编的一些区别

下一篇：AT&T语法和Intel语法x86汇编的区别

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6