Chinaunix首页 | 论坛 | 博客
  • 博客访问: 5873047
  • 博文数量: 671
  • 博客积分: 10010
  • 博客等级: 上将
  • 技术积分: 7310
  • 用 户 组: 普通用户
  • 注册时间: 2006-07-14 09:56
文章分类

全部博文(671)

文章存档

2011年(1)

2010年(2)

2009年(24)

2008年(271)

2007年(319)

2006年(54)

我的朋友

分类:

2007-12-17 15:53:13

  •   Linux 汇编器:对比 GAS 和 NASM......
本文解释两种最流行的 Linux® 汇编器 —— GNU Assembler(GAS)和 Netwide Assembler(NASM) —— 之间一些比较重要的语法差异和语义差异,包括基本语法、变量和内存访问、宏处理、函数和外部例程、堆栈处理以及重复执行代码块的技术方面的差异。

与其他语言不同,汇编语言要求开发人员了解编程所用机器的处理器体系结构。汇编程序不可移植,维护和理解常常比较麻烦,通常包含大量代码行。但是,在机器上执行的运行时二进制代码在速度和大小方面有优势。

对于在 Linux 上进行汇编级编程已经有许多参考资料,本文主要讲解语法之间的差异,帮助您更轻松地在汇编形式之间进行转换。本文源于我自己试图改进这种转换的尝试。

本文使用一系列程序示例。每个程序演示一些特性,然后是对语法的讨论和对比。尽管不可能讨论 NASM 和 GAS 之间存在的每个差异,但是我试图讨论主要方面,给进一步研究提供一个基础。那些已经熟悉 NASM 和 GAS 的读者也可以在这里找到有用的内容,比如宏。

本文假设您至少基本了解汇编的术语,曾经用符合 Intel® 语法的汇编器编写过程序,可能在 Linux 或 Windows 上使用过 NASM。本文并不讲解如何在编辑器中输入代码,或者如何进行汇编和链接(但是下面的边栏可以帮助您 快速回忆一下)。您应该熟悉 Linux 操作系统(任何 Linux 发行版都可以;我使用的是 Red Hat 和 Slackware)和基本的 GNU 工具,比如 gcc 和 ld,还应该在 x86 机器上进行编程。

现在,我描述一下本文讨论的范围。

构建示例


汇编:
GAS:
as –o program.o program.s

NASM:
nasm –f elf –o program.o program.asm

链接(对于两种汇编器通用):
ld –o program program.o

在使用外部 C 库时的链接方法:
ld –-dynamic-linker /lib/ld-linux.so.2 –lc –o program program.o

本文讨论:

  • NASM 和 GAS 之间的基本语法差异
  • 常用的汇编级结构,比如变量、循环、标签和宏
  • 关于调用外部 C 例程和使用函数的信息
  • 汇编助记符差异和使用方法
  • 内存寻址方法

 

本文不讨论:

  • 处理器指令集
  • 一种汇编器特有的各种宏形式和其他结构
  • NASM 或 GAS 特有的汇编器指令
  • 不常用的特性,或者只在一种汇编器中出现的特性

 

更多信息请参考汇编器的官方手册(参见 参考资料 中的链接),因为这些手册是最完整的信息源。

基本结构

清单 1 给出一个非常简单的程序,它的作用仅仅是使用退出码 2 退出。这个小程序展示了 NASM 和 GAS 的汇编程序的基本结构。

清单 1. 一个使用退出码 2 退出的程序
行号 NASM GAS
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
                              
; Text segment begins
section .text
   global _start
; Program entry point
   _start:
; Put the code number for system call
      mov   eax, 1 
; Return value 
      mov   ebx, 2
; Call the OS
      int   80h
                         

# Text segment begins
.section .text
   .globl _start
# Program entry point
   _start:
# Put the code number for system call
      movl  $1, %eax
/* Return value */
      movl  $2, %ebx
# Call the OS
      int   $0x80
                                    

现在解释一下。

NASM 和 GAS 之间最大的差异之一是语法。GAS 使用 AT&T 语法,这是一种相当老的语法,由 GAS 和一些老式汇编器使用;NASM 使用 Intel 语法,大多数汇编器都支持它,包括 TASM 和 MASM。(GAS 的现代版本支持 .intel_syntax 指令,因此允许在 GAS 中使用 Intel 语法。)

下面是从 GAS 手册总结出的一些主要差异:

  • AT&T 和 Intel 语法采用相反的源和目标操作数次序。例如:
    • Intel:mov eax, 4
    • AT&T:movl $4, %eax
  • 在 AT&T 语法中,中间操作数前面加 $;在 Intel 语法中,中间操作数不加前缀。例如:
    • Intel:push 4
    • AT&T:pushl $4
  • 在 AT&T 语法中,寄存器操作数前面加 %。在 Intel 语法中,它们不加前缀。
  • 在 AT&T 语法中,内存操作数的大小由操作码名称的最后一个字符决定。操作码后缀 b、w 和 l 分别指定字节(8 位)、字(16 位)和长(32 位)内存引用。Intel 语法通过在内存操作数(而不是操作码本身)前面加 byte ptr、word ptr 和 dword ptr 来指定大小。所以:
    • Intel:mov al, byte ptr foo
    • AT&T:movb foo, %al
  • 在 AT&T 语法中,中间形式长跳转和调用是 lcall/ljmp $section, $offset;Intel 语法是 call/jmp far section:offset。在 AT&T 语法中,远返回指令是 lret $stack-adjust,而 Intel 使用 ret far stack-adjust。

 

在这两种汇编器中,寄存器的名称是一样的,但是因为寻址模式不同,使用它们的语法是不同的。另外,GAS 中的汇编器指令以 “.” 开头,但是在 NASM 中不是。

.text 部分是处理器开始执行代码的地方。global(或者 GAS 中的 .globl 或 .global)关键字用来让一个符号对链接器可见,可以供其他链接对象模块使用。在清单 1 的 NASM 部分中,global _start 让 _start 符号成为可见的标识符,这样链接器就知道跳转到程序中的什么地方并开始执行。与 NASM 一样,GAS 寻找这个 _start 标签作为程序的默认进入点。在 GAS 和 NASM 中标签都以冒号结尾。

中断是一种通知操作系统需要它的服务的一种方法。第 16 行中的 int 指令执行这个工作。GAS 和 NASM 对中断使用同样的助记符。GAS 使用 0x 前缀指定十六进制数字,NASM 使用 h 后缀。因为在 GAS 中中间操作数带 $ 前缀,所以 80 hex 是 $0x80。

int $0x80(或 NASM 中的 80h)用来向 Linux 请求一个服务。服务编码放在 EAX 寄存器中。EAX 中存储的值是 1(代表 Linux exit 系统调用),这请求程序退出。EBX 寄存器包含退出码(在这个示例中是 2),也就是返回给操作系统的一个数字。(可以在命令提示下输入 echo $? 来检查这个数字。)

最后讨论一下注释。GAS 支持 C 风格(/* */)、C++ 风格(//)和 shell 风格(#)的注释。NASM 支持以 “;” 字符开头的单行注释。

阅读(2202) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~