第十二章——Linux系统调用-梦醒潇湘love-ChinaUnix博客

梦醒潇湘loveloveyou1314.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

梦醒潇湘love

博客访问： 2137094
博文数量： 249
博客积分： 1305
博客等级：军士长
技术积分： 4733
用户组：普通用户
注册时间： 2011-12-17 10:37

个人简介

不懂的东西还有很多，随着不断的学习，不懂的东西更多，无法消灭更多不懂的东西，那就不断的充实自己吧。欢迎关注微信公众号：菜鸟的机器学习

文章分类

全部博文（249）

机器学习（1）
Hadoop（2）
互联网广告（0）

特征工程（0）
算法（2）

SearchForPattern（2）
TCP/IP（1）
笔试题（4）

腾讯（2）
STL学习（3）
Big Data&nb（1）
程序员自我修养（4）
编程珠玑（5）
面试编程题（132）

Google（0）

智力题（2）

C/C++（11）

数学相关（7）

二分查找（7）

数组（30）

栈、队列、堆（4）

单链表（20）

经典二叉树（26）

字符串（20）
数据挖掘（6）
杂谈（1）
信息检索（1）
Linux编程（14）
Load Balance学习（4）
C/C++学习（19）

字节对齐（0）
linux下多线程（3）
数据结构与算法（29）

递归与分治（2）

并查集（1）

数据结构（1）

算法（3）
Makefile（8）
Mongoose(web服务（4）
BitTorrent（2）
未分配的博文（3）

文章存档

2015年（1）

2014年（4）

2013年（208）

2012年（35）

2011年（1）

我的朋友

相关博文

第十二章——Linux系统调用

分类： C/C++

2013-08-23 09:56:48

一、什么是系统调用
系统调用是应用程序（运行库也是应用程序的一部分）与操作系统内核之间的接口，它决定了应用程序如何与内核打交道。无论程序是直接调用系统调用还是通过运行库，最终还是会到达系统调用这个层面上。
为了让操作系统有能力访问系统资源，也为了让程序借助操作系统做一些由操作系统支持的行为，每个操作系统都会提供一套接口，以供应用程序使用。这些接口往往通过中断来实现，比如Linux使用0x80号中断作为系统调用的入口，Windows采用0x2E号中断作为系统调用入口。

二、Linux系统调用
下面我们来看看Linux系统调用的定义。在x86下，系统调用由0x80中断完成，各个通过寄存器用于传递参数，EAX寄存器用于表示系统调用的接口号，比如EAX = 1表示退出进程（exit）；EAX = 2表示创建进程（fork）；EAX = 3表示读取文件或IO（read）；EAX = 4表示写文件或IO（write）等，每个系统调用都对应于内核源代码中的一个函数，它们都是以“sys_”开头的，比如exit调用对应内核中的sys_exit函数。当系统调用返回时，EAX作为调用结果的返回值。
我们可以使用Linux的man命令查看每个系统调用的详细说明，比如查看read（man参数2表示系统调用手册）：

$ man 2 read

三、系统调用原理
1、特权级与中断
现代的CPU常常可以在多种截然不同的特权级别下执行指令，在现代操作系统中，通常也有两种特权级别，分别为用户模式（User Mode）和内核模式（Kernel Mode），也被称为用户态和内核态。
系统调用是运行在内核态的，而应用程序基本都是运行在用户态的。用户态的程序如何运行内核态的代码呢？操作系统一般是通过中断（Interrupt）来从用户态切换到内核态。
什么是中断呢？中断是一个英俊或软件发出的请求，要求CPU暂停当前的工作转手去处理更加重要的事情。
中断一般具有两个属性，一个称为中断号，一个称为中断处理程序。不同的中断具有不同的中断号，而同时一个中断处理程序一一对应一个中断号。在内核中，有一个数组称为中断向量表，这个数组的第n项包含了指向第n号中断的处理程序指针。当中断到来时，CPU暂停当前执行的代码，根据中断的中断号，在中断向量表中找到对应的中断处理程序，并调用它。中断处理程序执行完成以后，CPU会继续执行之前的代码。一个简单的示意图如下图所示。

通常意义上，中断有两种类型，一种称为硬件中断，这种中断来自于硬件的异常或者其他事件的发生，如电源掉电、键盘被按下等。另一种称为软件中断，软件中断通常是一条指令（i386下是int），带有一个参数记录中断号，使用这条指令用户可以手动触发某个中断并执行期中断处理程序。例如在i386下，int 0x80这条指令会调用第0x80号中断的处理程序。
由于中断是有限的，OS不会舍得用一个中断号来对应一个系统调用，而更倾向于用一个或少数几个中断号来对应所有的系统调用。例如，i386下Windows里绝对多数系统调用都是由int 0x2E来触发的，而Linux则使用int 0x80来触发所有的系统调用。
对于同一个中断号，操作系统如何知道哪一个系统调用被调用呢？和中断一样，系统调用都有一个系统调用号，就像身份标识一样来表明是哪一个系统调用，这个系统调用号通车就是系统调用在系统调用表中的位置，例如Linux里fork的系统调用号是2。这个系统调用号在执行int指令前会被放置在某个固定的寄存器中，对应的中断代码会取得这个系统调用号，并且调用正确的函数。以Linux的int 0x80为例，系统调用号是由eax来传入的。用户将系统调用号放入eax，然后使用int 0x80调用中断，中断服务器程序就可以从eax里面取得系统调用号，进而调用对应的函数。

四、基于int的Linux的经典系统调用实现
下面我们将了解当应用程序调用系统时，程序是如何一步步进入操作系统内核调用相应函数的。下图是以fork为例的Linux系统调用的执行流程。

解下来，让我们一步一步地了解这个过程的细节。
1、触发中断
首先，当程序在代码里调用一个系统调用时，是以一个函数的形式调用的，例如程序调用fork：

int main()
{
fork();
}

fork函数是一个对系统调用fork的封装，可以用下列宏来定义它：

_syscall0(pid_t, fork);

_syscall0是一个宏函数，用于定义一个没有参数的系统调用的封装。它的第一个参数为这个系统调用的返回值类型，这里为pit_t，是Linux自定义类型，代表进程的id。_syscall0的第二个参数是系统调用的名称，_syscall0展开之后会形成一个与系统调用名称同名的函数。下面的代码是i386版本的_syscall0的定义：

如果对这种格式的汇编不熟悉，请看下面的解释。
（1）首先__asm__是一个gcc的关键字，表示接下来要嵌入汇编代码。volatile关键字告诉gcc对这段代码不做任何优化；
（2）__asm__的第一个参数是一个字符串，代码汇编代码的文本。这里的汇编代码只有一句：int $0x80，这就要调用0x80中断；
（3）“=a”（__res）表示用eax（a表示eax）输出返回数据并存储在__res里；
（4）"0"（__NR_##name）表示__NR_##name为输入，"0"指示由编译器选择和输出相同的寄存器（即eax）来传递参数；
更直观一点，可以把这段汇编改写成更为可读的格式：

__NR_fork是一个宏，表示fork系统调用的调用号，对于x86体系结构，该宏的定义可以在Linux/include/asm-x86/unistd_32.h里找到：

而__syscall_return是另一个宏，定义如下：

这个宏用于检查系统调用的返回值，并把它相应的转换为C语言的errno错误码。在Linux里面，系统调用使用返回值传递错误码，如果返回值为负数，那么表明调用失败，返回值的绝对值就是错误码。而在C语言里则不然，C语言里的大多数函数都是以返回-1表示调用失败，而将出错信息存储在一个名为errno的全局变量（在多线程库中，errno存储在TLS中）里。__syscall_return就负责将系统调用的返回值存储在errno中。这样，fork函数在汇编之后，就会形成类似如下的汇编代码：

如果系统调用本身有参数要如何实现呢？下面是x86Linux下的syscall，用于带1个参数的系统调用：

这段代码和_syscall0不同的是，它多了一个"b"((long)(arg1))。这一句的意思是先把arg1强制转换为long，然后放在EBX（b代表EBX）里作为输入。编译器还会生成相应的代码来保护原来的EBX的值不被破坏。这段汇编可以改写为：

可见，如果系统调用有1个参数，那么参数通过EBX来传入。x86下Linux支持的系统调用参数至多有6个，分别使用6个寄存器来传递，它们分别是EBX、ECX、EDX、ESI、EDI和EBP。
当用户调用某个系统调用时，实际上是执行了上面一段汇编代码。CPU执行到int $0x80时，会保存现成以便恢复，接着会将特权状态切换到内核态。然后CPU便会查找中断向量表中的第0x80号元素。
以上是Linux实现系统调用入口的思路，不过也许你会想知道glibc是否真的是如此封装函数调用呢？答案是否定的。glibc使用了另外一套调用系统调用的方法，尽管原理上仍然是使用0x80号中断，但细节上却是不一样的。由于这种方法与上面的方法本质上是一样的，所以这里不介绍了。

2、切换堆栈
在实际执行中断向量表中的第0x80号元素所对应的函数之前，CPU首先还要进行栈切换。在Linux中，用户态和内核态使用的是不同的栈，两者各自负责各自的函数调用，互不干扰。但在应用程序调用0x80号中断时，程序的执行流程从用户态切换到内核态，这时程序的当前栈必须也相应地从用户栈切换到内核栈。从中断处理函数中返回时，程序的当前栈还有从内核栈切换回用户栈。
所谓的“当前栈”，指的是ESP的值所在的栈空间。如果ESP的值位于用户栈的范围内，那么程序的当前栈就是用户栈，反之亦然。此外，寄存器SS的值还应该指向当前栈所在的页。所以，将当前栈由用户栈切换到内核栈的实际行为就是：
（1）保存当前的ESP、SS的值；
（2）将ESP、SS的值设置为内核栈的相应值；
反过来，将当前栈的内核栈切换为用户栈的实际行为则是：
（1）恢复原来的ESP、SS的值；
（2）用户态的ESP和SS的值保存到哪里呢？答案就是内核栈上。这一行为由i386的中断指令自动地由硬件完成。
当0x80号中断发生的时候，CPU除了切入内核态以外，还自动完成下列几件事：
（1）找到当前进程的内核栈（每个进程都有自己的内核栈）；
（2）在内核栈中依次压入用户态的寄存器SS、ESP、EFLAGS、CS、EIP；
而当内核从系统调用中返回的时候，需要调用iret指令返回到用户态，iret指令则会从内核栈里弹出寄存器SS、ESP、EFLAGS、CS、EIP的值，使得栈恢复到用户态的状态，这个过程可以用下图来表示。

3、中断处理程序
在int指令合理的切换了栈之后，程序的流程就切换到了中断向量表中记录的0x80号中断处理程序。Linux内部的i386中断服务流程如下图所示。

i386的中断向量表在Linux源代码的Linux/arch/i386/kernel/traps.c里可见一部分。在该文件的末尾，我们能看到一个函数trap_init，该函数用于初始化中断向量表。

以上代码中的函数set_intr_gate/set_trap_gate/set_system_gate/set_system_intr_gate用于设置某个中断号上的中断处理程序。之所以区分为3种名字，是因为在i386下对中断有更加细致的划分。
从这段代码可以看到0-19号中断对应的中断处理程序，其中包含算数异常（除零、溢出）、页缺失、无效指令等。在最后一行：

可看出这事系统调用对应的中断号，在linux/include/asm-i386/mach-default/irq_vectors.h里面可以找到SYSCALL_VECTOR的定义：

可见i386下Linux下的系统调用对应的中断号确实为0x80。必然的，用户调用int 0x80之后，最终执行的函数是system_call，该函数在linux/arch/i386/kernel/entry.s里可以找到定义。下面一点一点的来进行解析。

这一段是system_call的开头，中间省略了一些不太重要的代码。在这里一开始使用宏SAVE_ALL将各种寄存器压入栈中，以免它们的值被后续执行的代码所覆盖。接下来使用cmpl指令比较eax和nr_syscalls的值，nr_syscalls是比最大的有效系统调用号大1的值，因此，如果eax（即用户传入的系统调用号）大于等于nr_syscalls，那么这个系统调用就是无效的，如果这样，接着就会跳转到后面的syscall_badsys执行。如果系统调用号是有效的，那么程序执行下面的代码：

确定系统调用号有效并且保存了寄存器之后，接下来要执行的就是调用*sys_call_table(0, %eax, 4)来查找中断服务器程序并执行。执行结束之后，使用宏RESTORE_REGS来恢复之前被SAVE_ALL保存的寄存器。最后通过指令从中断处理程序中返回。
究竟什么是*sys_call_table(0, %eax, 4)呢？在linux/arch/i386/kernel/syscall_table.s里面能找到定义：

这就是Linux的i386系统调用表，这个表里的每个元素(long, 4字节)都是一个系统调用地址。那么不难推知*sys_call_table(0, %eax, 4)指的是sys_call_table上的偏移量为0 + %eax + 4上的那个元素的值指向的函数，也就是%eax所记录的系统调用号所对应的系统调用函数。接下来系统就会去调用相应的系统调用函数。例如，如果%eax = 2，那么sys_fork就会被调用。
整个调用过程如下所示。

问题：内核以sys开头的系统调用函数是如何从用户那里获得参数的？
答案：我们知道用户调用系统调用时，根据系统调用参数数量的不同，依次将参数放入EBX、ECX、EDX、ESI、EDI和EBP这6个寄存器中传递。例如一个参数的系统调用就是用EBX，而两个参数的系统调用就使用EBX和ECX，以此类推。
而进入系统调用的服务程序system_call的时候，system_call调用了一个宏SAVE_ALL来保存各个寄存器。SAVE_ALL实际与系统调用的参数传递息息相关，所以这里有必要提一下。
SAVE_ALL的作用为保存寄存器，因此其内容就是讲各个寄存器压入栈中。SAVE_ALL的大致内容如下：

抛开SAVE_ALL的最后3个move指令不看（这3条指令用于设置内核数据段，它们不影响栈），我们可以发现SAVE_ALL是一系列push指令的最后6条所压入栈的寄存器恰好就是用来存放系统调用参数的6个寄存器，连顺序都一样，这当前不少一个巧合。
再回到system_call的源码，可以发现，在执行SAVE_ALL与执行call *sys_call_table(0, %eax, 4)之间，没有任何代码会影响栈。因此刚刚进入sys开头的内核系统调用函数的时候，栈上恰恰是这样的情景，如下图所示。

可以说，系统调用的参数被SAVE_ALL“阴差阳错”放置在了栈上。
另一方面，所有以sys开头的内核系统调用函数，都有一个asmlinkage的标志，例如：asmlinkage pid_t sys_fork(void)；
asmlinkage是一个宏，定义为：__attribute__((regparm(0)))
这个扩展关键字的意义是让这个函数只从栈上获取参数。因为gcc对普通函数有优化措施，会使用寄存器来传递参数，而SAVE_ALL将参数全部放置于栈上，因此必须使用asmlinkage来强迫函数从栈上获取参数。这样一来，内核里的系统调用函数就可以正确地获取用户提供的参数了。整个过程如下图所示。

阅读(1933) | 评论(0) | 转发(0) |

上一篇：明白在C中如何使用C++

下一篇：机器学习中的相似性度量

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6