何时如何利用可重入性避免代码出现 bug
Dipak K. Jha
()
软件工程师, IBM 2005 年 2 月 如
果要对函数进行并发访问,不管是通过线程还是通过进程,您都可能会遇到函数不可重入所导致的问题。在本文中,通过示例代码了解如果可重入性不能得到保证会
产生何种异常,尤其要注意信号。引入了五条可取的编程经验,并对提出的编译器模型进行了讨论,在这个模型中,可重入性由编译器前端处理。
在早期的编程中,不可重入性对程序员并不构成威胁;函数不会有并发访问,也没有中断。在很多较老的 C
语言实现中,函数被认为是在单线程进程的环境中运行。
不过,现在,并发编程已普遍使用,您需要意识到这个缺陷。本文描述了在并行和并发程序设计中函数的不可重入性导致的一些潜在问题。信号的生成和处理尤其增加了额外的复杂性。由于信号在本质上是异步的,所以难以找出当信号处理函数
触发某个不可重入函数时导致的 bug。 本文:
- 定义了可重入性,并包含一个可重入函数的 POSIX 清单。
- 给出了示例,以说明不可重入性所导致的问题。
- 指出了确保底层函数的可重入性的方法。
- 讨论了在编译器层次上对可重入性的处理。
可重入(reentrant)函数可以由多于一个任务并发使用,而不必担心数据错误。相反,
不可重入(non-reentrant)函数不能由超过一个任务所共享,除非能确保函数的互斥
(或者使用信号量,或者在代码的关键部分禁用中断)。可重入函数可以在任意时刻被中断,
稍后再继续运行,不会丢失数据。可重入函数要么使用本地变量,要么在使用全局变量时
保护自己的数据。
可重入函数:
- 不为连续的调用持有静态数据。
- 不返回指向静态数据的指针;所有数据都由函数的调用者提供。
- 使用本地数据,或者通过制作全局数据的本地拷贝来保护全局数据。
- 绝不调用任何不可重入函数。
不要混淆可重入与线程安全。在程序员看来,这是两个独立的概念:函数可以是可重入的,是线程安全的,或者
二者皆是,或者二者皆非。不可重入的函数不能由多个线程使用。另外,或许不可能让某个
不可重入的函数是线程安全的。 IEEE Std 1003.1 列出了 118 个可重入的 UNIX® 函数,在此没有给出副本。参见
参考资料 中指向 unix.org 上此列表的链接。
出于以下任意某个原因,其余函数是不可重入的: - 它们调用了
malloc 或 free 。 - 众所周知它们使用了静态数据结构体。
- 它们是标准 I/O 程序库的一部分。
信号(signal) 是软件中断。它使得程序员可以处理异步事件。为了向进程发送一个信号,
内核在进程表条目的信号域中设置一个位,对应于收到的信号的类型。信号函数的 ANSI C 原型是:
void (*signal (int sigNum, void (*sigHandler)(int))) (int);
|
或者,另一种描述形式: typedef void sigHandler(int); SigHandler *signal(int, sigHandler *);
|
当进程处理所捕获的信号时,正在执行的正常指令序列就会被信号处理器临时中断。然后进程继续执行,
但现在执行的是信号处理器中的指令。如果信号处理器返回,则进程继续执行信号被捕获时正在执行的
正常的指令序列。
现在,在信号处理器中您并不知道信号被捕获时进程正在执行什么内容。如果当进程正在使用
malloc 在它的堆上分配额外的内存时,您通过信号处理器调用
malloc ,那会怎样?或者,调用了正在处理全局数据结构的某个函数,而
在信号处理器中又调用了同一个函数。如果是调用 malloc ,则进程会
被严重破坏,因为 malloc 通常会为所有它所分配的区域维持一个链表,而它又
可能正在修改那个链表。
甚至可以在需要多个指令的 C 操作符开始和结束之间发送中断。在程序员看来,指令可能似乎是原子的
(也就是说,不能被分割为更小的操作),但它可能实际上需要不止一个处理器指令才能完成操作。
例如,看这段 C 代码: 在 x86 处理器上,那个语句可能会被编译为: mov ax,[temp] inc ax mov [temp],ax
|
这显然不是一个原子操作。
这个例子展示了在修改某个变量的过程中运行信号处理器可能会发生什么事情:
#include #include
struct two_int { int a, b; } data;
void signal_handler(int signum){ printf ("%d, %d
", data.a, data.b); alarm (1); }
int main (void){ static struct two_int zeros = { 0, 0 }, ones = { 1, 1 };
signal (SIGALRM, signal_handler);
data = zeros;
alarm (1);
while (1) {data = zeros; data = ones;} }
|
这个程序向 data 填充 0,1,0,1,一直交替进行。同时,alarm 信号
处理器每一秒打印一次当前内容(在处理器中调用 printf 是安全的,当信号发生时
它确实没有在处理器外部被调用)。您预期这个程序会有怎样的输出?它应该打印 0,0 或者 1,1。但是实际的输出
如下所示: 0, 0 1, 1
(Skipping some output...)
0, 1 1, 1 1, 0 1, 0 ...
|
在大部分机器上,在 data 中存储一个新值都需要若干个指令,每次存储一个字。
如果在这些指令期间发出信号,则处理器可能发现 data.a 为 0 而
data.b 为 1,或者反之。另一方面,如果我们运行代码的机器能够在一个
不可中断的指令中存储一个对象的值,那么处理器将永远打印 0,0 或 1,1。
使用信号的另一个新增的困难是,只通过运行测试用例不能够确保代码没有信号 bug。这一困难的原因在于
信号生成本质上异步的。
假定信号处理器使用了不可重入的 gethostbyname 。这个函数
将它的值返回到一个静态对象中:
static struct hostent host; /* result stored here*/
|
它每次都重新使用同一个对象。在下面的例子中,如果信号刚好是在 main 中调用
gethostbyname 期间到达,或者甚至在调用之后到达,而程序仍然在使用那个值,则
它将破坏程序请求的值。
main(){ struct hostent *hostPtr; ... signal(SIGALRM, sig_handler); ... hostPtr = gethostbyname(hostNameOne); ... }
void sig_handler(){ struct hostent *hostPtr; ... /* call to gethostbyname may clobber the value stored during the call inside the main() */ hostPtr = gethostbyname(hostNameTwo); ... }
|
不过,如果程序不使用 gethostbyname 或者任何其他在同一对象中返回信息
的函数,或者如果它每次使用时都会阻塞信号,那么就是安全的。
很多库函数在固定的对象中返回值,总是使用同一对象,它们全都会导致相同的问题。如果某个函数使用并修改了
您提供的某个对象,那它可能就是不可重入的;如果两个调用使用同一对象,那么它们会相互干扰。
当使用流(stream)进行 I/O 时会出现类似的情况。假定信号处理器使用 fprintf
打印一条消息,而当信号发出时程序正在使用同一个流进行 fprintf 调用。
信号处理器的消息和程序的数据都会被破坏,因为两个调用操作了同一数据结构:流本身。
如果使用第三方程序库,事情会变得更为复杂,因为您永远不知道哪部分程序库是可重入的,哪部分是不可重入的。
对标准程序库而言,有很多程序库函数在固定的对象中返回值,总是重复使用同一对象,这就使得那些函数
不可重入。
近来很多提供商已经开始提供标准 C 程序库的可重入版本,这是一个好消息。对于任何给定程序库,您都应该通读它所提供
的文档,以了解其原型和标准库函数的用法是否有所变化。
理解这五条最好的经验将帮助您保持程序的可重入性。
返回指向静态数据的指针可能会导致函数不可重入。例如,将字符串转换为大写的
strToUpper 函数可能被实现如下:
char *strToUpper(char *str) { /*Returning pointer to static data makes it non-reentrant */ static char buffer[STRING_SIZE_LIMIT]; int index;
for (index = 0; str[index]; index++) buffer[index] = toupper(str[index]); buffer[index] = ' '; return buffer; }
|
通过修改函数的原型,您可以实现这个函数的可重入版本。下面的清单为输出准备了存储空间:
char *strToUpper_r(char *in_str, char *out_str) { int index;
for (index = 0; in_str[index] != ' '; index++) out_str[index] = toupper(in_str[index]); out_str[index] = ' ';
return out_str; }
|
由进行调用的函数准备输出存储空间确保了函数的可重入性。注意,这里遵循了标准惯例,通过向函数名添加“_r”后缀来
命名可重入函数。
记忆数据的状态会使函数不可重入。不同的线程可能会先后调用那个函数,并且修改那些数据时不会通知其他
正在使用此数据的线程。如果函数需要在一系列调用期间维持某些数据的状态,比如工作缓存或指针,那么
调用者应该提供此数据。
在下面的例子中,函数返回某个字符串的连续小写字母。字符串只是在第一次调用时给出,如
strtok 子例程。当搜索到字符串末尾时,函数返回
|