glibc代码学习(2)：strcpy源代码(2)-GFree

linux开发专注者(坚持原创)linuxfocus.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

GFree_Wind

博客访问： 8181338
博文数量： 159
博客积分： 10424
博客等级：少将
技术积分： 14615
用户组：普通用户
注册时间： 2010-07-14 12:45

个人简介

啦啦啦~~~

文章分类

全部博文（159）

编写安全无错代码（11）
Linux（66）

TCP/IP源码（39）

内核I/O（0）

应用编程（7）

netfilter源码学（8）

ULK学习笔记（0）

驱动学习（0）

内核启动（1）

内核杂项（5）

shell（1）
C/C++（17）

代码优化（0）

C99标准学习笔记（4）

编译与链接（3）

避免Bug(我犯的错（3）

有趣的问题（1）

代码重构（1）

代码风格（2）

基础概念（1）
开源代码学习（8）

netmap（0）

Linux命令源代码（0）

zeromq（5）

glibc源码学习（3）
调试技巧（8）
并行编程（1）
软件工程（4）

经验之谈（1）

设计模式（3）
数据结构与算法（11）

算法（7）

数据结构（4）
网络设备开发（0）
Networks（9）

学习笔记（1）
计算机体系结构（0）
代码分享（1）
Light TCP proxy（1）
资料（0）

2012系统架构师大（0）
函数式编程（3）

Haskell（3）
职业发展（6）

我的思考（1）

优秀书目（5）
转载（1）
数据库（1）

sqlite（1）
其它（11）

职场（2）

随笔（7）
未分配的博文（0）

文章存档

2015年（5）

2014年（1）

2013年（5）

2012年（10）

2011年（116）

2010年（22）

我的朋友

相关博文

glibc代码学习(2)：strcpy源代码(2)

分类： C/C++

2011-09-08 23:16:07

本文的copyleft归gfree.wind@gmail.com所有，使用GPL发布，可以自由拷贝，转载。但转载请保持文档的完整性，注明原作者及原链接，严禁用于任何商业用途。
作者：gfree.wind@gmail.com
博客：linuxfocus.blog.chinaunix.net

上一篇博文，发现glibc中的strcpy的效率居然比我写出的例子要差，这实在让我感到惊奇。下面看看为什么glibc中的实现，效率会低呢？让我们反汇编两个实现的代码

第一个strcpy，是我写的例子。

char* my_strcpy1(char *dest, const char *src)
{
char *d = dest;
register char c;
do {
c = *src++;
*d++ = c;
} while ('\0' != c);
return dest;
}
它对应的汇编代码如下：

Dump of assembler code for function my_strcpy1:
0x08048394 <+0>: push %ebp
0x08048395 <+1>: mov %esp,%ebp
0x08048397 <+3>: push %ebx
0x08048398 <+4>: sub $0x10,%esp
0x0804839b <+7>: mov 0x8(%ebp),%eax
0x0804839e <+10>: mov %eax,-0x8(%ebp)
0x080483a1 <+13>: mov 0xc(%ebp),%eax
0x080483a4 <+16>: movzbl (%eax),%ebx
0x080483a7 <+19>: addl $0x1,0xc(%ebp)
0x080483ab <+23>: mov -0x8(%ebp),%eax
0x080483ae <+26>: mov %bl,(%eax)
0x080483b0 <+28>: addl $0x1,-0x8(%ebp)
0x080483b4 <+32>: test %bl,%bl
0x080483b6 <+34>: jne 0x80483a1
0x080483b8 <+36>: mov 0x8(%ebp),%eax
0x080483bb <+39>: add $0x10,%esp
0x080483be <+42>: pop %ebx
0x080483bf <+43>: pop %ebp
0x080483c0 <+44>: ret
End of assembler dump.

红色部分的汇编代码为do {} while循环代码。

glibc中的strcpy的代码如下：

/* Copy SRC to DEST. */
char *
my_strcpy2 (dest, src)
char *dest;
const char *src;
{
register char c;
char * s = (char *)src;
const int off = dest - s - 1;
do
{
c = *s++;
s[off] = c;
}
while (c != '\0');
return dest;
}

对应的汇编代码如下：

Dump of assembler code for function my_strcpy2:
0x080483c1 <+0>: push %ebp
0x080483c2 <+1>: mov %esp,%ebp
0x080483c4 <+3>: push %ebx
0x080483c5 <+4>: sub $0x10,%esp
0x080483c8 <+7>: mov 0xc(%ebp),%eax
0x080483cb <+10>: mov %eax,-0xc(%ebp)
0x080483ce <+13>: mov 0x8(%ebp),%edx
0x080483d1 <+16>: mov -0xc(%ebp),%eax
0x080483d4 <+19>: mov %edx,%ecx
0x080483d6 <+21>: sub %eax,%ecx
0x080483d8 <+23>: mov %ecx,%eax
0x080483da <+25>: sub $0x1,%eax
0x080483dd <+28>: mov %eax,-0x8(%ebp)
0x080483e0 <+31>: mov -0xc(%ebp),%eax
0x080483e3 <+34>: movzbl (%eax),%ebx
0x080483e6 <+37>: addl $0x1,-0xc(%ebp)
0x080483ea <+41>: mov -0x8(%ebp),%eax
0x080483ed <+44>: add -0xc(%ebp),%eax
0x080483f0 <+47>: mov %bl,(%eax)
0x080483f2 <+49>: test %bl,%bl
0x080483f4 <+51>: jne 0x80483e0
0x080483f6 <+53>: mov 0x8(%ebp),%eax
0x080483f9 <+56>: add $0x10,%esp
0x080483fc <+59>: pop %ebx
0x080483fd <+60>: pop %ebp
0x080483fe <+61>: ret
End of assembler dump.

这里的红色部分同样是对应的do{}while循环代码。

两个实现对应的汇编代码基本相似，那么是否由循环前面的代码引起的呢。my_strcpy2使用了offset，所以多了一些mov和sub操作。我再次更改了代码，在my_strcpy2中不再计算offset。

#include <stdio.h>
#include <stdlib.h>
char* my_strcpy1(char *dest, const char *src)
{
char *d = dest;
register char c;
do {
c = *src++;
*d++ = c;
} while ('\0' != c);
return dest;
}
int off;
/* Copy SRC to DEST. */
char *
my_strcpy2 (dest, src)
char *dest;
const char *src;
{
register char c;
char * s = (char *)src;
do
{
c = *s++;
s[off] = c;
}
while (c != '\0');
return dest;
}
int main()
{
const char *str1 = "test1";
char buf[100];
off = buf-str1-1;
int i;
for (i = 0; i < 10000000; ++i) {
my_strcpy1(buf, str1);
}
return 0;
}

通过使用一个off的全局变量，来省得my_strcpy2的offset的计算。但是结果仍然是my_strcpy1效率跟高。

my_strcpy1的时间约为0.147s，而my_strcpy2的时间为0.220s。再次查看汇编

(gdb) disassemble my_strcpy1
Dump of assembler code for function my_strcpy1:
0x08048394 <+0>: push %ebp
0x08048395 <+1>: mov %esp,%ebp
0x08048397 <+3>: push %ebx
0x08048398 <+4>: sub $0x10,%esp
0x0804839b <+7>: mov 0x8(%ebp),%eax
0x0804839e <+10>: mov %eax,-0x8(%ebp)
0x080483a1 <+13>: mov 0xc(%ebp),%eax
0x080483a4 <+16>: movzbl (%eax),%ebx
0x080483a7 <+19>: addl $0x1,0xc(%ebp)
0x080483ab <+23>: mov -0x8(%ebp),%eax
0x080483ae <+26>: mov %bl,(%eax)
0x080483b0 <+28>: addl $0x1,-0x8(%ebp)
0x080483b4 <+32>: test %bl,%bl
0x080483b6 <+34>: jne 0x80483a1
0x080483b8 <+36>: mov 0x8(%ebp),%eax
0x080483bb <+39>: add $0x10,%esp
0x080483be <+42>: pop %ebx
0x080483bf <+43>: pop %ebp
0x080483c0 <+44>: ret
End of assembler dump.
(gdb) disassemble my_strcpy2
Dump of assembler code for function my_strcpy2:
0x080483c1 <+0>: push %ebp
0x080483c2 <+1>: mov %esp,%ebp
0x080483c4 <+3>: push %ebx
0x080483c5 <+4>: sub $0x10,%esp
0x080483c8 <+7>: mov 0xc(%ebp),%eax
0x080483cb <+10>: mov %eax,-0x8(%ebp)
0x080483ce <+13>: mov -0x8(%ebp),%eax
0x080483d1 <+16>: movzbl (%eax),%ebx
0x080483d4 <+19>: addl $0x1,-0x8(%ebp)
0x080483d8 <+23>: mov 0x80496bc,%eax
0x080483dd <+28>: add -0x8(%ebp),%eax
0x080483e0 <+31>: mov %bl,(%eax)
0x080483e2 <+33>: test %bl,%bl
0x080483e4 <+35>: jne 0x80483ce
0x080483e6 <+37>: mov 0x8(%ebp),%eax
0x080483e9 <+40>: add $0x10,%esp
0x080483ec <+43>: pop %ebx
0x080483ed <+44>: pop %ebp
0x080483ee <+45>: ret
End of assembler dump.

现在效率仍然有区别，那么看来还是循环处出的问题。时间又晚了，下次再继续研究。

阅读(7329) | 评论(10) | 转发(4) |

上一篇：glibc代码学习(1)：strcpy源代码(1)

下一篇：glibc代码学习(3)：strcpy源代码(3)

给主人留下些什么吧！~~

GFree_Wind2011-09-09 23:17:10

Rainyzzj: 期待答案。但是我很好奇，你是怎么测试的呢？直接用汇编写两句这样的做循环然后测试？还是怎么弄？.....

嵌入式汇编。将这两句嵌入到C中。

中秋要去旅游，博客会停5天哦。。。

回复 | 举报

Rainyzzj2011-09-09 16:37:54

GFree_Wind: 已经测试过了。不是这两句的问题。

而且这两句都有间接寻址，所以应该不是间接寻址的问题.....

期待答案。但是我很好奇，你是怎么测试的呢？直接用汇编写两句这样的做循环然后测试？还是怎么弄？

回复 | 举报

GFree_Wind2011-09-09 14:01:45

Rainyzzj: 关于汇编，我也算是忘记的差不多了，根据你的结论，我仔细的比较了一下循环中的汇编代码，发现，基本操作都是一样的。仔细对比操作数的时候，我发现这两行的差别.....

已经测试过了。不是这两句的问题。

而且这两句都有间接寻址，所以应该不是间接寻址的问题

回复 | 举报

GFree_Wind2011-09-09 11:52:57

你挺仔细的。我昨晚也对比了汇编代码，也发现了这两句不同。其它的代码基本上效率应该一样——除去cache的因素。

但是昨天晚了，就没有验证是否是这个不同导致的效率不同。addl的l并不是指低位，而是长度后缀，表示long。

一会儿我会验证一下这两条语句的效率的。

回复 | 举报

Rainyzzj2011-09-09 01:18:22

关于汇编，我也算是忘记的差不多了，根据你的结论，我仔细的比较了一下循环中的汇编代码，发现，基本操作都是一样的。仔细对比操作数的时候，我发现这两行的差别。
0x080483b0 <+28>: addl $0x1,-0x8(%ebp)

0x080483ed <+44>: add -0xc(%ebp),%eax
我不清楚addl是不是表示低位相加的意思，姑且看做和add是一样的。
对比两个操作数，发现addl的第一个操作数（$0x1）用的是立即数
而add的第一个操作数-0xc(%ebp)，我查了一下，ebp应该是个基址指针，也就是说需要访问内存，而且既然是个基址指针，肯定还会有偏移量。也就是需要访问两次内存（应该是两次吧，记不清了，至少一次。）访问内存和立即数比起来，肯定慢多了。
另外，如果addl是低地址相加，位数上会比所有位相加，来的少，效率上也会高一点。这一点我只是猜测，不能确定。
我的个人理解。你看看我说的对不对。不对的地方请指正。

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6