splice系列系统调用-xiaosuo-ChinaUnix博客

Free Gentuxxiaosuo.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

xiaosuo

博客访问： 2054297
博文数量： 369
博客积分： 10093
博客等级：上将
技术积分： 4271
用户组：普通用户
注册时间： 2005-03-21 00:59

文章分类

全部博文（369）

八卦新闻（8）
源码阅读（8）
系统管理（32）
内核编程（38）
程序设计（95）
Who am I ?（188）
未分配的博文（0）

文章存档

2013年（1）

2011年（2）

2010年（10）

2009年（16）

2008年（33）

2007年（146）

2006年（160）

2005年（1）

我的朋友

相关博文

splice系列系统调用

分类： LINUX

2008-03-10 21:47:46

关注splice系列系统调用（包括splice，tee和vmsplice）已经有一段时间了，开始的时候并未能领会splice的意义所在，致使得出了“splice系列系统调用不怎么实用”的错误结论。随着内核研究的深入，才逐渐懂得：splice对于其中一个文件描述符必须是管道的要求并不是阻碍其应用的障碍，并且恰恰相反，它正是splice的本质所在。

splice主要通过去除在内核空间和用户空间之间的内存拷贝的开销来提高系统的性能。它将内核空间和用户空间之间的内存拷贝转变成内核空间和内核空间的内存的拷贝，这样的话，内核就有机会通过底层的一些机制来避免非必要的拷贝，如通过页面的引用来替换拷贝内存页面。这就引出一个问题：内核空间的缓冲区如何在用户空间表示？恰巧管道符合这个要求，所以就“勉强”让它来担此重任了。因此，当管道被用来做splice的时候，它队列的概念就被弱化了，这时它代表的就是内核空间的内存缓冲区。因此有了以下几种对应关系：

splice(infd,... pipe,...)：从由infd指向的文件读取数据到由pipe指向的内核缓冲区。
splice(pipe,... outfd,...)：把由pipe指向的内核缓冲区中的数据写到由oufd指向的文件。
tee(inpipe, outpipe,...)：从由inpipe指向的内核缓冲区“拷贝”数据到由outpipe指向的内核缓冲区。
vmsplice(rdpipe, iov...)：从由rdpipe（pipe的读端）指向的内核缓冲区“拷贝”数据到由iov表示的用户缓冲区。
vmsplice(wrpipe, iov...)：从由iov表示的用户缓冲区“拷贝”数据到由wrpipe（pipe的写端）指向的内核缓冲区。

可见，splice, tee和vmsplice涵盖了在用户空间控制内核缓冲区的全部情况。应该说，已经很完美了。

不过请稍等一下，如果有需要在两个文件之间“拷贝”数据呢？也许我们不得不这样：

splice(fd, ...pipe, ...)
splice(pipe, ...fd, ...)

真的有必要进行两次系统调用么？事实上两次调用可以合而为一，只在内核内部进行上述操作就行了，因为splice原本就只有在文件和内核缓冲区之间移动数据的意思，并且在两个文件描述符之间移动数据的API原本就有：sendfile。但是，用sendfile也不是尽善尽美的，sendfile多少有些词不达意，我想这也可能是它在2.6.9之后就只能用于通过socket接口发送支持mmap系统调用的文件的原因之一。

有了sendfile的加入，这个世界又朝着完美更近了一步。

我们经常听到的一句话就是：前途是美好的，道路是曲折的。

之于splice系列系统调用的实现，这也是成立的，前进的道路上难免会由一些困难和反复，因为这个世界是如此的复杂。

splice系列系统调用首次亮相于2.6.17版内核，直到现在，其实现离完美还有很大一段距离，还有一些问题：

splice的套接字读实现存在潜在的数据污染(data corruption)。
vmsplice当标志位SPLICE_F_GIFT被设置的时候，其内存地址和大小必须是按页对齐的，缺乏灵活性。这导致不能发送非整页的数据，即使以mmap, splice, munmap的顺序组织系统调用也不可以。
sendfile系统调用因为把数据的移动过程在内部分成了从输入文件读取数据到pipe的内核缓冲和从pipe的内核缓冲写数据到输出文件两步，并且两步因为其实现的缘故，必须在原子操作内完成，所以，输出操作必须是阻塞的，极大地限制了其灵活性。

祝splice系列系统调的实现能尽快完美！

阅读(6469) | 评论(7) | 转发(0) |

上一篇：Linux内核近期进展杂谈

下一篇：相对时间

给主人留下些什么吧！~~

xiaosuo2011-03-19 15:25:28

修正对sendfile的描述，kernel相关代码的注释是错误的，splice的目标fd如果是非阻塞的，不会有block发生。sendfile(2)仍然只允许普通文件和块设备文件作为输入，所以kernel里面的splice(pipe, fd)允许输出比splice(fd, pipe)少的数据，数据不会丢失，因为普通文件和块设备文件一般允许seek。至于splice(2)的SPLICE_F_NONBLOCK，那是给pipe用的，奇怪的是为什么不用pipe自身的O_NONBLOCK标志呢。

回复 | 举报

xiaosuo2009-12-23 20:02:09

sendfile(2)就是。

回复 | 举报

chinaunix网友2009-12-23 13:02:53

可以这么理解么？如果能从pipe到pipe，是否也能从sockfd到sockfd？

回复 | 举报

xiaosuo2009-09-28 17:09:08

man splice得到： #define _GNU_SOURCE #include long splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

回复 | 举报

bigplum2009-09-25 17:26:42

博主，请教一下splice这个调用是在那个头文件里定义的？我用的debian4在/usr/include下找不到这个函数，内核是2.6.24-etchnhalf.1-686

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6