QZ--Linux网络IO复用机制：select poll epool的比较-chinaltang-ChinaUnix博客

现实从这里启程！

首页　| 　博文目录　| 　关于我

chinaltang

博客访问： 551122
博文数量： 102
博客积分： 3165
博客等级：中校
技术积分： 1232
用户组：普通用户
注册时间： 2009-05-09 16:38

文章分类

全部博文（102）

C/C++（5）
Linux技术（2）
搜索引擎（1）
网络通信（23）

TCP/IP详解卷1.协（16）
嵌入式系统（18）

vxWorks系统开发（3）

C语言高级编程（13）
算法与数据结构（1）
大数据（0）
分布式计算（0）
Python（0）
JAVA（1）

JVM相关（1）
开源学习（6）
无线通信（6）
职业生涯（17）

规划，人生，感悟（4）

减肥！开始！（2）

Everyday at Wind（8）
未分配的博文（22）

文章存档

2016年（1）

2013年（14）

2012年（6）

2011年（22）

2010年（57）

2009年（2）

我的朋友

相关博文

QZ--Linux网络IO复用机制：select poll epool的比较

分类： LINUX

2013-08-30 00:55:32

1 三种机制主要API
1.1 select （简略）

int select (int maxfdp1,fd_set *readset,fd_set *writeset, fd_set *exceptset,const struct timeval * timeout); //blocked some events occur， return -1 means error，0 means timeout， n means the num of fd with events occuring.

void FD_ZERO (fd_set *et); // clear all bits in fdset

void FD_SET (int fd,fd_set *fdset); // turn on the bit for fd in fdset

void FD_CLR (int fd,fd_set *fdset); // turn off the bit for fd in fdset

int(int fd,fd_set *fdset); // is the bit for fd on in fdset

1.2 poll （简略）

struct pollfd {

int fd; /**/

short events; /* 等待的需要测试事件 */

short revents; /* 实际发生了的事件，也就是返回结果 */

};

int poll(struct pollfd fds[], nfds_t nfds, int timeout)； //nfds: the length/count of the array of fds. The return value is same with select.

1.3 epoll （详细）

int epoll_create(int size);

创建一个epoll的句柄，size用来告诉内核这个监听的数目一共有多大。这个参数不同于select()中的第一个参数，给出最大监听的fd+1的值。需要注意的是，当创建好epoll句柄后，它就是会占用一个fd值，在linux下如果查看/proc/进程id /fd/，是能够看到这个fd的，所以在使用完epoll后，必须调用close()关闭，否则可能导致fd被耗尽。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll的事件注册函数，它不同与select()是在监听事件时告诉要监听什么类型的事件，而是在这里先注册要监听的事件类型。第一个参数是epoll_create()的返回值，第二个参数表示动作，用三个宏来表示：

EPOLL_CTL_ADD：注册新的fd到epfd中；

EPOLL_CTL_MOD：修改已经注册的fd的监听事件；

EPOLL_CTL_DEL：从epfd中删除一个fd；

第三个参数是需要监听的fd，第四个参数是告诉内核需要监听什么事，struct epoll_event结构如下：

struct epoll_event {

__uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

events可以是以下几个宏的集合：

EPOLLIN ：表示对应的可以读（包括对端SOCKET正常关闭）；

EPOLLOUT：表示对应的可以写；

EPOLLPRI：表示对应的有紧急的数据可读（这里应该表示有到来）；

EPOLLERR：表示对应的发生错误；

EPOLLHUP：表示对应的被挂断；

EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。

EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里。

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

等待事件的产生，类似于select()调用。参数events用来从得到事件的集合，maxevents告之内核这个events有多大，这个maxevents的值不能大于创建epoll_create()时的size，参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）。该函数返回需要处理的事件数目，如返回0表示已超时。

2 select，poll，epoll对比简单结论

epoll与selec、poll的实现机制上有着根本的不同，使用方式上也差别很大。select和poll都是主动轮询机制，需要遍历每一个描述符。epoll是被动触发方式，基于每个描述的callback机制实现。另外epoll通过mmap在内核和用户空间共享同一块内存，而poll和select机制需要内核及用户空间之间的拷贝动作来传递消息。因此，一般网络应用情况下（大量链接描述符，但仅有少部分活跃）epoll比poll和select性能上有着质的提升，select和poll需要遍历每一个描述符，性能是线性下降的。而epoll机制只有活跃的描述符才会通过callback有相应的触发。但特殊情况下（监听的描述符很少，且都很活跃），这时select和poll效率要更高，因为epoll多层函数回调的成本会显得比较高，而且所有活跃描述符都会进行callback。补充说明：三种机制的核心都是通过相应描述符的等待进程队列来实现的，只不过等待队列的唤醒机制不同，一个主动轮询、一个被动触发。另外，在发生event的描述符鉴别上，select和poll只知道有几个描述发生了事件，但不知道是具体哪几个仍需要，for（n_all）通过判断标志位来找出具体哪几个有事件发生。而epoll会直接返回相应数目的发生事件的描述符for（n_occured）。这里可见select和poll不仅在内核实现中需要定时轮询遍历所有描述符对应设备，而且用户应用程序设计中，也需要遍历整个描述符集合找出相应的若干个发生事件的描述。

时间发生后处理流程对比：
select直到找到n个后退出循环，实际循环次数可能远大于n。（或者干脆循环num of fd次）

int n = select(&readset,NULL,NULL,100);

for (int i = 0; n > 0; ++i)
{
   if (FD_ISSET(fdarray[i], &readset))
   {
      do_something(fdarray[i]);
      --n;
   }
}

epoll直接对n个发生事件的描述符做出处理
n=epoll_wait(epfd,events,20,500);
for(i=0;i
{
do_something(events[n]);
}

3 select，poll，epoll详细对比
3.1 基本实现

select

select本质上是通过设置或者检查存放fd标志位的数据结构来进行下一步处理。这样所带来的缺点是：

1 单个进程可监视的fd数量被限制

2 需要维护一个用来存放大量fd的数据结构，这样会使得用户空间和内核空间在传递该结构时复制开销大

3 对socket进行扫描时是线性扫描

poll

poll 本质上和select没有区别，它将用户传入的数组拷贝到内核空间，然后查询每个fd对应的设备状态，如果设备就绪则在设备等待队列中加入一项并继续遍历，如果遍历完所有fd后没有发现就绪设备，则挂起当前进程，直到设备就绪或者主动超时，被唤醒后它又要再次遍历fd。这个过程经历了多次无谓的遍历。

它没有最大连接数的限制，原因是它是基于链表来存储的，但是同样有一个缺点：大量的fd的数组被整体复制于用户态和内核地址空间之间，而不管这样的复制是不是有意义。

poll还有一个特点是“水平触发”，如果报告了fd后，没有被处理，那么下次poll时会再次报告该fd。

epoll

epoll支持水平触发和边缘触发，最大的特点在于边缘触发，它只告诉进程哪些fd刚刚变为就需态，并且只会通知一次。

在前面说到的复制问题上，epoll使用mmap减少复制开销。

还有一个特点是，epoll使用“事件”的就绪通知方式，通过epoll_ctl注册fd，一旦该fd就绪，内核就会采用类似callback的回调机制来激活该fd，epoll_wait便可以收到通知

3.2 支持一个进程所能打开的最大连接数

select	单个进程所能打开的最大连接数有FD_SETSIZE宏定义，其大小是32个整数的大小（在32位的机器上，大小就是3232，同理64位机器上 FD_SETSIZE为3264），当然我们可以对它进行修改，然后重新编译内核，但是性能可能会受到影响，这需要进一步的测试。
poll	poll本质上和select没有区别，但是它没有最大连接数的限制，原因是它是基于链表来存储的
epoll	虽然连接数有上限，但是很大，1G内存的机器上可以打开10万左右的连接，2G内存的机器可以打开20万左右的连接。

3.3 FD剧增后带来的IO效率问题

select	因为每次调用时都会对连接进行线性遍历，所以随着FD的增加会造成遍历速度慢的“线性下降性能问题”。
poll	同上
epoll	因为epoll内核中实现是根据每个fd上的callback函数来实现的，只有活跃的socket才会主动调用callback，所以在活跃socket 较少的情况下，使用epoll没有前面两者的线性下降的性能问题，但是所有socket都很活跃的情况下，可能会有性能问题。

3.4 消息传递方式

select	内核需要将消息传递到用户空间，都需要内核拷贝动作
poll	同上
epoll	epoll通过内核和用户空间共享一块内存来实现的

4 参考内容
http://xingyunbaijunwei.blog.163.com/blog/static/76538067201241685556302/

http://blog.163.com/ma95221@126/blog/static/24822102201172515030855/

http://blog.csdn.net/tianmohust/article/details/6677985
http://blog.csdn.net/zhaozhanyong/article/details/5410887
http://blog.csdn.net/hairetz/article/details/6337817
http://blog.csdn.net/hairetz/article/details/6337817

阅读(3501) | 评论(0) | 转发(1) |

上一篇：Tomcat与java编译版本兼容性问题的解决

下一篇：QZ-常用算法与数据结构概述

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6