您的位置：首页 > 运维架构 > Linux

linux kernel中epoll的设计和实现

2014-09-05 09:28 741 查看

http://www.pagefault.info/?p=264

原创文章，转载请注明： 转载自pagefault

本文链接地址: linux kernel中epoll的设计和实现

这里就不贴源码了，源码分析的话，网上一大堆，我这里只是简要的描述下epoll的实现和一些关键的代码片段。

相关的文件在 fs/eventpoll.c中,我看的是2.6.38的内核代码.

1 epoll在创建的时候会调用anon_inode_getfd新建一个file instance，也就是epoll可以看成一个文件。因此我们可以看到epoll_create会返回一个fd.

2 epoll所管理的所有的句柄都是放在一个大的结构eventpoll(红黑树)中,而这个结构是保存在file 的private_data域中的(因为epoll本身就是一个文件).这样每次通过epoll fd就可以直接得到eventpoll.

3 每一个加入到epoll监听的句柄(也就是红黑树的一个节点)都是一个epitem.它包含了一个 struct eventpoll *ep，也就是它所属于的eventpoll(epoll实例).

4 在eventpoll中包含两个wait queue，一个是被epoll_wait使用的(wq)，一个是被file->poll使用的(poll_wait).这两个都是属于eventpoll.而在epitem也有一个wait queue(pwqlist)，这个queue是fd私有的wait queue，所以它是保存在epitem中的。

5 当我们添加一个句柄到一个epoll fd的时候，默认是会包含POLLERR和POLLHUP事件.并将epitem插入到红黑树中(eventpoll).然后会初始化一个poll_table,然后设置它的回调函数为ep_poll_callback，紧接着调用file->poll,如果是socket，则会调用tcp_poll,这个函数将会调用ep_poll_callback.

6 ep_poll_callback这个函数主要是绑定epitem的wait queue的回调为ep_poll_callback.也就是对应fd如果有事件，则就会调用ep_poll_callback。

7 epoll中保存了一个read list(rdllist)，所有的已经有通知事件的句柄，都会放到这个list中，而对应的操作就是在ep_poll_callback中，在ep_poll_callback中主要就是由wait queue指针来取得对应的epitem，然后再取得eventpoll，并将这个epitem加入到ready list，唤醒epoll_wait(wq).这里可以看到由于一个句柄只会对应一个epitem，所以在rdllist中，也不会有重复的epitem，在ep_poll_callback会判断是否rdllist中是否已经包含了将要插入的epitem，如果包含，则直接返回.

8 当系统调用epoll_wait,如果ready list(rdllist)为空，则休眠等待被唤醒。当被唤醒之后(第7条),将rdllist复制(指针)到一个新的list(主要是针对LT),然后调用ep_send_events_proc对这个新的list进行遍历(对应的会从rdllist中删除这个epitem).遍历完毕后，最终会返回给用户对应的数据.

9 LT和ET的区别是在ep_send_events_proc中处理的，如果是LT，不但会将对应的数据返回给用户，并且会将当前的epitem再次加入到rdllist中。这样子，如果下次再次被唤醒就会给用户空间再次返回事件.

10 eventpol还有一个list，叫做ovflist，主要是解决当内核在传输数据给用户空间(ep_send_events_proc)时的锁(eventpoll->mtx)，此时epoll就是将这个时候传递上来的事件保存到ovflist中。

11 当从ep_send_events_proc返回(ep_scan_ready_list)后，会遍历ovflist，然后将ready的epitem保存到rdllist,以便与下次再次被唤醒时进行操作.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航