首页 > 代码库 > 【Nginx】epoll事件驱动模块
【Nginx】epoll事件驱动模块
Linux 2.4版本的内核之前,Nginx的事件驱动方式是使用的poll、select函数。进程需要等待连接上有事件发生(收到数据)时,需要把所有连接都告诉内核,由内核找出哪些连接上有事件发生。由于需要把大量连接从用户空间拷贝到内核空间,所以开销巨大,因此,使用poll、select事件驱动方式,最大并发数量只能达到几千。Linux 2.6版本之后添加了epoll函数接口,使得最大并发数量可以达到百万级。epoll的用法如下:
- 调用epoll_create建立一个epoll对象。
- 调用epoll_ctl向epoll对象中添加连接套接字。
- 调用epoll_wait收集发生事件的连接。
这样便消除了向内核传递连接和内核遍历连接等耗时的操作。
epoll_create方法创建一个epoll对象,在内存中表现为创建一个evetpoll结构体,该结构体中有两个重要的成员:
- struct rb_root rbr; // 一棵红黑树,保存所有通过epoll_ctl添加进来的需要监控的事件
- struct list_head rdllist; // 一个双向链表,保存将要通过epoll_wait返回的、满足条件的事件
由于所有的事件都挂在了一棵红黑树上,所以对事件的搜索效率是很高的。epoll中的每一个事件对应一个epitem结构体,包含事件对应的信息。上述几个成员的关系如下图所示:
读过Linux内核的应该不难理解上述结构,epitem的rdllink、rbn成员分别作为双向链表rdllist和红黑树rbr中的“代理”,使得epitem既能够存在与双向链表中,又能够保存在红黑树中。当有事件就绪时,rdllist不为空,并通过epoll_wait函数将该链表返回用户空间。
下面来分析在Linux中使用的事件驱动模块ngx_epoll_module。首先是决定解析哪些配置项的ngx_command_t结构体数组:
typedef struct { ngx_uint_t events; /* epoll_wait的参数3:一次最多可以返回的事件数 */ ngx_uint_t aio_requests; } ngx_epoll_conf_t; static ngx_command_t ngx_epoll_commands[] = { /* epoll_wait系统调用一次最多可以返回的事件数 */ { ngx_string("epoll_events"), NGX_EVENT_CONF|NGX_CONF_TAKE1, ngx_conf_set_num_slot, /* 预定义方法解析配置项 */ 0, offsetof(ngx_epoll_conf_t, events), NULL }, /* 异步I/O相关 */ { ngx_string("worker_aio_requests"), NGX_EVENT_CONF|NGX_CONF_TAKE1, ngx_conf_set_num_slot, /* 预定义方法解析配置项 */ 0, offsetof(ngx_epoll_conf_t, aio_requests), NULL }, ngx_null_command };
从上面的代码可以看出,每一个配置项在存储配置项的结构体ngx_epoll_conf_t中都有对应的成员。
接下来是事件模块通用接口ngx_event_module_t。ngx_epoll_module的通用接口定义如下:
static ngx_str_t epoll_name = ngx_string("epoll"); ngx_event_module_t ngx_epoll_module_ctx = { &epoll_name, /* "epoll" */ ngx_epoll_create_conf, /* 创建存储配置项的结构体 */ ngx_epoll_init_conf, /* 解析完配置项后调用的函数 */ /* ngx_event_actions_t */ { ngx_epoll_add_event, /* add an event */ ngx_epoll_del_event, /* delete an event */ ngx_epoll_add_event, /* enable an event */ ngx_epoll_del_event, /* disable an event */ ngx_epoll_add_connection, /* add an connection */ ngx_epoll_del_connection, /* delete an connection */ NULL, /* process the changes */ ngx_epoll_process_events, /* process the events */ ngx_epoll_init, /* init the events */ ngx_epoll_done, /* done the events */ } };
ngx_epoll_init方法在Nginx启动过程中的ngx_event_core_module模块中被调用(参见“ngx_event_core_module模块”),它主要完成两个工作:
- 调用epoll_create创建epoll对象。
- 创建event_list数组接收从内核传过来的事件。
此方法的代码如下:
static int ep = -1; // epoll对象描述符 static struct epoll_event *event_list; // 作为epoll_wait的参数,接收从内核传过来的事件 static ngx_uint_t nevents; // 能够返回的事件最大数目,同时也是event_list数组大小 /* 在ngx_event_core_module中调用,主要完成两件事情: * 1、调用epoll_create方法创建epoll对象 * 2、创建event_list数组用于从内核接收发生的事件 */ static ngx_int_t ngx_epoll_init(ngx_cycle_t *cycle, ngx_msec_t timer) { ngx_epoll_conf_t *epcf; /* 获取存储配置项的结构体 */ epcf = ngx_event_get_conf(cycle->conf_ctx, ngx_epoll_module); if (ep == -1) { /* 系统调用创建epoll对象,参数表示需要处理的事件的大致数目 * Linux内核中不处理这个参数 */ ep = epoll_create(cycle->connection_n / 2); #if (NGX_HAVE_FILE_AIO) /* 异步I/O相关 */ ngx_epoll_aio_init(cycle, epcf); #endif } if (nevents < epcf->events) { if (event_list) { ngx_free(event_list); } /* 初始化event_list数组,数组大小是配置项epoll_events的参数 */ event_list = ngx_alloc(sizeof(struct epoll_event) * epcf->events, cycle->log); } /* nevents同样是epoll_events配置项的参数 */ nevents = epcf->events; /* 指明读写I/O的方法 */ ngx_io = ngx_os_io; /* ngx_event_actions是个全局的ngx_event_actions_t结构体 * 用于存储事件模块的10个函数接口 */ ngx_event_actions = ngx_epoll_module_ctx.actions; #if (NGX_HAVE_CLEAR_EVENT) ngx_event_flags = NGX_USE_CLEAR_EVENT // 使用epoll的边缘触发模式 #else ngx_event_flags = NGX_USE_LEVEL_EVENT // 使用epoll的水平触发模式 #endif |NGX_USE_GREEDY_EVENT |NGX_USE_EPOLL_EVENT; return NGX_OK; }
与ngx_epoll_init相反的函数是ngx_epoll_done。它在Nginx退出服务时被调用,主要工作是关闭epoll描述符并释放event_list数组。
接下来分析ngx_epoll_add_event方法,它的主要任务是调用epoll_ctl方法将事件添加到epoll对象中,代码如下:
/* 把一个感兴趣的事件添加到epoll中 */ static ngx_int_t ngx_epoll_add_event(ngx_event_t *ev, ngx_int_t event, ngx_uint_t flags) { int op; uint32_t events, prev; ngx_event_t *e; ngx_connection_t *c; struct epoll_event ee; /* 每个事件的data成员都存放着其对应的ngx_connection_t连接 */ c = ev->data; /* events代表事件类型,在下面设置 */ events = (uint32_t) event; if (event == NGX_READ_EVENT) { /* 写事件 */ e = c->write; prev = EPOLLOUT; #if (NGX_READ_EVENT != EPOLLIN|EPOLLRDHUP) events = EPOLLIN|EPOLLRDHUP; #endif } else { /* 读事件 */ e = c->read; prev = EPOLLIN|EPOLLRDHUP; #if (NGX_WRITE_EVENT != EPOLLOUT) events = EPOLLOUT; #endif } /* 根据是否为活跃事件确定是修改还是添加事件 */ if (e->active) { op = EPOLL_CTL_MOD; /* 修改epoll中的事件 */ events |= prev; } else { op = EPOLL_CTL_ADD; /* 添加新事件到epoll中 */ } /* 设置事件类型 */ ee.events = events | (uint32_t) flags; /* data的ptr成员指向一个连接,同时把最低位设置为instance标志,事件分发程序将这个标志提取出来 */ ee.data.ptr = (void *) ((uintptr_t) c | ev->instance); /* 调用epoll_ctl方法添加或修改事件 * 参数1:epoll对象描述符 * 参数2:表示要执行的操作 * EPOLL_CTL_ADD:添加新事件到epoll中 * EPOLL_CTL_MOD:修改epoll中的事件 * EPOLL_CTL_DEL:删除epoll中的事件 * 参数3:待监听的连接套接字 * 参数4:描述事件的结构体epoll_event */ if (epoll_ctl(ep, op, c->fd, &ee) == -1) { ngx_log_error(NGX_LOG_ALERT, ev->log, ngx_errno, "epoll_ctl(%d, %d) failed", op, c->fd); return NGX_ERROR; } /* 修改active标志,表示当前事件是活跃的 */ ev->active = 1; return NGX_OK; }
该函数所做的工作基本上都是在设置epoll_ctl所需的参数,然后调用epoll_ctl向epoll对象中添加感兴趣的事件。
同理,其它几个方法:ngx_epoll_del_event、ngx_epoll_add_connection、ngx_epoll_del_connection都是使用epoll_ctl函数对epoll对象进行修改。
ngx_event_actions_t中最后一个函数也是最重要的一个函数ngx_epoll_process_events用于收集、分发事件,可以说是整个epoll事件模块的核心方法了,它的代码如下:
/* 收集、分发事件 */ static ngx_int_t ngx_epoll_process_events(ngx_cycle_t *cycle, ngx_msec_t timer, ngx_uint_t flags) { int events; uint32_t revents; ngx_int_t instance, i; ngx_uint_t level; ngx_err_t err; ngx_event_t *rev, *wev, **queue; ngx_connection_t *c; /* NGX_TIMER_INFINITE == INFTIM */ /* 等待获取事件,最长等待时间为timer以保证时间能够得到更新 * 参数1:epoll对象描述符 * 参数2:保存返回的就绪事件数组 * 参数3:可以返回的最大事件数目 * 参数4:最长等待时间 * 返回值:就绪事件个数 */ events = epoll_wait(ep, event_list, (int) nevents, timer); err = (events == -1) ? ngx_errno : 0; if (flags & NGX_UPDATE_TIME || ngx_event_timer_alarm) { ngx_time_update(); /* 更新时间 */ } .... if (events == 0) { if (timer != NGX_TIMER_INFINITE) { return NGX_OK; } return NGX_ERROR; } ngx_mutex_lock(ngx_posted_events_mutex); /* 遍历本次返回的所有事件 */ for (i = 0; i < events; i++) { c = event_list[i].data.ptr; /* ptr指向事件对应的连接 */ /* 提取出instance标志 */ instance = (uintptr_t) c & 1; /* 屏蔽最后一位计算出真正的连接对象的地址 */ c = (ngx_connection_t *) ((uintptr_t) c & (uintptr_t) ~1); /* 取出读事件 */ rev = c->read; /* 判断这个读事件是否过期 */ if (c->fd == -1 || rev->instance != instance) continue; /* 以过期,不处理 */ /* 获得事件类型 */ revents = event_list[i].events; .... /* 如果是读事件且该事件是活跃的 */ if ((revents & EPOLLIN) && rev->active) { .... /* 延后处理这批事件 */ if (flags & NGX_POST_EVENTS) { /* 根据是新连接事件还是普通事件选择不同的队列 */ queue = (ngx_event_t **) (rev->accept ? &ngx_posted_accept_events : &ngx_posted_events); /* 将事件添加到延后执行队列中 */ ngx_locked_post_event(rev, queue); } else { rev->handler(rev); /* 不需要延后,则立即处理事件 */ } } /* 取出写事件 */ wev = c->write; if ((revents & EPOLLOUT) && wev->active) { /* 判断是否过期 */ if (c->fd == -1 || wev->instance != instance) continue; .... if (flags & NGX_POST_EVENTS) { /* 将写事件添加到延后处理队列 */ ngx_locked_post_event(wev, &ngx_posted_events); } else { wev->handler(wev); /* 立即处理这个事件 */ } } } ngx_mutex_unlock(ngx_posted_events_mutex); return NGX_OK; }
上述代码调用epoll_wait函数收集就绪事件,然后调用事件对应的处理方法ngx_event_t.handler对事件进行处理,也就是分发事件。
参考:
《深入理解Nginx》 P310-P323.
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。