select每个程序员都应该懂得技术 来源本人公众号【技术原理君】作者:源理君熟悉Linux环境程式设计的程序员们应该对select系统呼叫了如指掌吧,因为它的功能比较强大,可以用来定时,等等。可你们是否想过它的实现原理?这篇文章就来聊聊它的实现原理。
首先按照惯例,简单的讲述下select使用方法。
select是用来多个档案控制代码的状态变化。程式会阻塞在select等待,直到的控制代码有一个或者多个状态发生变化。函式的原型如下:
int select (int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
函式宣告中的引数就不一一解释了,预设你们都是烂熟于心了。典型的用法如下(网络接收资料,并写入档案):
main()
{
int sock; int fd;
fd_set fds;
struct timeval timeout={0,3}; //select等待3微秒,3微秒轮询,要非阻塞就置0
char buffer[256]={0}; //256字节的接收缓冲区
/* 假定已经建立UDP连线,具体过程不写,简单,当然TCP也同理,主机ip和port都已经给定,要写的档案已经开启
sock=socket(...);
bind(...);
fd=open(...); */
while⑴
{
FD_ZERO(&fds); //每次循环都要清空集合,否则不能检测描述符变化
FD_SET(sock,&fds); //新增描述符
FD_SET(fd,&fds); //同上
timeout.tv_sec=3;
timeout.tv_usec=0;//select函式会不断修改timeout的值,所以每次循环都应该重新赋值[windows不受此影响]
maxfdp=sock>fd?sock+1:fd+1; //描述符最大值加1
switch(select(maxfdp,&fds,&fds,NULL,&timeout)) //select使用
{
case -1: exit(-1);break; //select错误,退出程式
case 0:break; //再次轮询
default:
if(FD_ISSET(sock,&fds)) //测试sock是否可读,即是否网络上有资料
{
recvfrom(sock,buffer,256,.....);//接受网络资料
if(FD_ISSET(fd,&fds)) //测试档案是否可写
write(fd,buffer...);//写入档案
buffer清空;
}// end if break;
}// end switch
}//end while
}//end main
由于文章重点是在于原理,所以具体解释参考程式码注释。下面进入原理正题。
原理select在装置中需要驱动程式的支援,也就是说需要实现fops中的select()界面。select通过装置档案对应的poll()提供的资讯判断当前是否可读可写,如果有的话返回档案描述符,否则睡眠。等待再次被唤醒。下面就来分析下select的两个过程:1.select的睡眠过程
我们都知道支援阻塞操作的装置驱动通常会实现一组自身的等待伫列如读/写等待伫列用于支援上层(使用者层)所需的BLOCK或NONBLOCK操作。当应用程序通过装置驱动访问该装置时(预设为BLOCK操作),若该装置当前没有资料可读或写,则将该使用者程序插入到该装置驱动对应的读/写等待伫列让其睡眠一段时间,等到有资料可读/写时再将该程序唤醒。
select就是巧妙的利用等待伫列机制让使用者程序适当在没有资源可读/写时睡眠,有资源可读/写时唤醒。下面我们看看select睡眠的详细过程。
select会循环遍历它所监测的fd_set(一组档案描述符(fd)的集合)内的所有档案描述符对应的驱动程式的poll函式。驱动程式提供的poll函式首先会将呼叫select的使用者程序插入到该装置驱动对应资源的等待伫列(如读/写等待伫列),然后返回一个bitmask告诉select当前资源哪些可用。当select循环遍历完所有fd_set内指定的档案描述符对应的poll函式后,如果没有一个资源可用(即没有一个档案可供操作),则select让该程序睡眠,一直等到有资源可用为止,程序被唤醒(或者timeout)继续往下执行。
select内部实现顺序:sys_select -> core_sys_select -> do_select,主要的工作由do_select完成,我们来分析下,下面程式码:
int do_select(int n, fd_set_bits *fds, s64 *timeout)
{
struct poll_wqueues table;
poll_table *wait;
int retval, i;
rcu_read_lock();
retval = max_select_fd(n, fds);
rcu_read_unlock();
if (retval
return retval;
n = retval;
poll_initwait(&table);
wait = &table.pt;
if (!*timeout)
wait = NULL;
retval = 0; //retval用于储存已经准备好的描述符数,初始为0
for (;;) {
unsigned long *rinp, *routp, *rexp, *inp, *outp, *exp;
long __timeout;
set_current_state(TASK_INTERRUPTIBLE); //将当前程序状态改为TASK_INTERRUPTIBLE
inp = fds->in; outp = fds->out; exp = fds->ex;
rinp = fds->res_in; routp = fds->res_out; rexp = fds->res_ex;
for (i = 0; i 遍历每个描述符
unsigned long in, out, ex, all_bits, bit = 1, mask, j;
unsigned long res_in = 0, res_out = 0, res_ex = 0;
const struct file_operations *f_op = NULL;
struct file *file = NULL;
in = *inp++; out = *outp++; ex = *exp++;
all_bits = in out ex;
if (all_bits == 0) {
i += __NFDBITS; // //如果这个字没有待查询的描述符, 跳过这个长字(32位)
continue;
}
for (j = 0; j 遍历每个长字里的每个位
int fput_needed;
if (i >= n)
break;
if (!(bit & all_bits))
continue;
file = fget_light(i, &fput_needed);
if (file) {
f_op = file->f_op;
MARK(fs_select, %d %lld,
i, (long long)*timeout);
mask = DEFAULT_POLLMASK;
if (f_op && f_op->poll)
/* 在这里循环呼叫所监测的fd_set内的所有档案描述符对应的驱动程式的poll函式 */
mask = (*f_op->poll)(file, retval ? NULL : wait);
fput_light(file, fput_needed);
if ((mask & POLLIN_SET) && (in & bit)) {
res_in = bit; //如果是这个描述符可读, 将这个位置位
retval++; //返回描述符个数加1
}
if ((mask & POLLOUT_SET) && (out & bit)) {
res_out = bit;
retval++;
}
if ((mask & POLLEX_SET) && (ex & bit)) {
res_ex = bit;
retval++;
}
}
cond_resched();
}
//返回结果
if (res_in)
*rinp = res_in;
if (res_out)
*routp = res_out;
if (res_ex)
*rexp = res_ex;
}
wait = NULL;
/* 到这里遍历结束。retval储存了检测到的可操作的档案描述符的个数。如果有档案可操作,则跳出for(;;)循环,直接返回。若没有档案可操作且timeout时间未到同时没有收到signal,则执行schedule_timeout睡眠。睡眠时间长短由__timeout决定,一直等到该程序被唤醒。
那该程序是如何被唤醒的?被谁唤醒的呢?
我们看下面的select唤醒过程*/
if (retval !*timeout signal_pending(current))
break;
if(table.error) {
retval = table.error;
break;
}
if (*timeout
/* Wait indefinitely */
__timeout = MAX_SCHEDULE_TIMEOUT;
} else if (unlikely(*timeout >= (s64)MAX_SCHEDULE_TIMEOUT - 1)) {
/* Wait for longer than MAX_SCHEDULE_TIMEOUT. Do it in a loop */
__timeout = MAX_SCHEDULE_TIMEOUT - 1;
*timeout -= __timeout;
} else {
__timeout = *timeout;
*timeout = 0;
}
__timeout = schedule_timeout(__timeout);
if (*timeout >= 0)
*timeout += __timeout;
}
__set_current_state(TASK_RUNNING);
poll_freewait(&table);
return retval;
}
2.select的唤醒过程
前面介绍了select会循环遍历它所监测的fd_set内的所有档案描述符对应的驱动程式的poll函式。驱动程式提供的poll函式首先会将呼叫select的使用者程序插入到该装置驱动对应资源的等待伫列(如读/写等待伫列),然后返回一个bitmask告诉select当前资源哪些可用。
一个典型的驱动程式poll函式实现如下
//(摘自《Linux Device Drivers – ThirdEdition》Page 165)
static unsigned int scull_p_poll(struct file *filp, poll_table *wait)
{
struct scull_pipe *dev = filp->private_data;
unsigned int mask = 0;
/*
* The buffer is circular; it is considered full
* if wp is right behind rp and empty if the
* two are equal.
*/
down(&dev->sem);
poll_wait(filp, &dev->inq, wait);
poll_wait(filp, &dev->outq, wait);
if (dev->rp != dev->wp)
mask = POLLIN POLLRDNORM; /* readable */
if (spacefree(dev))
mask = POLLOUT POLLWRNORM; /* writable */
up(&dev->sem);
return mask;
}
//将使用者程序插入驱动的等待伫列是通过poll_wait做的。
//Poll_wait定义如下:
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p)
{
if (p && wait_address)
p->qproc(filp, wait_address, p);
}
//这里的p->qproc在do_select内poll_initwait(&table)被初始化为__pollwait,如下:
void poll_initwait(struct poll_wqueues *pwq)
{
init_poll_funcptr(&pwq->pt, __pollwait);
pwq->error = 0;
pwq->table = NULL;
pwq->inline_index = 0;
}
//__pollwait定义如下:
/* Add a new entry */
static void __pollwait(struct file *filp, wait_queue_head_t *wait_address,
poll_table *p)
{
struct poll_table_entry *entry = poll_get_entry(p);
if (!entry)
return;
get_file(filp);
entry->filp = filp;
entry->wait_address = wait_address;
init_waitqueue_entry(&entry->wait, current);
add_wait_queue(wait_address,&entry->wait);
}
通过init_waitqueue_entry初始化一个等待伫列项,这个等待伫列项关联的程序即当前呼叫select的程序。然后将这个等待伫列项插入等待伫列wait_address。Wait_address即在驱动poll函式内呼叫poll_wait(filp, &dev->inq, wait);时传入的该驱动的&dev->inq或者&dev->outq等待伫列。
到这里我们明白了select如何将当前程序插入所有所监测的fd_set关联的驱动内的等待伫列,那程序究竟是何时让出CPU进入睡眠状态的呢?
进入睡眠状态是在do_select内呼叫schedule_timeout(__timeout)实现的。当select遍历完fd_set内的所有装置档案,发现没有档案可操作时(即retval=0),则呼叫schedule_timeout(__timeout)进入睡眠状态。
唤醒该程序的过程通常是在所监测档案的装置驱动内实现的,驱动程式维护了针对自身资源读写的等待伫列。当装置驱动发现自身资源变为可读写并且有程序睡眠在该资源的等待伫列上时,就会唤醒这个资源等待伫列上的程序。
觉得不错,记得转发点赞“在看”!