首页 > 代码库 > linux内核中socket的创建过程源码分析(详细分析)

linux内核中socket的创建过程源码分析(详细分析)

http://www.cnblogs.com/hyd-desert-camel/p/3536341.html

1三个相关数据结构.

关于socket的创建,首先需要分析socket这个结构体,这是整个的核心。

104 struct socket {

105         socket_state            state;

106 

107         kmemcheck_bitfield_begin(type);

108         short                   type;

109         kmemcheck_bitfield_end(type);

110 

111         unsigned long           flags;

112 

113         struct socket_wq __rcu  *wq;

114 

115         struct file             *file;

116         struct sock             *sk;

117         const struct proto_ops  *ops;

118 }

其中,state是socket的状态,比如CONNECTED,type是类型,比如TCP下使用的流式套接字SOCK_STREAM,flags是标志位,负责一些特殊的设置,比如SOCK_ASYNC_NOSPACE,ops则是采用了和超级块设备操作表一样的逻辑,专门设置了一个数据结构来记录其允许的操作。Sk是非常重要的,也是非常大的,负责记录协议相关内容。这样的设置使得socket具有很好的协议无关性,可以通用。file是与socket相关的指针列表,wq是等待队列。

还有两个结构体sk_buff和tcp_sock,其中sk_buff与每一个数据包相关,负责描述每一个数据包的信息,而tcp_sock则是tcp相关的结构体

2.初始化并分配socket结构

Socket()本质上是一个glibc中的函数,执行实际上是是调用sys_socketcall()系统调用。sys_socketcall()是几乎所有socket相关函数的入口,即是说,bind,connect等等函数都需要sys_socketcall()作为入口。该系统调用代码如下:

2435 SYSCALL_DEFINE2(socketcall, int, call, unsigned long __user *, args)

2436 {

2437         unsigned long a[6];

2438         unsigned long a0, a1;

2439         int err;

2440         unsigned int len;

2441 

2442         if (call < 1 || call > SYS_SENDMMSG)

2443                 return -EINVAL;

2444 

2445         len = nargs[call];

2446         if (len > sizeof(a))

2447                 return -EINVAL;

2448 

2449         /* copy_from_user should be SMP safe. */

2450         if (copy_from_user(a, args, len))

2451                 return -EFAULT;

2452 

2453         audit_socketcall(nargs[call] / sizeof(unsigned long), a);

2454 

2455         a0 = a[0];

2456         a1 = a[1];

2457 

2458         switch (call) {

2459         case SYS_SOCKET:

2460                 err = sys_socket(a0, a1, a[2]);

2461                 break;

2462         case SYS_BIND:

2463                 err = sys_bind(a0, (struct sockaddr __user *)a1, a[2]);

2464                 break;

.......

2531         default:

2532                 err = -EINVAL;

2533                 break;

2534         }

2535         return err;

2536 }

省略号省略掉的是各种网络编程用得到的函数,全部都在这个系统调用中,再次证明前文所说,socketcall是系统所有socket相关函数打大门。

而对于创建socket,自然会在switch中调用到sys_socket()系统调用,而这个函数仅仅是调用sock_create()来创建socket和sock_map_fd()来与文件系统进行关联。其中sock_create()调用__sock_create().接下来我尽力地来分析一下源代码(直接在代码中注释):

1257 int __sock_create(struct net *net, int family, int type, int protocol,

1258                          struct socket **res, int kern)

1259 {

1260         int err;

1261         struct socket *sock;

1262         const struct net_proto_family *pf;

/*检查传入的协议族参数是否正确*/

1267         if (family < 0 || family >= NPROTO)

1268                 return -EAFNOSUPPORT;

/*检查传入的类型参数是否正确*/

1269         if (type < 0 || type >= SOCK_MAX)

1270                 return -EINVAL;

/*检查兼容性。在使用中,family是PF还是AF没什么区别,但事实上二者PF是POSIX标准,而AF是BSD标准,按照我的理解,现在大部分使用BSD标准,因此,如果传入参数是使用的PF,那么在内核打印消息,并把family设置成PF*/

1277         if (family == PF_INET && type == SOCK_PACKET) {

1278                 static int warned;

1279                 if (!warned) {

1280                         warned = 1;

1281                         printk(KERN_INFO "%s uses obsolete (PF_INET,SOCK_PACKET)\n",

1282                                current->comm);

1283                 }

1284                 family = PF_PACKET;

1285         }

1286 /*这里调用security_socket_create函数,该函数是调用security_ops->socket_create(family, type, protocol, kern),而security_ops是一个security_operations的结构体,此处再次使用了linux常用的手段,即提供一个结构体数据结构来描述所有的操作,该结构体异常复杂,暂时还没能力理解,只知道该结构体是对应着linux系统下的LMS安全框架的。这里其实是个空函数,实际上是进行一系列的安全检查,然后如果成功则返回0*/

1287         err = security_socket_create(family, type, protocol, kern);

1288         if (err)

1289                 return err;

/*此处开始需要再分析多个函数,不再以注释的方式进行分析,在源代码的后面一一分析*/

1296         sock = sock_alloc();

1297         if (!sock) {

1298                 net_warn_ratelimited("socket: no more sockets\n");

1299                 return -ENFILE; /* Not exactly a match, but its the

1300                                    closest posix thing */

1301         }

1302 

1303         sock->type = type;

1304 

1305 #ifdef CONFIG_MODULES

1312         if (rcu_access_pointer(net_families[family]) == NULL)

1313                 request_module("net-pf-%d", family);

1314 #endif

1315 

1316         rcu_read_lock();

1317         pf = rcu_dereference(net_families[family]);

1318         err = -EAFNOSUPPORT;

1319         if (!pf)

1320                 goto out_release;

1321 

1326         if (!try_module_get(pf->owner))

1327                 goto out_release;

1328 

1330         rcu_read_unlock();

1331 

1332         err = pf->create(net, sock, protocol, kern);

1333         if (err < 0)

1334                 goto out_module_put;

1335 

1340         if (!try_module_get(sock->ops->owner))

1341                 goto out_module_busy;

1342 

1347         module_put(pf->owner);

1348         err = security_socket_post_create(sock, family, type, protocol, kern);

1349         if (err)

1350                 goto out_sock_release;

1351         *res = sock;

1352 

1353         return 0;

1354 

1355 out_module_busy:

1356         err = -EAFNOSUPPORT;

1357 out_module_put:

1358         sock->ops = NULL;

1359         module_put(pf->owner);

1360 out_sock_release:

1361         sock_release(sock);

1362         return err;

1363 

1364 out_release:

1365         rcu_read_unlock();

1366         goto out_sock_release;

1367 }

如注释中说的,接下来分析sock = sock_alloc(),首先看sock_alloc()的源代码:

530 static struct socket *sock_alloc(void)

531 {

532         struct inode *inode;

533         struct socket *sock;

534 

535         inode = new_inode_pseudo(sock_mnt->mnt_sb);

536         if (!inode)

537                 return NULL;

538 

539         sock = SOCKET_I(inode);

540 

541         kmemcheck_annotate_bitfield(sock, type);

542         inode->i_ino = get_next_ino();

543         inode->i_mode = S_IFSOCK | S_IRWXUGO;

544         inode->i_uid = current_fsuid();

545         inode->i_gid = current_fsgid();

546         inode->i_op = &sockfs_inode_ops;

547 

548         this_cpu_add(sockets_in_use, 1);

549         return sock;

550 }

借助LXR上的注释我们进行分析。该函数式分配并初始化一个socket和一个inode,二者是捆绑在一起的,如果成功则返回socket,如果inode创建出问题,则返回NULL。此处有点复杂,耦合性有点强,慢慢来分析。首先分析SOCKET_I(),该函数的目的是取得socket的结构体指针,具体分析如下:

1322 static inline struct socket *SOCKET_I(struct inode *inode)

1323 {

1324         return &container_of(inode, struct socket_alloc, vfs_inode)->socket;

1325 }

这里使用了宏container_of,我们继续分析container_of宏:

718 #define container_of(ptr, type, member) ({                      \

719         const typeof( ((type *)0)->member ) *__mptr = (ptr);    \

720         (type *)( (char *)__mptr - offsetof(type,member) );})

首先分析传入参数,ptr是指向返回对象的指针,有点绕,但前文说过,inode和socket是绑在一起的,此处其实就是inode指向socket的意思。然后是type,在SOCKET_I中传入的事socket_alloc结构体,该结构体如下:

1317 struct socket_alloc {

1318         struct socket socket;

1319         struct inode vfs_inode;

1320 };只包含了socket结构体和在虚拟文件系统中的节点结构体,无甚复杂。宏container_of中还包含了另外一个宏offsetof:

#define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)。

由此分析container_of的内容。首先是offsetof,是假设TYPE(即struct sock_alloc)的地址在0的时候其中MEMBER的地址,即是在计算MEMBER在结构体中的偏移地址,所以这个宏取名为offsetof也不为怪了。回过头看container_of,这个宏分两部分:

第一部分typeof( ((type *)0)->member ) *__mptr = (ptr),通过typeof定义一个struct sock_alloc->vfs_inode的指针__mptr,然后赋值为ptr的值,即是说现在vfs_inode的地址就是ptr(即inode)的地址。

第二部分 (type *)( (char *)__mptr - offsetof(type,member) ),用vfs_inode的地址去减去它在结构体中的偏移地址,自然得到结构体的首地址,又因为该结构体的第一个成员是struct socket socket,所以自然返回的是socket的地址,再通过(type *)进行强制类型转换,所以SOCKET_I就得到了新的socket的指针了。

这里的两个宏有点复杂,但实在是功能强大,值得学习。

这里有一个值得注意的地方,之前分析了这么久的struct sock_alloc,但我们并没有对这个结构体进行初始化。所以在new_inode_pseudo(sock_mnt->mnt_sb)中必然对这个结构体有所交代。该函数会调用alloc_inode(sb)系统调用,sb是一个超级块结构。

该系统调用的源代码显示如果传进去的超级快表操作是alloc_inode的话,则执行执行之。可以看到,传进去的参数是sock_mnt->mnt_sb,再查找该参数发现这个参数是在初始化sock_init中进行kern_mount时赋值的,恰好使得传进去的参数是alloc_inode,所以,接下来执行超级快操作表中的alloc_inode,然后调用sock_alloc_inode系统调用。

该系统调用先是ei = kmem_cache_alloc(sock_inode_cachep, GFP_KERNEL);进行slab分配,尔后的代码也是进行inode的操作和slab的分配,到此为止,暂时不再继续深入,只是注意到经过这一系列地分配之后,socket处于未连接状态,即socket.state = SS_UNCONNECTED。

至此回到__sock_create()继续分析。接下来是一次条件编译。#ifdef CONFIG_MODULES,这个选项是用于linux的模块编写的,如果在模块编写时用上了CONFIG_MODULES,是会在makemenuconfig中出现该模块选项的。该处如果有CONFIG_MODULES但是却没有找到对应的下属选项则会装载一个default的模块。

接下去是:

1312         if (rcu_access_pointer(net_families[family]) == NULL)

1313                 request_module("net-pf-%d", family);

这两句检查对应协议族的操作表是否已经安装,如果没有安装则使用request_module进行安装。现在都是在TCP/IP协议下进行分析,所以family是AF_INET,也就是2,所以实际检查的是全局变量net_families[2]。这个全局变量是在系统初始化时由net/ipv4/af_inet.c文件进行安装,具体代码是:fs_initcall(inet_init);而fs_initcall是个宏,具体实现是:

204 #define fs_initcall(fn)                 __define_initcall(fn, 5)

即是把inet_init装载在init_call中,所以在系统启动时自然会初始化。

1三个相关数据结构.

关于socket的创建,首先需要分析socket这个结构体,这是整个的核心。

104 struct socket {

105         socket_state            state;

106 

107         kmemcheck_bitfield_begin(type);

108         short                   type;

109         kmemcheck_bitfield_end(type);

110 

111         unsigned long           flags;

112 

113         struct socket_wq __rcu  *wq;

114 

115         struct file             *file;

116         struct sock             *sk;

117         const struct proto_ops  *ops;

118 }

其中,state是socket的状态,比如CONNECTED,type是类型,比如TCP下使用的流式套接字SOCK_STREAM,flags是标志位,负责一些特殊的设置,比如SOCK_ASYNC_NOSPACE,ops则是采用了和超级块设备操作表一样的逻辑,专门设置了一个数据结构来记录其允许的操作。Sk是非常重要的,也是非常大的,负责记录协议相关内容。这样的设置使得socket具有很好的协议无关性,可以通用。file是与socket相关的指针列表,wq是等待队列。

还有两个结构体sk_buff和tcp_sock,其中sk_buff与每一个数据包相关,负责描述每一个数据包的信息,而tcp_sock则是tcp相关的结构体

3.初始化并分配socket结构

Socket()本质上是一个glibc中的函数,执行实际上是是调用sys_socketcall()系统调用。sys_socketcall()是几乎所有socket相关函数的入口,即是说,bind,connect等等函数都需要sys_socketcall()作为入口。该系统调用代码如下:

2435 SYSCALL_DEFINE2(socketcall, int, call, unsigned long __user *, args)

2436 {

2437         unsigned long a[6];

2438         unsigned long a0, a1;

2439         int err;

2440         unsigned int len;

2441 

2442         if (call < 1 || call > SYS_SENDMMSG)

2443                 return -EINVAL;

2444 

2445         len = nargs[call];

2446         if (len > sizeof(a))

2447                 return -EINVAL;

2448 

2449         /* copy_from_user should be SMP safe. */

2450         if (copy_from_user(a, args, len))

2451                 return -EFAULT;

2452 

2453         audit_socketcall(nargs[call] / sizeof(unsigned long), a);

2454 

2455         a0 = a[0];

2456         a1 = a[1];

2457 

2458         switch (call) {

2459         case SYS_SOCKET:

2460                 err = sys_socket(a0, a1, a[2]);

2461                 break;

2462         case SYS_BIND:

2463                 err = sys_bind(a0, (struct sockaddr __user *)a1, a[2]);

2464                 break;

.......

2531         default:

2532                 err = -EINVAL;

2533                 break;

2534         }

2535         return err;

2536 }

省略号省略掉的是各种网络编程用得到的函数,全部都在这个系统调用中,再次证明前文所说,socketcall是系统所有socket相关函数打大门。

而对于创建socket,自然会在switch中调用到sys_socket()系统调用,而这个函数仅仅是调用sock_create()来创建socket和sock_map_fd()来与文件系统进行关联。其中sock_create()调用__sock_create().接下来我尽力地来分析一下源代码(直接在代码中注释):

1257 int __sock_create(struct net *net, int family, int type, int protocol,

1258                          struct socket **res, int kern)

1259 {

1260         int err;

1261         struct socket *sock;

1262         const struct net_proto_family *pf;

/*检查传入的协议族参数是否正确*/

1267         if (family < 0 || family >= NPROTO)

1268                 return -EAFNOSUPPORT;

/*检查传入的类型参数是否正确*/

1269         if (type < 0 || type >= SOCK_MAX)

1270                 return -EINVAL;

/*检查兼容性。在使用中,family是PF还是AF没什么区别,但事实上二者PF是POSIX标准,而AF是BSD标准,按照我的理解,现在大部分使用BSD标准,因此,如果传入参数是使用的PF,那么在内核打印消息,并把family设置成PF*/

1277         if (family == PF_INET && type == SOCK_PACKET) {

1278                 static int warned;

1279                 if (!warned) {

1280                         warned = 1;

1281                         printk(KERN_INFO "%s uses obsolete (PF_INET,SOCK_PACKET)\n",

1282                                current->comm);

1283                 }

1284                 family = PF_PACKET;

1285         }

1286 /*这里调用security_socket_create函数,该函数是调用security_ops->socket_create(family, type, protocol, kern),而security_ops是一个security_operations的结构体,此处再次使用了linux常用的手段,即提供一个结构体数据结构来描述所有的操作,该结构体异常复杂,暂时还没能力理解,只知道该结构体是对应着linux系统下的LMS安全框架的。这里其实是个空函数,实际上是进行一系列的安全检查,然后如果成功则返回0*/

1287         err = security_socket_create(family, type, protocol, kern);

1288         if (err)

1289                 return err;

/*此处开始需要再分析多个函数,不再以注释的方式进行分析,在源代码的后面一一分析*/

1296         sock = sock_alloc();

1297         if (!sock) {

1298                 net_warn_ratelimited("socket: no more sockets\n");

1299                 return -ENFILE; /* Not exactly a match, but its the

1300                                    closest posix thing */

1301         }

1302 

1303         sock->type = type;

1304 

1305 #ifdef CONFIG_MODULES

1312         if (rcu_access_pointer(net_families[family]) == NULL)

1313                 request_module("net-pf-%d", family);

1314 #endif

1315 

1316         rcu_read_lock();

1317         pf = rcu_dereference(net_families[family]);

1318         err = -EAFNOSUPPORT;

1319         if (!pf)

1320                 goto out_release;

1321 

1326         if (!try_module_get(pf->owner))

1327                 goto out_release;

1328 

1330         rcu_read_unlock();

1331 

1332         err = pf->create(net, sock, protocol, kern);

1333         if (err < 0)

1334                 goto out_module_put;

1335 

1340         if (!try_module_get(sock->ops->owner))

1341                 goto out_module_busy;

1342 

1347         module_put(pf->owner);

1348         err = security_socket_post_create(sock, family, type, protocol, kern);

1349         if (err)

1350                 goto out_sock_release;

1351         *res = sock;

1352 

1353         return 0;

1354 

1355 out_module_busy:

1356         err = -EAFNOSUPPORT;

1357 out_module_put:

1358         sock->ops = NULL;

1359         module_put(pf->owner);

1360 out_sock_release:

1361         sock_release(sock);

1362         return err;

1363 

1364 out_release:

1365         rcu_read_unlock();

1366         goto out_sock_release;

1367 }

如注释中说的,接下来分析sock = sock_alloc(),首先看sock_alloc()的源代码:

530 static struct socket *sock_alloc(void)

531 {

532         struct inode *inode;

533         struct socket *sock;

534 

535         inode = new_inode_pseudo(sock_mnt->mnt_sb);

536         if (!inode)

537                 return NULL;

538 

539         sock = SOCKET_I(inode);

540 

541         kmemcheck_annotate_bitfield(sock, type);

542         inode->i_ino = get_next_ino();

543         inode->i_mode = S_IFSOCK | S_IRWXUGO;

544         inode->i_uid = current_fsuid();

545         inode->i_gid = current_fsgid();

546         inode->i_op = &sockfs_inode_ops;

547 

548         this_cpu_add(sockets_in_use, 1);

549         return sock;

550 }

借助LXR上的注释我们进行分析。该函数式分配并初始化一个socket和一个inode,二者是捆绑在一起的,如果成功则返回socket,如果inode创建出问题,则返回NULL。此处有点复杂,耦合性有点强,慢慢来分析。首先分析SOCKET_I(),该函数的目的是取得socket的结构体指针,具体分析如下:

1322 static inline struct socket *SOCKET_I(struct inode *inode)

1323 {

1324         return &container_of(inode, struct socket_alloc, vfs_inode)->socket;

1325 }

这里使用了宏container_of,我们继续分析container_of宏:

718 #define container_of(ptr, type, member) ({                      \

719         const typeof( ((type *)0)->member ) *__mptr = (ptr);    \

720         (type *)( (char *)__mptr - offsetof(type,member) );})

首先分析传入参数,ptr是指向返回对象的指针,有点绕,但前文说过,inode和socket是绑在一起的,此处其实就是inode指向socket的意思。然后是type,在SOCKET_I中传入的事socket_alloc结构体,该结构体如下:

1317 struct socket_alloc {

1318         struct socket socket;

1319         struct inode vfs_inode;

1320 };只包含了socket结构体和在虚拟文件系统中的节点结构体,无甚复杂。宏container_of中还包含了另外一个宏offsetof:

#define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)。

由此分析container_of的内容。首先是offsetof,是假设TYPE(即struct sock_alloc)的地址在0的时候其中MEMBER的地址,即是在计算MEMBER在结构体中的偏移地址,所以这个宏取名为offsetof也不为怪了。回过头看container_of,这个宏分两部分:

第一部分typeof( ((type *)0)->member ) *__mptr = (ptr),通过typeof定义一个struct sock_alloc->vfs_inode的指针__mptr,然后赋值为ptr的值,即是说现在vfs_inode的地址就是ptr(即inode)的地址。

第二部分 (type *)( (char *)__mptr - offsetof(type,member) ),用vfs_inode的地址去减去它在结构体中的偏移地址,自然得到结构体的首地址,又因为该结构体的第一个成员是struct socket socket,所以自然返回的是socket的地址,再通过(type *)进行强制类型转换,所以SOCKET_I就得到了新的socket的指针了。

这里的两个宏有点复杂,但实在是功能强大,值得学习。

这里有一个值得注意的地方,之前分析了这么久的struct sock_alloc,但我们并没有对这个结构体进行初始化。所以在new_inode_pseudo(sock_mnt->mnt_sb)中必然对这个结构体有所交代。该函数会调用alloc_inode(sb)系统调用,sb是一个超级块结构。

该系统调用的源代码显示如果传进去的超级快表操作是alloc_inode的话,则执行执行之。可以看到,传进去的参数是sock_mnt->mnt_sb,再查找该参数发现这个参数是在初始化sock_init中进行kern_mount时赋值的,恰好使得传进去的参数是alloc_inode,所以,接下来执行超级快操作表中的alloc_inode,然后调用sock_alloc_inode系统调用。

该系统调用先是ei = kmem_cache_alloc(sock_inode_cachep, GFP_KERNEL);进行slab分配,尔后的代码也是进行inode的操作和slab的分配,到此为止,暂时不再继续深入,只是注意到经过这一系列地分配之后,socket处于未连接状态,即socket.state = SS_UNCONNECTED。

至此回到__sock_create()继续分析。接下来是一次条件编译。#ifdef CONFIG_MODULES,这个选项是用于linux的模块编写的,如果在模块编写时用上了CONFIG_MODULES,是会在makemenuconfig中出现该模块选项的。该处如果有CONFIG_MODULES但是却没有找到对应的下属选项则会装载一个default的模块。

接下去是:

1312         if (rcu_access_pointer(net_families[family]) == NULL)

1313                 request_module("net-pf-%d", family);

这两句检查对应协议族的操作表是否已经安装,如果没有安装则使用request_module进行安装。现在都是在TCP/IP协议下进行分析,所以family是AF_INET,也就是2,所以实际检查的是全局变量net_families[2]。这个全局变量是在系统初始化时由net/ipv4/af_inet.c文件进行安装,具体代码是:fs_initcall(inet_init);而fs_initcall是个宏,具体实现是:

204 #define fs_initcall(fn)                 __define_initcall(fn, 5)

即是把inet_init装载在init_call中,所以在系统启动时自然会初始化。下面不计细节地分析inet_init:

1678 static int __init inet_init(void)

1679 {

...............

/*把各种proto注册到全局链表中去*/

1690         rc = proto_register(&tcp_prot, 1);

1691         if (rc)

1692                 goto out_free_reserved_ports;

1693 

1694         rc = proto_register(&udp_prot, 1);

1695         if (rc)

1696                 goto out_unregister_tcp_proto;

1697 

1698         rc = proto_register(&raw_prot, 1);

1699         if (rc)

1700                 goto out_unregister_udp_proto;

.......................

/*注册协议族操作表*/

1710         (void)sock_register(&inet_family_ops);

.....................

/*把各个协议对应的基础原型(base protocol)加到对应的数据结构中*/

1720         if (inet_add_protocol(&icmp_protocol, IPPROTO_ICMP) < 0)

1721                 pr_crit("%s: Cannot add ICMP protocol\n", __func__);

1722         if (inet_add_protocol(&udp_protocol, IPPROTO_UDP) < 0)

1723                 pr_crit("%s: Cannot add UDP protocol\n", __func__);

1724         if (inet_add_protocol(&tcp_protocol, IPPROTO_TCP) < 0)

1725                 pr_crit("%s: Cannot add TCP protocol\n", __func__);

..................

1731         /* Register the socket-side information for inet_create. */

1732         for (r = &inetsw[0]; r < &inetsw[SOCK_MAX]; ++r)

1733                 INIT_LIST_HEAD(r);

/*把inetsw_array[]注册进基础原型(base protocol)的数组链表中*/

1735         for (q = inetsw_array; q < &inetsw_array[INETSW_ARRAY_LEN]; ++q)

1736                 inet_register_protosw(q);

..............

1802 }

至此回到__socket_create()的分析。pf = rcu_dereference(net_families[family]);是在RCU锁的保护下取得指定处的内容。if (!try_module_get(pf->owner))是模块检查。因为之后要调用->create,这个恰好有可能存在于某个可装载的模块中,所以先检查是否在模块中,不在的话继续执行下去。

然后是err = pf->create(net, sock, protocol, kern);这里调用pf中的create成员,由前面的inet_init()中的sock_register可知,把inet_family_ops装载进去,而这张表的create成员(也可以叫行为)挂入的是inet_create(),下面分析inet_create()。这个函数有些庞大,一部分一部分地看:

275 static int inet_create(struct net *net, struct socket *sock, int protocol,

276                        int kern)

277 {

278         struct sock *sk;

279         struct inet_protosw *answer;

280         struct inet_sock *inet;

281         struct proto *answer_prot;

282         unsigned char answer_flags;

283         char answer_no_check;

284         int try_loading_module = 0;

285         int err;

/*由inet_ehash_secret的值看是否有加密字符串,若没有则检查协议类型(只有TCP肯能有加密字符串),如果socket类型不是原始套接字或者数据报型的话,则创建一个加密字符串*/

287         if (unlikely(!inet_ehash_secret))

288                 if (sock->type != SOCK_RAW && sock->type != SOCK_DGRAM)

289                         build_ehash_secret();

/*把socket的状态设置成未联通*/

291         sock->state = SS_UNCONNECTED;

 

 

接下来涉及到inet_protosw结构体,该结构体是用于IP协议对应socket接口,分析如下:

  struct inet_protosw {

         struct list_head list;

        unsigned short   type;     /* 对应socket的类型)*/.        unsigned short   protocol; /* IP协议编码  */

          struct proto     *prot;    /*对应的协议结构体的指针*/

            const struct proto_ops *ops;  /*对应协议的操作表*/

            char             no_check;   /* 是否计算校验和 */

            unsigned char    flags;      /* 标志位  */

 };

 

接下来继续分析inet_create():

/* 遍历寻找请求的协议类型 */

294 lookup_protocol:

295         err = -ESOCKTNOSUPPORT;

296         rcu_read_lock();

/* 遍历inetsw[]数组对应请求类型的链表元素,此处需要看一下inetsw[]的定义。这个数组由三个结构变量组成。第一种用于TCP数据流协议,标识码为IPPROTO_TCP,第二种用于UDP数据包协议,协议标识码为IPPROTO_UDP,第三种为原始套接字使用,可以是用户自己的协议,标识码IPPROTO_IP是虚拟IP协议类型。这个数组是在inet_init()中由inet_register_protosw来注册的,该函数的主要步骤为1.检查参数结构体inet_protosw是否越界2.通过type查找匹配的队列3.插入到队列中。

然后看list_for_each_rcu,这个函数在数组inetsw[]中根据sock->type(一般程序指定为SOCK_STREAM即TCP协议类型)找到协议类型所在队列并使得answer指向了TCP协议的inet_protosw结构。为后面的判断做好铺垫。

*/

297         list_for_each_entry_rcu(answer, &inetsw[sock->type], list) {

298 

299                 err = 0;

/*由于在服务器程序中一般引用listenfd = socket(AF_INET,SOCK_STREAM,0)的代码,所以此处的protocol=0,而answer->protocol由之前的list_for_each_rcu可知是TCP的,而IPPROTO_IP是属于虚拟IP类型,与原始套接字相关。所以此处301-313的代码负责选择出合适的协议*/

301                 if (protocol == answer->protocol) {

302                         if (protocol != IPPROTO_IP)

303                                 break;

304                 } else {

306                         if (IPPROTO_IP == protocol) {

307                                 protocol = answer->protocol;

308                                 break;

309                         }

310                         if (IPPROTO_IP == answer->protocol)

311                                 break;

312                 }

313                 err = -EPROTONOSUPPORT;

314         }

/*此处根据err的值和已经加载了的模块数量动态的安装本次请求需要的协议类型的结构,但看到了unlikely,再分析前面的代码发现err很大可能(最起码在我们一般性的TCP/IP编程中)此时还是等于0的,即是说,由于TCP协议的结构已经安装,不必再安装,直接进入下一步*/

316         if (unlikely(err)) {

317                 if (try_loading_module < 2) {

318                         rcu_read_unlock();

321 *(net-pf-PF_INET-proto-IPPROTO_SCTP-type-SOCK_STREAM)

323                         if (++try_loading_module == 1)

324                                  request_module("net-pf-%d-proto-%d-type-%d",

325                                                PF_INET, protocol, sock->type);

/*否则就使用通用名称*/

330                         else

331                                 request_module("net-pf-%d-proto-%d",

332                                                PF_INET, protocol);

333                         goto lookup_protocol;

334                 } else

335                         goto out_rcu_unlock;

336         }

337 

338         err = -EPERM;

/*检查通用性。只有root才有权限使用原始套接字。*/

339         if (sock->type == SOCK_RAW && !kern &&

340             !ns_capable(net->user_ns, CAP_NET_RAW))

341                 goto out_rcu_unlock;

/*对socket的操作集合进行了挂钩,指向了answer->ops,由于在inet_protosw的设置中已经设置成了TCP协议相关,所以此处sock->ops设置为inet_stream_ops,而answer_prot设置为tcp_prot结构。该结构式一个struct proto结构,负责传输层使用。*/

343         sock->ops = answer->ops;

344         answer_prot = answer->prot;

345         answer_no_check = answer->no_check;

346         answer_flags = answer->flags;

347         rcu_read_unlock();

348 

349         WARN_ON(answer_prot->slab == NULL);

350 

351         err = -ENOBUFS;

/*此处调用sk_alloc分配一个struct sock,该结构体庞大,其作用是网络层对socket的表示,意思就是IP协议下有很多东西比如IP地址,网卡接口,端口等等信息需要再socket层中有所体现从而使编程者方便使用,然后就利用指针等形式把内容进行一定程度上的映射。sk_alloc首先对sock->proto和sock_creator进行设置,设置成当前协议对应的proto调用sk_prot_alloc()根据是否提供了slab缓存而判断是使用slab缓存还是通用缓存。只要分配成功,则调用sock_lock_init()对缓存进行初始化,主要是对sock锁、等待队列以及进程数据结构中的网络空间结构进行分配。初始化完了后调用sock_net_set()函数对网络空间结构进行记录,然后最后增加一个net计数器。至此回到inet_create,判断是否成功分配*/

352         sk = sk_alloc(net, PF_INET, GFP_KERNEL, answer_prot);

353         if (sk == NULL)

354                 goto out;

355 

356         err = 0;

/*可复用性检查,不懂*/

357         sk->sk_no_check = answer_no_check;

358         if (INET_PROTOSW_REUSE & answer_flags)

359                 sk->sk_reuse = SK_CAN_REUSE;

/*返回一个struct inet_sock的指针给inet*/

361         inet = inet_sk(sk);

/*判断是不是面向连通(目前只有SOCK_STREAM是面向连通的,不可以理解成TCP,因为ICMP也是面向连通的)*/

362         inet->is_icsk = (INET_PROTOSW_ICSK & answer_flags) != 0;

363 

364         inet->nodefrag = 0;

/*判断是否是原始套接字,如果是,新建IP头部*/

366         if (SOCK_RAW == sock->type) {

367                 inet->inet_num = protocol;

368                 if (IPPROTO_RAW == protocol)

369                         inet->hdrincl = 1;

370         }

/*判断是否采用路径MTU发现算法*/

372         if (ipv4_config.no_pmtu_disc)

373                 inet->pmtudisc = IP_PMTUDISC_DONT;

374         else

375                 inet->pmtudisc = IP_PMTUDISC_WANT;

376 

377         inet->inet_id = 0;

/*进一步初始化sk结构(struct sock),此处分析一下sock_init_data:初始化接收(读)队列,初始化写队列,初始化错误信息队列,注意这三个队列都是双向链表,属于sk_buff_head结构体,其中会把sk_buff结构体串联起来。初始化数据包发送定时器,变量(主要是函数指针即钩子函数)*/

379         sock_init_data(sock, sk);

380 

381         sk->sk_destruct    = inet_sock_destruct;

382         sk->sk_protocol    = protocol;

383         sk->sk_backlog_rcv = sk->sk_prot->backlog_rcv;

384 

385         inet->uc_ttl    = -1;

386         inet->mc_loop   = 1;

387         inet->mc_ttl    = 1;

388         inet->mc_all    = 1;

389         inet->mc_index  = 0;

390         inet->mc_list   = NULL;

391         inet->rcv_tos   = 0;

392 

393         sk_refcnt_debug_inc(sk);

394   

395         if (inet->inet_num) {

396                 /* It assumes that any protocol which allows

397                  * the user to assign a number at socket

398                  * creation time automatically

399                  * shares.

400                  */

401                 inet->inet_sport = htons(inet->inet_num);

402                 /* Add to protocol hash chains. */

403                 sk->sk_prot->hash(sk);

404         }

/*查阅前面的sock_alloc会发现,这里的sk_prot被设置为answer_prot(即answer->prot),而answer_prot又被设置成了tcp_prot,所以此处调用tcp_prot中的init,查阅tcp_prot即可得到init这个函数指针指向的是tcp_v4_init_sock(),接下来分析tcp_v4_init_sock(见源代码后面)*/

406         if (sk->sk_prot->init) {

407                 err = sk->sk_prot->init(sk);

408                 if (err)

409                         sk_common_release(sk);

410         }

411 out:

412         return err;

413 out_rcu_unlock:

414         rcu_read_unlock();

415         goto out;

416 }

这里分析tcp_v4_init_sock,这个函数负责初始化TCP的IPV4的部分:

2150 static int tcp_v4_init_sock(struct sock *sk)

2151 {

2152         struct inet_connection_sock *icsk = inet_csk(sk);

2153 

2154         tcp_init_sock(sk);

2155 

2156         icsk->icsk_af_ops = &ipv4_specific;

2157 

2158 #ifdef CONFIG_TCP_MD5SIG

2159         tcp_sk(sk)->af_specific = &tcp_sock_ipv4_specific;

2160 #endif

2161 

2162         return 0;

2163 }

这里涉及两个新的数据结构tcp_sock与inet_connection_sock,其实还有一个数据结构inet_sock。之前提过struct socket是面向用户态的,而struct sock是面向内核驱动的,但socket与内核协议栈的交互实际上是通过xxx_sock这个数据机构,此处是TCP协议,自然是tcp_sock 数据结构,保存所有tcp相关信息。而inet_connection_sock实际上是inet_sock的扩展,之前说过inet_sock是INET域在socket的表现,而inet_connection_sock就是在inet_sock的基础上保存连接信息。

tcp_v4_init_sock中的tcp_init_sock(sk)是具体的初始化举措,尤其重要的是对SIN和AFK这两个SYN帧的初始化。

至此inet_create函数分析完毕,同时sock_create函数也分析完毕,接下来分析sock_map_fd():

386 static int sock_map_fd(struct socket *sock, int flags)

387 {

388         struct file *newfile;

389         int fd = get_unused_fd_flags(flags);

390         if (unlikely(fd < 0))

391                 return fd;

392 

393         newfile = sock_alloc_file(sock, flags, NULL);

394         if (likely(!IS_ERR(newfile))) {

395                 fd_install(fd, newfile);

396                 return fd;

397         }

398 

399         put_unused_fd(fd);

400         return PTR_ERR(newfile);

401 }

首先明白在用户空间中操作socket是完全当成文件在操作,但之前只分配了相应的inode和网络空间结构,所以本函数的目的是与文件系统形成关联。

本函数在3.9中与2.6内核区别较大,一句一句地分析。get_unused_fd_flags会调用__alloc_fd(),该函数负责分配一个文件描述符并设置成busy状态。然后执行sock_alloc_file,该函数负责得到第一个没被使用的文件,并对其path,状态等等进行设置,然后再把文件操作表socket_file_ops装载好。然后执行fd_install(fd, newfile),把文件描述符和文件进行关联。最后执行put_unused_fd。

至此整个socket的创建完成。

总结一下这次分析的过程。对分析源码的步骤有了新的想法,首先应该想到要完成这一步从理论上需要完成哪些东西,然后再递归地去分析这些东西又需要完成那些步骤。然后根据每个步骤去看由哪些代码执行,比如在socket的创建中,我就应该从文件系统初始化,通用socket初始化,TCP初始化,INET初始化,sock初始化,协议对应等等部分来分析,而不是盲目地一步一步地去看。

其次,不能纠缠于细节,个别有重大意义的细节可以仔细分析,但更多的时候应该一块一块地去看代码看这些代码完成了什么功能,而不是纠结于每一句想完成什么。

最后也是最重要的,在分析源码之前需要先分析整个过程涉及的数据结构以及他们存在的目的,他们之间的关系,只有在数据结构清晰明了了之后才可能对过程有较为清晰容易地理解。

linux内核中socket的创建过程源码分析(详细分析)