一、 Linux 内核 4.19socketpair
的系统调用
SYSCALL_DEFINE4(socketpair, int, family, int, type, int, protocol,int __user *, usockvec)
{return __sys_socketpair(family, type, protocol, usockvec);
}
这段代码定义了一个名为 socketpair 的系统调用。系统调用是操作系统提供给用户程序的接口,允许用户程序请求内核提供的服务。下面解读这段代码:
1. 宏定义 SYSCALL_DEFINE4: 它是一个预处理器宏,用来定义一个带有四个参数的系统调用接口。这个宏展开后,会生成向操作系统注册 socketpair 系统调用所需的所有内核代码。
2. 参数 int, family: 定义了 socket 对的域,这表示网络通信的域。比如 AF_INET 用于 IPv4 通信,`AF_UNIX` 用于本地进程间通信。这个参数告诉内核应当使用哪种网络协议族来创建 socket 对。
3. 参数 int, type: 定义了 socket 对的类型。`SOCK_STREAM` 表示提供序列化的、可靠的、双向的、基于连接的字节流(类似 TCP)。`SOCK_DGRAM` 表示数据报文,用于无连接的消息传递(类似 UDP)。
4. 参数 int, protocol: 表明使用哪种具体的协议。通常情况下,当 family 和 type 已经确定时,`protocol` 可以被设置为 0 来自动选择默认协议。
5. 参数 int __user *, usockvec: 这是一个用户空间的整型数组指针,用来存放内核返回的两个 socket 文件描述符。这里的 __user 是一个类型说明符,用于标示该指针指向的是用户空间的内存,这是为了在内核空间和用户空间中传递数据而使用的一种安全措施。
函数体仅包含了一行代码,它直接调用了 __sys_socketpair 函数,这个函数是真正完成工作的内部函数。它接收上面的四个参数,创建一对相互连接的套接字(sockets),并将文件描述符通过 usockvec 返回给用户空间的程序。
该 socketpair 系统调用与 C 语言中的 socketpair 函数有直接关系。在用户空间编程中,当调用标准的 C 语言库函数 socketpair() 时,该库函数最终会使用一个系统调用来与内核通信,请求创建 socket 对。对于用户程序而言,`socketpair()` 函数是与 socketpair 系统调用的接口。C 函数只是内部对系统调用转换为用户空间的库函数调用,实际的工作是在内核中完成的。因此,这段代码是 socketpair 用户空间函数背后的内核实现。
二、linux内核4.9中的 __sys_socketpair函数
/** Create a pair of connected sockets.*/int __sys_socketpair(int family, int type, int protocol, int __user *usockvec)
{struct socket *sock1, *sock2; // 定义两个socket结构体指针int fd1, fd2, err; // 分别用于存储文件描述符和错误码struct file *newfile1, *newfile2; // 对应两个socket的文件结构体指针int flags; // 标志位变量// 提取标志位并检查是否包含非法标志flags = type & ~SOCK_TYPE_MASK;if (flags & ~(SOCK_CLOEXEC | SOCK_NONBLOCK))return -EINVAL;type &= SOCK_TYPE_MASK; // 保留有效的socket类型// 如果SOCK_NONBLOCK不与O_NONBLOCK相等,并且flags包含SOCK_NONBLOCK,则替换为O_NONBLOCKif (SOCK_NONBLOCK != O_NONBLOCK && (flags & SOCK_NONBLOCK))flags = (flags & ~SOCK_NONBLOCK) | O_NONBLOCK;// 获取未用的文件描述符fd1fd1 = get_unused_fd_flags(flags);if (unlikely(fd1 < 0)) // 如果获取失败,返回错误码return fd1;// 获取未用的文件描述符fd2fd2 = get_unused_fd_flags(flags);if (unlikely(fd2 < 0)) { // 如果获取失败,清理fd1并返回错误码put_unused_fd(fd1);return fd2;}// 将文件描述符拷贝到用户空间err = put_user(fd1, &usockvec[0]);if (err) // 如果拷贝出错,跳转到错误处理goto out;err = put_user(fd2, &usockvec[1]);if (err) // 如果拷贝出错,跳转到错误处理goto out;// 创建第一个socketerr = sock_create(family, type, protocol, &sock1);if (unlikely(err < 0)) // 如果创建失败,跳转到错误处理goto out;// 创建第二个socketerr = sock_create(family, type, protocol, &sock2);if (unlikely(err < 0)) { // 如果创建失败,释放第一个socket并跳转到错误处理sock_release(sock1);goto out;}// 检查安全性限制err = security_socket_socketpair(sock1, sock2);if (unlikely(err)) { // 如果检查失败,释放两个socket并跳转到错误处理sock_release(sock2);sock_release(sock1);goto out;}// 使用socket操作集连接两个socketerr = sock1->ops->socketpair(sock1, sock2);if (unlikely(err < 0)) { // 如果操作失败,释放两个socket并跳转到错误处理sock_release(sock2);sock_release(sock1);goto out;}// 为两个socket分配文件结构体newfile1 = sock_alloc_file(sock1, flags, NULL);if (IS_ERR(newfile1)) { // 如果分配失败,保存错误码,释放第二个socket,跳转到错误处理err = PTR_ERR(newfile1);sock_release(sock2);goto out;}newfile2 = sock_alloc_file(sock2, flags, NULL);if (IS_ERR(newfile2)) { // 如果分配失败,保存错误码,释放第一个文件结构体,跳转到错误处理err = PTR_ERR(newfile2);fput(newfile1);goto out;}// 记录审计信息audit_fd_pair(fd1, fd2);// 安装两个文件描述符fd_install(fd1, newfile1);fd_install(fd2, newfile2);return 0; // 操作成功,返回0out: // 错误处理部分put_unused_fd(fd2); // 释放第二个文件描述符put_unused_fd(fd1); // 释放第一个文件描述符return err; // 返回错误码
}
这段代码是Linux内核中负责创建socket对(两个相互连接的socket)的系统调用`__sys_socketpair`的实现。下面是解读:
1. 定义了一些变量,包括两个socket结构体指针`sock1`和`sock2`,两个文件描述符`fd1`和`fd2`,一个错误码`err`,以及一个`newfile1`和`newfile2`文件结构体指针。
2. 通过`type & ~SOCK_TYPE_MASK`提取标志位,并检查是否有除了`SOCK_CLOEXEC`和`SOCK_NONBLOCK`之外的未知标志位,如果有,则返回错误`-EINVAL`。
3. 然后,将`type`限制为仅包含有效的socket类型。
4. 如果`SOCK_NONBLOCK`标志和`O_NONBLOCK`不是同一个值,并且`flags`中有`SOCK_NONBLOCK`,则替换为`O_NONBLOCK`标志。
5. 调用`get_unused_fd_flags`获取两个未使用的文件描述符`fd1`和`fd2`,如果获取失败,则返回对应的错误码。
6. 使用`put_user`功能将两个文件描述符复制到用户空间指定的数组。
7. 使用`sock_create`函数创建两个新的socket,如果这一步或者之后的步骤出错,则会进行清理并返回错误码。
8. 检查安全性相关的问题,如果`security_socket_socketpair`返回错误,则释放socket资源并跳转到错误处理。
9. 使用socket的操作集中的`socketpair`函数连接这两个socket,如果出错,则释放socket资源并跳转到错误处理。
10. 分别为这两个socket分配文件结构体`newfile1`和`newfile2`,这些文件结构体可以在文件系统中表示一个打开的文件。
11. 如果在分配文件结构体过程中出现错误,将错误保存在`err`中,并释放相应资源,然后跳转到错误处理。
12. 使用`audit_fd_pair`记录审计信息。
13. 使用`fd_install`将新的文件结构体安装到之前获取的文件描述符上,这使得这两个文件描述符实际上指向两个连接的socket。
14. 如果代码执行成功地到达这里,就返回0,表示socket对创建成功。
15. 如果在标签`out`下执行,表明过程中出现了错误,需要清理资源并放回未使用的文件描述符,然后返回错误码。