Sockets (套接字)编程是连接网络上两个节点以相互通信的一种方式。一个套接字(节点)侦听IP上的特定端口,而另一个套接字则连接到另一个。当客户端连接到服务器时,服务器形成侦听器套接字。
1 创建套接字
# create an INET, STREAMing socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# now connect to the web server on port 80 - the normal http port
s.connect(("www.python.org", 80))
当连接完成时,套接字s可以用于发送对页面文本的请求。同一个套接字将读取回复,然后被销毁。客户端套接字通常只用于一个交换机(或一小组顺序交换机)。
web服务器中发生的事情有点复杂。首先,web服务器创建一个“服务器套接字”:
# create an INET, STREAMing socket
serversocket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# bind the socket to a public host, and a well-known port
serversocket.bind((socket.gethostname(), 80))
# become a server socket
serversocket.listen(5)
需要注意是:我们使用了socket.gethostname(),以便套接字对外可见。如果我们使用了.bind(('localhost',80))或s.bind('27.0.0.1',80),我们仍然会有一个“服务器”套接字,但只能在同一台机器中看到。s.bind(('',80))指定计算机拥有的任何地址都可以访问套接字。
为“众所周知”的服务(HTTP、SNMP等)保留少量端口。如果你在玩,使用一个很好的大数字(4位数)。
最后,要侦听的参数告诉套接字库,我们希望它在拒绝外部连接之前将有多达5个连接请求(正常最大值)在排队。如果代码的其余部分写得正确,那就足够了。
现在我们有了一个“服务器”套接字,在端口80上侦听,可以进入web服务器的主循环:
while True:# accept connections from outside(clientsocket, address) = serversocket.accept()# now do something with the clientsocket# in this case, we'll pretend this is a threaded serverct = client_thread(clientsocket)ct.run()
实际上,这个循环有三种通用的工作方式——调度一个线程来处理clientsocket,创建一个新进程来处理clientsocket,或者重组这个应用程序以使用非阻塞套接字,并使用select在我们的“服务器”套接字和任何激活的clientsocket之间进行多路复用。这就是“服务器”套接字所做的一切。它不发送任何数据。它没有接收到任何数据。它只生成“客户端”套接字。每个客户端套接字都是为了响应其他“客户端”套接字对我们绑定的主机和端口执行connect()操作而创建的。创建该客户端套接字后,我们将返回侦听更多连接。这两个“客户端”可以自由地聊天——他们正在使用一些动态分配的端口,当会话结束时,这些端口将被回收。
2 使用套接字
首先要注意的是,web浏览器的“客户端”套接字和web服务器的“客户端”套接字是完全相同的。也就是说,这是一次“对等”对话。或者换言之,作为设计师,你必须决定谈话的礼仪规则是什么。通常,连接套接字通过发送请求或登录来启动会话。
现在有两组动词可用于交流。您可以使用send和recv,也可以将客户端套接字转换为类似beast的文件并使用read和write。后者是Java表示其套接字的方式。这些都是缓冲的“文件”,一个常见的错误是写一些东西,然后读取以获得回复。如果没有刷新,您可能会永远等待回复,因为请求可能仍在输出缓冲区中。
现在我们来谈谈套接字的主要障碍——在网络缓冲区上的发送和接收操作。它们不一定能处理你交给它们(或期望它们)的所有字节,因为它们的主要关注点是处理网络缓冲区。通常,当相关联的网络缓冲区已被填充(send)或清空(recv)时,它们会返回。然后,它们会告诉您它们处理了多少字节。你有责任再次通知它们,直到你的信息得到完全处理。
当recv返回0个字节时,表示对方已关闭(或正在关闭)连接。您将不会再收到此连接上的任何数据。
像HTTP这样的协议只使用一个套接字进行一次传输。客户端发送一个请求,然后读取一个回复。就是这样。套接字被丢弃了。这意味着客户端可以通过接收0个字节来检测回复的结束。
但是,如果您计划重用套接字进行进一步的传输,您需要意识到套接字上没有EOT,即如果 socket 的 send 或 recv 在处理 0 字节后返回,连接已经断开。如果连接没有断开,您可能会永远等待recv,因为套接字不会告诉您(目前)没有更多内容可供读取。因此,socket的消息必须是固定长度的,或者是限定了长度的,或者标明了长度,或者以关闭连接结束。
假设您不想结束连接,最简单的解决方案是固定长度的消息:
class MySocket:"""demonstration class only- coded for clarity, not efficiency"""def __init__(self, sock=None):if sock is None:self.sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)else:self.sock = sockdef connect(self, host, port):self.sock.connect((host, port))def mysend(self, msg):totalsent = 0while totalsent < MSGLEN:sent = self.sock.send(msg[totalsent:])if sent == 0:raise RuntimeError("socket connection broken")totalsent = totalsent + sentdef myreceive(self):chunks = []bytes_recd = 0while bytes_recd < MSGLEN:chunk = self.sock.recv(min(MSGLEN - bytes_recd, 2048))if chunk == b'':raise RuntimeError("socket connection broken")chunks.append(chunk)bytes_recd = bytes_recd + len(chunk)return b''.join(chunks)
3 断开连接
严格地说,你应该在关闭套接字之前对其使用shutdown。shutdown是对另一端套接字的建议。根据你传递的论点,它可能意味着“我不会再发送了,但我仍然会听”。然而,大多数套接字库对于程序员来说太习惯了,所以close()通常与shutdown()相同;因此,在大多数情况下,不需要显式关闭。
有效使用shutdown的一种方法是在类似HTTP的交换中。客户端发送一个请求,然后执行shutdown(1)。这一消息会告诉服务器“此客户端已完成发送,但仍然可以接收”。 服务器可以通过接收0字节来检测“EOF”。它可以假设它有完整的请求。服务器发送回复。如果发送成功,那么客户端实际上仍在接收。
4 非阻塞套接字
在Python中,使用socket.setblocking(False)使其成为非阻塞的。在C中,它更复杂。主要的区别在于发送、接收、连接和接受可以在不做任何事情的情况下返回。
使用select。
在C语言中,编码选择相当复杂。在Python中,这是小菜一碟,但它与C版本非常接近,如果您理解Python中的select,那么在C中使用它就不会有什么问题:
ready_to_read, ready_to_write, in_error = \select.select(potential_readers,potential_writers,potential_errs,timeout)
通过选择三个列表:
- 第一个列表包含想要尝试读取的所有套接字;
- 第二个是想要尝试写入的所有套接字;
- 最后一个(通常为空)是检查错误的套接字。
一个套接字可以进入多个列表。这会使select调用被阻止,但可以通过给出一个超时时间来解决该问题。
作为回报,您将获得三个列表。它们包含实际可读、可写和出错的套接字。这些列表中的每一个都是您传入的相应列表的子集(可能为空)。
如果一个套接字在输出可读列表中,那么该套接字上的recv会返回一些信息。写列表与读列表一样。
如果您有一个“服务器”套接字,请将其放在potential_readers列表中。如果它出现在可读列表中,你的accept(几乎肯定)会起作用。如果你已经创建了一个新的套接字来连接到其他人,请将其放在potential_writers列表中。如果它出现在可写列表中,那么它很有可能已经连接。
事实上,即使有阻塞的套接字,select也很方便。这是确定是否要阻塞套接字的一种方法——当缓冲区中有内容时,套接字返回可读状态。然而,这仍然无助于确定另一端是否完成,或者只是忙于其他事情的问题。
可移植性:在Unix上,select同时适用于套接字和文件。不要在Windows上尝试此操作。在Windows上,select仅适用于套接字。还要注意,在C语言中,许多更高级的套接字选项在Windows上的操作方式不同。