在python中使用套接字时仅获取部分HTML

2024-10-03 00:24:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我的任务是使用python中的套接字从站点获取HTML。 到目前为止,这就是我想到的

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
hostName = socket.gethostbyname('www.usask.ca')
print(hostName)
s.connect((hostName, 80))
s.send("GET / HTTP/1.0\r\nHost: " + hostName + "\r\n\r\n")
print (s.recv(500000000))
s.close

它不太好用。我不太关心它的健壮性(我认为这是一个请求格式的问题),而更关心它在工作时只打印html的一小部分

当使用类似urlib2的东西来获取html时,相比之下,我最多只能得到我想要的10%


Tags: stream站点htmlwwwsockethostnamecasock