我的任务是使用python中的套接字从站点获取HTML。 到目前为止,这就是我想到的
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
hostName = socket.gethostbyname('www.usask.ca')
print(hostName)
s.connect((hostName, 80))
s.send("GET / HTTP/1.0\r\nHost: " + hostName + "\r\n\r\n")
print (s.recv(500000000))
s.close
它不太好用。我不太关心它的健壮性(我认为这是一个请求格式的问题),而更关心它在工作时只打印html的一小部分
当使用类似urlib2的东西来获取html时,相比之下,我最多只能得到我想要的10%
目前没有回答
相关问题 更多 >
编程相关推荐