我在Python中使用urllib和urllib2来打开和阅读网页,但是有时候,我得到的文本是不可读的。例如,如果我运行以下命令:
import urllib
text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text
我收到一些不可读的文本。我读过这些帖子:
Does python urllib2 automatically uncompress gzip data fetched from webpage?
但似乎找不到我的答案。在
提前感谢您的帮助!在
更新:我通过“说服”服务器我的用户代理是浏览器而不是爬虫来解决这个问题。在
^{pr2}$谢谢你们的回复。在
您可以使用Selenium获取内容。下载服务器和客户端驱动程序,运行服务器并运行以下命令:
这个胡言乱语是对
'http://tagger.steve.museum/steve/object/141913'
请求的真正服务器响应。实际上,它看起来像是模糊的JavaScript,如果由浏览器执行,则加载页面内容。在要获得这些内容,您需要执行这个JavaScript,这在Python中可能是一个非常困难的任务。如果您还想这样做,请查看^{} 。在
相关问题 更多 >
编程相关推荐