为什么从页面检索到的文本有时看起来像胡言乱语?

2024-06-25 23:36:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我在Python中使用urllib和urllib2来打开和阅读网页,但是有时候,我得到的文本是不可读的。例如,如果我运行以下命令:

import urllib

text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text

我收到一些不可读的文本。我读过这些帖子:

Gibberish from urlopen

Does python urllib2 automatically uncompress gzip data fetched from webpage?

但似乎找不到我的答案。在

提前感谢您的帮助!在


更新:我通过“说服”服务器我的用户代理是浏览器而不是爬虫来解决这个问题。在

^{pr2}$

谢谢你们的回复。在


Tags: textfrom文本import命令http网页read
2条回答

您可以使用Selenium获取内容。下载服务器和客户端驱动程序,运行服务器并运行以下命令:

from selenium import selenium
s = selenium("localhost", 4444, "*chrome", "http://tagger.steve.museum")
s.start()

s.open("/steve/object/141913")

text = s.get_html_source()
print text

这个胡言乱语是对'http://tagger.steve.museum/steve/object/141913'请求的真正服务器响应。实际上,它看起来像是模糊的JavaScript,如果由浏览器执行,则加载页面内容。在

要获得这些内容,您需要执行这个JavaScript,这在Python中可能是一个非常困难的任务。如果您还想这样做,请查看^{}。在

相关问题 更多 >