为什么从页面检索到的文本有时看起来像胡言乱语？ - 问答 - Python中文网

为什么从页面检索到的文本有时看起来像胡言乱语？

2024-06-25 23:36:09 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在Python中使用urllib和urllib2来打开和阅读网页，但是有时候，我得到的文本是不可读的。例如，如果我运行以下命令：

import urllib

text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text

我收到一些不可读的文本。我读过这些帖子：

Gibberish from urlopen

Does python urllib2 automatically uncompress gzip data fetched from webpage?

但似乎找不到我的答案。在

提前感谢您的帮助！在

更新：我通过“说服”服务器我的用户代理是浏览器而不是爬虫来解决这个问题。在

^{pr2}$

谢谢你们的回复。在

Tags： text from 文本 import 命令 http 网页 read

2条回答

网友

1楼 · 编辑于 2024-06-25 23:36:09

您可以使用Selenium获取内容。下载服务器和客户端驱动程序，运行服务器并运行以下命令：

from selenium import selenium
s = selenium("localhost", 4444, "*chrome", "http://tagger.steve.museum")
s.start()

s.open("/steve/object/141913")

text = s.get_html_source()
print text

网友

2楼 · 编辑于 2024-06-25 23:36:09

这个胡言乱语是对'http://tagger.steve.museum/steve/object/141913'请求的真正服务器响应。实际上，它看起来像是模糊的JavaScript，如果由浏览器执行，则加载页面内容。在

要获得这些内容，您需要执行这个JavaScript，这在Python中可能是一个非常困难的任务。如果您还想这样做，请查看^{}。在

相关问题更多 >

编程相关推荐

热门问题

热门文章