python urllib2返回garbag

2024-07-07 08:25:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用python下载一个web页面并访问页面上的一些元素。我在下载页面时遇到了一个问题:内容是垃圾。这是本页的第一行:

‹í}évÛH²æïòSd±ÏmÉ·’¸–%ÕhµÕ%ÙjI¶«JããIÐ(‰îî{æ1æ÷¼Æ¼Í}’ù"à""’‚d÷t»N‰$–\"ãˈŒˆŒÜøqïíîùï'û¬¼­gôÁnžm–úq<ü¹R¹¾¾._›å ìUôv»]¹¡gJÌqÃÍ’‡%z‹[ÎÖ3†[(,jüËȽÚ,í~ÌýX;y‰Ùò×f)æ7q…JzÉì¾F<ÞÅ]­Uª

此问题仅在以下网站上发生:http://kickass.to。有没有可能他们保护了自己的网页?这是我的python代码:

^{pr2}$

结果:

text/html; charset=UTF-8
{'confidence': 0.0, 'encoding': None}

它看起来像是一个编码问题,但chardet检测到'None'。。有什么想法吗?在


Tags: tononewebhttp元素内容网站页面
1条回答
网友
1楼 · 发布于 2024-07-07 08:25:06

此页以gzip编码返回。在

(请尝试打印response.headers['content-encoding']以验证这一点。)

网站很可能不尊重请求中的“接受编码”字段,并建议客户端支持gzip(大多数现代浏览器都支持gzip)。在

urllib2不支持压缩,但您可以使用gzip模块来实现这一点,例如在这个线程中:Does python urllib2 automatically uncompress gzip data fetched from webpage?。在

相关问题 更多 >