我试图用python下载一个web页面并访问页面上的一些元素。我在下载页面时遇到了一个问题:内容是垃圾。这是本页的第一行:
‹í}évÛH²æïòSd±ÏmÉ·’¸–%ÕhµÕ%ÙjI¶«JããIÐ(‰îî{æ1æ÷¼Æ¼Í}’ù"à""’‚d÷t»N‰$–\"ãˈŒˆŒÜøqïíîùï'û¬¼gôÁnžm–úq<ü¹R¹¾¾._›å ìUôv»]¹¡gJÌqÃÍ’‡%z‹[ÎÖ3†[(,jüËȽÚ,í~ÌýX;y‰Ùò×f)æ7q…JzÉì¾F<ÞÅ]Uª
此问题仅在以下网站上发生:http://kickass.to。有没有可能他们保护了自己的网页?这是我的python代码:
^{pr2}$结果:
text/html; charset=UTF-8
{'confidence': 0.0, 'encoding': None}
它看起来像是一个编码问题,但chardet检测到'None'。。有什么想法吗?在
此页以
gzip
编码返回。在(请尝试打印
response.headers['content-encoding']
以验证这一点。)网站很可能不尊重请求中的“接受编码”字段,并建议客户端支持gzip(大多数现代浏览器都支持gzip)。在
urllib2
不支持压缩,但您可以使用gzip
模块来实现这一点,例如在这个线程中:Does python urllib2 automatically uncompress gzip data fetched from webpage?。在相关问题 更多 >
编程相关推荐