我正在用python为manga主机Batoto构建一个基本的数据爬虫程序。出于某些原因,URL有时起作用,有时不起作用。例如:
from bs4 import BeautifulSoup
from urllib2 import urlopen
x= urlopen(*manga url here*)
y = BeautifulSoup(x)
print y
结果应该是页面的标签汤,但我得到了一个大墙这个
^{pr2}$包装在html和正文标记中。在
有时我会继续尝试,但它是如此的不一致,我不知道它的原因。在
任何帮助都将不胜感激。在
urlopen似乎存在编码问题,requests工作正常:
使用urlopen可以得到以下结果:
^{pr2}$因此,正如您所见,这是}的问题。在
urlopen
而不是{服务器正在返回gzip字节。因此,要使用
urllib2
下载内容:这将检查内容是否与
^{pr2}$requests
返回的page.text
相同:{{3>强烈建议使用cd3}和更强大的处理能力。在
相关问题 更多 >
编程相关推荐