在使用提取器的BoilerPy3中,在一些网站上,我得到了“HTTP错误403:禁止”。查看代码,它似乎调用了urllib,并且只获取不带标题的url。我该怎么做
也许有人可以创建一个“样板”标签
from boilerpy3 import extractors
extractor = extractors.ArticleExtractor()
url = 'https://www.enca.com/south-africa/benghazi-hospital-security-tightened-following-car-bombing'
try:
doc = extractor.get_doc_from_url(url)
except HTTPError as e:
print (e)
与其试图修改} 库,然后使用结果调用
urllib
调用,不如自己处理请求,例如使用^{BoilerPy3
。例如:这会让你得到预期的文本
相关问题 更多 >
编程相关推荐