我试图用scrapy做一些提取,但是它没有返回预期的html,我不知道问题出在哪里,如果可能是站点的安全性或其他原因,因为其他页面返回的结果是正确的。在
我试图在这个链接http://www.reclameaqui.com.br/busca/?q=estorno&empresa=Netshoes&pagina=2提取帖子列表,这是关于让客户满意的服务和产品,但是上面的代码返回的html并不包含帖子列表,只是一个简单的几乎为空的html。在
有人知道会发生什么吗?导致正确提取受阻的问题?在
代码很简单,与“垃圾”教程中的代码相同:
我已经尝试了一些爬虫桌面或在线工具,结果是一样的。在
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["reclameaqui.com.br"]
start_urls = [
"http://www.reclameaqui.com.br/busca/q=estorno&empresa=Netshoes&pagina=2"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
首先,您的
start_urls
中有一个错误。替换:有:
^{pr2}$此外,如果您要检查响应的来源,您将看到需要克服的更多挑战:
form
才能继续HTML本身被破坏了-立即关闭
form
,然后输入:使用} )-我曾试图使用^{} ,但未能解决它。第三个问题,如果不使用真正的浏览器,可以通过允许^{} 和{a4}来修复HTML来解决。在
FormRequest.from_response()
可以很容易地解决第一个问题。第二个是一个更严重的问题,你可能只使用一个真正的浏览器(查找^{下面是Python/scray中提到的上述思想(不工作-获取
Connection to the other side was lost in a non-clean fashion
错误-我怀疑不是所有的输入值/POST参数都计算出来了):有关
selenium
和ScrapyJS
设置的更多信息,请参阅:另外,请确保遵循Terms of Use页面上描述的规则。在
相关问题 更多 >
编程相关推荐