我是python编程新手,我很难让python爬行脚本工作。我需要你的提示来修理它。
实际上,我有一个正在工作的scrapy脚本,它在给定的url中爬行并提取链接。我想让它在任何动态给定的url上工作。所以我开始通过命令行向scray传递起始url和域,如下所示。在
scrapy crawl myCrawler -o test.json -t json -a allowedDomains="xxx" -a startUrls="xxx" -a allowedPaths="xxx"
但是,它不起作用。看起来规则没有从参数中获取值。由于我缺乏python技巧,我不知道如何修复这个问题。有人请帮帮我。在
下面是代码片段。在
^{pr2}$
幸运的是它工作了,在How to dynamically set Scrapy rules?找到了答案
这是工作代码
相关问题 更多 >
编程相关推荐