Python中文
首页
教程
问答
标签
搜索
登录
注册
无需爬网就可以快速解析url
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个url列表,我想抓取并遵循所有相同的管道。我怎么开始呢?我真的不知道从哪里开始。在</p> <p>主要的想法是我的爬行工程通过一个网站和网页。然后生成解析页面并更新数据库。我现在要实现的是解析数据库中所有现有的url的页面,这些url当天没有被爬网。在</p> <p>我尝试过使用<code>close_spider</code>方法在管道中执行此操作,但无法获取这些url以请求/解析。一旦我生成整个<code>close_spider</code>方法就不再被调用。在</p> <pre><code>def close_spider(self, spider): for item in models.Items.select().where(models.Items.last_scraped_ts < '2016-02-06 10:00:00'): print item.url yield Request(item.url, callback=spider.parse_product, dont_filter=True) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以简单地复制并粘贴到start_url中,如果您没有override start_请求,parse将是默认的回调。如果它是一个很长的列表,并且您不需要难看的代码,那么您可以覆盖start_请求,打开文件或执行db调用,并为其中的每个项生成一个url请求和回调以进行解析。这将允许您使用解析函数和管道,并通过scray处理并发。如果你只是有一个没有额外基础设施的列表,并且列表不太长,Sulot的答案就更容易了。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
得到媒体:缩略图url从rss源
1 回答
得到对数正态随机数给定log10均值和log10标准差
8 回答
得到工作,波斯特不
10 回答
得到左半积和右半积的绝对差最小的元素
8 回答
得到幻数错误?
9 回答
得到异常错误“线程中的异常-1(最有可能在解释器关闭期间引发)”,它使用Parami
4 回答
得到循环
8 回答
得到德语的语法变化
3 回答
得到我认为是好的结果,但还不够
1 回答
得到截断svd.transform()返回float16而不是float64
9 回答
得到所有不相交的集合的并集
3 回答
得到所有函数求值组合的矩阵
9 回答
得到扭曲延迟取消错误当使用刮痧时
2 回答
得到控制台.log使用Selenium python从Chrome输出一次,然后调用第二次为空
8 回答
得到操作系统环境通过NSSM运行Python
9 回答
得到数学方程中的表达式
6 回答
得到数据库结构属性
4 回答
得到整数的后三位
7 回答
得到整数的第n位精度
9 回答
得到最低落的reddit评论
6 回答