擅长:python、mysql、java
<p>如果我做对了,你要抓取所有小于7天的页面。
一种方法是按顺序跟随每一页(假设第1页是最年轻的,第2页比第1页老,第3页比第2页老……)。在</p>
<p>你可以做些像</p>
<pre><code>start_urls = ['mywebsite/?page=1']
def parse(self, response):
sel = Selector(response)
DateDifference= sel.xpath('xpath for date difference').extract()[0]
i = response.meta['index'] if 'index' in response.meta else 1
if DateDifference.days < 8:
yield Request(Link, meta={'date': Date}, callback = self.crawl)
i += 1
yield Request('mywebsite/?page='+str(i), meta={'index':i}, callback=self.parse)
</code></pre>
<p>其思想是按顺序执行<code>parse</code>。如果这是您第一次进入函数,<code>response.meta['index']</code>没有定义:索引是1。如果这是一个在我们已经解析了另一个页面之后的调用,<code>response.meta['index']</code>被定义:索引表示当前被刮取的页面的编号。在</p>