擅长:python、mysql、java
<p>在<code>parse</code>方法中,逐个接收<code>start_urls</code>的响应</p>
<p>如果您只想从<code>start_urls</code>响应中获取信息,那么您的代码就可以了。但是您的解析方法应该在您的<code>craigslist_spider</code>类中,而不是在该类之外。在</p>
<pre><code>def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select("//span[@class='pl']")
items = []
for site in sites:
item = CraigslistItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
items.append(item)
#print title, link
return items
</code></pre>
<p>如果您想从起始URL获取一半信息,从<code>start_urls</code>响应中的<code>anchor</code>获取一半信息,该怎么办?在</p>
^{pr2}$
<p>您只需要在parse方法中<code>yield Request</code>,并使用<code>Request</code>的<code>meta</code>来发送{<cd8>}</p>
<p>然后在<code>anchor_page</code>中提取<code>old_item</code>,在其中添加新值并简单地生成它。在</p>