Scrapy：遍历列表和分页失败

import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from propub.items import PropubItem from scrapy.http import Request class propubSpider(CrawlSpider): name = 'prop$' allowed_domains = ['https://projects.propublica.org'] max_pages = 40 start_urls = [ 'https://projects.propublica.org/docdollars/search?state%5Bid%5D=33', 'https://projects.propublica.org/docdollars/search?page=2&state%5Bid%5D=33', 'https://projects.propublica.org/docdollars/search?page=3&state%5Bid%5D=33'] rules = (Rule(SgmlLinkExtractor(allow=('\\search?page=\\d')), 'parse_start_url', follow=True),) def list_iterator(self): for i in range(self.max_pages): yield Request('https://projects.propublica.org/docdollars/search?page=d' % i, callback=self.parse) def parse(self, response): for sel in response.xpath('//*[@id="payments_list"]/tbody'): item = PropubItem() item['payee'] = sel.xpath('tr[1]/td[1]/a[2]/text()').extract() item['link'] = sel.xpath('tr[1]/td[1]/a[1]/@href').extract() item['city'] = sel.xpath('tr[1]/td[2]/text()').extract() item['state'] = sel.xpath('tr[1]/td[3]/text()').extract() item['company'] = sel.xpath('tr[1]/td[4]').extract() item['amount'] = sel.xpath('tr[1]/td[7]/span/text()').extract() yield item

import scrapy from scrapy.item import Item, Field class PropubItem(scrapy.Item): payee = scrapy.Field() link = scrapy.Field() city = scrapy.Field() state = scrapy.Field() company = scrapy.Field() amount = scrapy.Field() pass

1条回答

网友

1楼 · 发布于 2024-06-25 23:34:23

需要修复多个问题：

使用start_requests()方法代替list_iterator()

此处缺少%：

yield Request('https://projects.propublica.org/docdollars/search?page=%d' % i, callback=self.parse)
#                                                                 HERE^

您不需要CrawlSpider，因为您是通过start_requests()-use regularscrapy.Spider提供分页链接的
如果XPath表达式能够按类属性匹配单元格，则更可靠

固定版本：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章