奇怪的csv输出和丢失的请求

import csv from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.contrib.linkextractors import LinkExtractor from scrapy.http import FormRequest, Request from etsbot.items import TransactionItem from etsbot.middlewares import RandomProxy class EuetsbotdetSpider(CrawlSpider): name = 'euetsbotdet' allowed_domains = ['ec.europa.eu'] start_urls = [ 'http://ec.europa.eu/environment/ets/transaction.do' ] def parse(self, response): #self.data = csv.DictReader(open('/home/...t/items.csv','r')) #self.tids = [] #for self.row in self.data: # self.tids.append(self.row['transactionID']) self.tids = ['DE101096','AT231'] for self.id in self.tids: return FormRequest.from_response( response, formname='transactions_maxlength', formdata={'transactionID':self.id}, clickdata={'name': 'search'},callback=self.parseLinks ) def parseLinks(self,response): lex = LinkExtractor(allow=('http://ec.europa.eu/environment/ets/singleTransaction.do',),unique=True) for l in lex.extract_links(response): yield Request(l.url,method='GET',callback=self.parseDetail,) def parseDetail(self,response): sel = Selector(response) item = TransactionItem() item['transactionID'] = sel.xpath('//table/tr/td/input[@name="transactionID"]/@value').extract() item['transactionDate'] = sel.xpath('//table/tr/td/input[@name="transactionDate"]/@value').extract() lext = LinkExtractor(unique=True,restrict_xpaths = ('//*[@id="tblTransactionBlocksInformation"]/tr/td[6]/a[@class="resultlink"]'),) for l in lext.extract_links(response): yield Request(l.url,method='GET',meta={'item':item},callback=self.parseAccounttr) lexa = LinkExtractor(unique=True,restrict_xpaths = ('//*[@id="tblTransactionBlocksInformation"]/tr/td[7]/a[@class="resultlink"]'),) for l in lexa.extract_links(response): yield Request(l.url,method='GET',meta={'item':item},callback=self.parseAccountac) yield item def parseAccounttr(self,response): sel = Selector(response) item = response.meta['item'] item['tra_id'] = sel.xpath('//*[@id="tblAccountInfoReadonly"]/tr/td/input[@name="identifierInReg"]/@value').extract() yield item def parseAccountac(self,response): sel = Selector(response) item = response.meta['item'] item['acq_id'] = sel.xpath('//*[@id="tblAccountInfoReadonly"]/tr/td/input[@name="identifierInReg"]/@value').extract() yield item

2条回答

网友

1楼 · 编辑于 2024-09-29 09:25:16

我还没有测试过这段代码，但问题是，您在scrape的不同部分生成了3次该项（这就是为什么每个部分只包含您要查找的字段的子集）。你只需要在末尾有一个“收益项目”。我重写了代码，你可以在http://pastebin.com/dxsHZ7fZ找到它。在

网友

2楼 · 编辑于 2024-09-29 09:25:16

关于第一点，当你写下：

for self.id in self.tids:
    return FormRequest.from_response(
        response,
        formname='transactions_maxlength',
        formdata={'transactionID':self.id},
        clickdata={'name': 'search'},callback=self.parseLinks
        )

循环在第一次迭代时停止，因为您使用了return。在

将其更改为“yield循环”：

^{pr2}$

关于第二点，正如@EricValente所说，如果您希望每个事务ID有一个CSV行，那么您只需要为每个事务ID生成/返回一个条目

您可以开始在parseDetail中构建该项，并像您所做的那样将该项传递到meta中，但随后需要跟踪有多少请求未完成，以便在处理完每个响应后知道何时返回该项。这可能是相当棘手的正确做法。例如，您必须捕获请求失败。你可以试试scrapy-inline-requests，这很方便。在

另一个选择是在第一次抓取之后按事务ID进行后处理和分组，因此您可以手工构建CSV。在

另一个选择是不要对parseAccounttr()和parseAccountac()执行这些额外的请求：据我所知，在2个事务id中，tr[6]和{}中链接的文本值与您在后续回调中获取的identifierInReg属性具有相同的值

相关问题更多 >

编程相关推荐

热门问题

热门文章