python scrapy从多个解析函数构建同一项：在循环中调用第二个解析函数

for r in [1,2]: for t in [1,2]: dataName = 'lane'+str(r)+"Player"+str(t)+"Name" dataHolder = 'lane'+str(r)+"Player"+str(t) nameP = item[dataName] print('before parse ==> lane = ' + str(r) + " team = " + str(t)) urlP = 'https://www.leagueofgraphs.com/summoner/euw/'+nameP+'#championsData-soloqueue' yield Request( urlP, callback=self.parsePlayer , meta={'item': item , "player" : dataHolder} )

def parsePlayer( self , response ): item = response.meta['item'] player = response.meta['player'] print('after parse ====> ' + player) mmr = response.css('.rank .topRankPercentage::text').extract_first().strip().lower() mmrP = player+"Mmr" item[mmrP] = mmr # yield item after the last iteration

1条回答

网友

1楼 · 发布于 2024-06-30 08:55:29

Scrapy是异步工作的（在它们的official documentation中解释得很清楚），这就是为什么打印顺序看起来是随机的。除了顺序之外，预期的输出看起来与您得到的结果完全相同。如果你能解释为什么订单是相关的，我们也许能更好地回答你的问题

如果您希望生成一个项目，其中包含所有4名玩家的数据，可以使用以下结构：

    def start_requests(self):
        # prepare the urls & players:
        urls_dataHolders = []
        for r in [1, 2]:
            for t in [1, 2]:
                dataName = 'lane' + str(r) + "Player" + str(t) + "Name"
                dataHolder = 'lane' + str(r) + "Player" + str(t)
                urlP = 'https://www.leagueofgraphs.com/summoner/euw/' + dataName\
                       + '#championsData-soloqueue'
                urls_dataHolders.append((urlP, dataHolder))

        # get the first url & dataholder
        url, dataHolder = urls_dataHolders.pop()
        yield Request(url,
                      callback=self.parsePlayer,
                      meta={'urls_dataHolders': urls_dataHolders,
                            'player': dataHolder})

    def parsePlayer(self, response):
        item = response.meta.get('item', {})
        urls_dataHolders = response.meta['urls_dataHolders']
        player = response.meta['player']
        mmr = response.css(
            '.rank .topRankPercentage::text').extract_first().strip().lower()
        mmrP = player + "Mmr"
        item[mmrP] = mmr
        try:
            url, dataHolder = urls_dataHolders.pop()
        except IndexError:
            # list of urls is empty, so we yield the item
            yield item
        else:
            # still urls to go through
            yield Request(url,
                          callback=self.parsePlayer,
                          meta={'urls_dataHolders': urls_dataHolders,
                                'item': item,
                                'player': dataHolder})

相关问题更多 >

编程相关推荐

热门问题

热门文章