用Scrapy创建.csv文件

2024-10-01 00:21:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图运行一个spider,它从http://www.hltv.org/?pageid=188&eventid=0&gameid=2获取某些信息,并用这些数据创建一个.csv文件。我希望spider遍历每个日期并为每个列出的日期获取关键信息:http://www.hltv.org/?pageid=188&matchid=19029&eventid=0&gameid=2

到目前为止,我得到的是:

import scrapy

class hltvspider(scrapy.Spider):
    name = "hltvspider"
    allowed_domains = ["hltv.org"]
    start_urls = ["http://www.hltv.org/?pageid=188&eventid=0&gameid=2"]

    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            title = sel.xpath('a/text()').extract()
            link = sel.xpath('a/@href').extract()
            desc = sel.xpath('text()').extract()
            print title, link, desc

以下是我得到的输出:

^{pr2}$

Tags: org信息httpresponsewwwextractxpathspider
1条回答
网友
1楼 · 发布于 2024-10-01 00:21:09

看看这个对你有用吗

import scrapy
from scrapy.selector import Selector

from megacritics.items import MegacriticsItem

class testspider(scrapy.Spider):
    name = "pupu"
    allowed_domains = ["hltv.org"]
    start_urls = ["http://www.hltv.org/?pageid=188&eventid=0&gameid=2"]

    def parse(self,response):
        hxs = Selector(response)
        sites = hxs.select('//div[@style="width:606px;height:22px;background-color:white"]')
        items = []
        for site in sites:
            item = MegacriticsItem()
            item['date'] = site.select('.//div[@style="padding-left:5px;padding-top:5px;"]/a/div/text()').extract()
            # item['team1'] = site.select('.//div[@class="covSmallHeadline"]/text()').extract()
            # item['team2'] = site.select('.//div[@class="covSmallHeadline"]/text()').extract()
            # item['map'] = site.select('.//div[@class="covSmallHeadline"]/text()').extract()
            # item['event'] = site.select('.//div[@class="covSmallHeadline"]/text()').extract()
            items.append(item)
        return items

相关问题 更多 >