零碎的空输出，但数据被刮除

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from teste.items import IngressoRapidoItem class IngressoRapidoSpider(BaseSpider): name = "IR" allowed_domains = ["ingressorapido.com.br"] start_urls = ( 'http://www.ingressorapido.com.br/eventos.aspx?genero=55', ) def parse(self, response): hxs = HtmlXPathSelector(response) items = [] item = IngressoRapidoItem() item['banda'] = hxs.select('normalize-space(//a[contains(@href,"Evento")] /text())').extract() item['local'] = hxs.select('normalize-space(//td/span[contains(@style, "normal")]/text())').extract() items.append(item) return items

1条回答

网友

1楼 · 发布于 2024-10-05 20:11:00

在运行了上面发布的代码之后，我可以确认数据是被刮取的，但是这些数据是否真的有用很难说，因为只有一个项目创建了场馆，但没有活动名称。在

我稍微修改了xpath代码，并且能够为http://www.ingressorapido.com.br/eventos.aspx?genero=55的第一页上显示的所有10个事件返回一个条目。然后，我就可以毫无困难地将刮取的数据写入json文件。在

如果您有任何问题，或者xpath代码没有返回所需的数据，请告诉我。在

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from teste.items import IngressoRapidoItem

class IngressoRapidoSpider(BaseSpider):
    name = "IR"
    allowed_domains = ["ingressorapido.com.br"]
    start_urls = (
        'http://www.ingressorapido.com.br/eventos.aspx?genero=55',
         )

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        events = hxs.select('//table[@id="ContentPlaceHolder1_dlEventos"]//table//td[2]')
        items = []
        for e in events:
            item = IngressoRapidoItem()
            item['banda'] = e.select('normalize-space(.//a//text())').extract()
            item['local'] = e.select('normalize-space(.//span//text())').extract()
            items.append(item)
        return items

相关问题更多 >

编程相关推荐

热门问题

热门文章