Spider在项目.json金融机构

# -*- coding: utf-8 -*- from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from captcha.items import CaptchaItem class CaptchaSpider(CrawlSpider): name = "CaptchaSpider" allowed_domains = ["*****.ac.in"] start_urls = [ "https://*****.ac.in/*****.asp" ] def parse_item(self, response): item = CaptchaItem() hxs = HtmlXPathSelector(response) item['im'] = hxs.select('//img/@src').extract() return item

1条回答

网友

1楼 · 发布于 2024-10-01 02:32:24

如果爬网时出错或没有返回任何项，则输出文件将只包含[。你知道吗

在您的例子中，是因为缩进，parse_item()应该缩进：

class CaptchaSpider(CrawlSpider):
    name = "CaptchaSpider"
    allowed_domains = ["*****.ac.in"]
    start_urls = [
      "https://*****.ac.in/*****.asp"
    ]

    def parse_item(self, response):
        item = CaptchaItem()
        hxs = HtmlXPathSelector(response)
        item['im'] = hxs.select('//img/@src').extract()
        return item

我已经测试并复制了它：

$ scrapy runspider spider.py -o items.json
...
$ cat items.json
[

相关问题更多 >

编程相关推荐

热门问题

热门文章