Spider在项目.json金融机构

2024-10-01 02:32:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我写蜘蛛是为了从网站中提取一个图像。但是项目.json文件中只有[字符]。 请帮帮我。 我的蜘蛛档案是本文件:你知道吗

    # -*- coding: utf-8 -*-

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from captcha.items import CaptchaItem

class CaptchaSpider(CrawlSpider):
    name = "CaptchaSpider"
    allowed_domains = ["*****.ac.in"]
    start_urls = [
      "https://*****.ac.in/*****.asp"
    ]

def parse_item(self, response):
    item = CaptchaItem()
    hxs = HtmlXPathSelector(response)
    item['im'] = hxs.select('//img/@src').extract()
    return item

我的项目.py文件是本文件:你知道吗

import scrapy


class CaptchaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    im = scrapy.Field()
    pass

Tags: 文件项目nameinfromimportitemac
1条回答
网友
1楼 · 发布于 2024-10-01 02:32:24

如果爬网时出错或没有返回任何项,则输出文件将只包含[。你知道吗

在您的例子中,是因为缩进,parse_item()应该缩进:

class CaptchaSpider(CrawlSpider):
    name = "CaptchaSpider"
    allowed_domains = ["*****.ac.in"]
    start_urls = [
      "https://*****.ac.in/*****.asp"
    ]

    def parse_item(self, response):
        item = CaptchaItem()
        hxs = HtmlXPathSelector(response)
        item['im'] = hxs.select('//img/@src').extract()
        return item

我已经测试并复制了它:

$ scrapy runspider spider.py -o items.json
...
$ cat items.json
[

相关问题 更多 >