如何修复不支持的URL方案错误？

from flask import Flask, jsonify, request import scrapy import subprocess class ClassSpider(scrapy.Spider): name = 'mySpider' #start_urls = [] #pages = 0 news = [] def __init__(self, url, nbrPage): self.pages = nbrPage self.start_urls = [] self.start_urlsappend(url) def parse(self): ... def run(self): subprocess.check_output(['scrapy', 'crawl', 'mySpider', '-a', f'url={self.start_urls}', '-a', f'nbrPage={self.pages}']) return self.news app = Flask(__name__) data = [] @app.route('/', methods=['POST']) def getNews(): mySpiderClass = ClassSpider(request.json['url'], 2) return jsonify({'data': mySpider.run()}) if __name__ == "__main__": app.run(debug=True)

1条回答

网友

1楼 · 发布于 2024-09-26 18:10:23

我猜发生这种情况是因为您首先将url附加到self.start_urls，然后使用列表self.start_urls调用ClassSpidersrun方法，然后将列表附加到列表，最后得到的是嵌套列表而不是字符串列表。
为了避免这种情况，您可能应该如下更改__init__方法：

    def __init__(self, url, nbrPage):
        self.pages      = nbrPage
        self.url        = url
        self.start_urls = []
        self.start_urls.append(url)

然后在{}中传递{}而不是{}：

    def run(self):
        subprocess.check_output(['scrapy', 'crawl', 'mySpider', '-a', f'url={self.url}', '-a', f'nbrPage={self.pages}'])
        return self.news

相关问题更多 >

编程相关推荐

热门问题

热门文章