刮花蜘蛛的api
ArachneScrap的Python项目详细描述
arachne为您的scrapySpider对象提供了一个包装器,用于通过flask应用程序运行它们。您只需在设置文件中自定义SPIDER_SETTINGS。
安装
您可以从pip安装arachnescrapy
pip install ArachneScrapy
示例设置
这是项目中蜘蛛的示例设置文件。设置文件应该被称为settings.py,以便arachne找到它,如下所示:
# settings.py file SPIDER_SETTINGS = [ { 'endpoint': 'dmoz', 'location': 'spiders.DmozSpider', 'spider': 'DmozSpider' } ]
用法
它看起来非常类似于flask应用程序,但是由于scrapy依赖于python twisted包,因此我们需要使用twisted运行flask应用程序
from twisted.web.wsgi import WSGIResource from twisted.web.server import Site from twisted.internet import reactor from arachne import Arachne app = Arachne(__name__) resource = WSGIResource(reactor, reactor.getThreadPool(), app) site = Site(resource) reactor.listenTCP(8080, site) if __name__ == '__main__': reactor.run()