我有一个现有的脚本(主.py)这就需要收集数据。在
我开始了一个很糟糕的项目来检索这些数据。现在,有什么办法吗主.py是否可以将scray作为项生成器检索数据,而不是使用项管道持久化数据?在
像这样的东西真的很方便,但我不知道怎么做,如果可行的话。在
for item in scrapy.process():
我在那里找到了一个潜在的解决方案:https://tryolabs.com/blog/2011/09/27/calling-scrapy-python-script/,使用多线程的队列。在
尽管我知道这种行为与分布式爬行不兼容,这正是Scrapy的目的,但我还是有点惊讶,您不能将这个特性用于较小的项目。在
在Twisted或Tornado应用程序中可以这样做:
其主要思想是监听item_scraped信号,然后用更好的API将其包装到一个对象中。在
请注意,您需要在主.py脚本,上面的例子twisted.defer.inlineCallbacks或者龙卷风发电机协同程序. 在
您可以从爬虫程序发送json数据并获取结果。具体做法如下:
有蜘蛛:
写一个跑步者.py类似脚本:
^{pr2}$然后从你的主.py作为:
注意
正如您所知,这不是使用Scrapy的最佳方法,但是对于不需要复杂的后期处理的快速结果,此解决方案可以提供您所需的。在
我希望有帮助。在
相关问题 更多 >
编程相关推荐