如何在scrapy spid中访问管道数据库池

class PostgresStorePipeline(object): """A pipeline to store the item in a MySQL database. This implementation uses Twisted's asynchronous database API. """ def __init__(self, dbpool): print "Opening connection pool..." dispatcher.connect(self.spider_closed, signals.spider_closed) self.dbpool = dbpool @classmethod def from_settings(cls, settings): dbargs = dict( host=settings['MYSQL_HOST'], database=settings['MYSQL_DBNAME'], user=settings['MYSQL_USER'], password=settings['MYSQL_PASSWD'], #charset='utf8', #use_unicode=True, ) dbpool = adbapi.ConnectionPool('psycopg2', cp_max=2, cp_min=1, **dbargs) return cls(dbpool)

1条回答

网友

1楼 · 发布于 2024-10-05 12:24:20

我想你的意思是URL，记住对于scrapy，item是一个数据输出，pipeline是处理这些输出项的机制。在

当然，您不需要打开许多连接来执行数据库查询，但是您必须执行必要的查询。这取决于您的数据库中有多少记录只执行一个查询，还是每个URL执行一个查询，您应该测试哪一个更适合您的情况。在

我建议您使用如下内容设置您自己的^{}：

from scrapy.dupefilters import RFPDupeFilter

class DBDupeFilter(RFPDupeFilter):

    def __init__(self, *args, **kwargs):
        # self.cursor = .....                       # instantiate your cursor
        super(DBDupeFilter, self).__init__(*args, **kwargs)

    def request_seen(self, request):
        if self.cursor.execute("myquery"):          # if exists
            return True
        else:
            return super(DBDupeFilter, self).request_seen(request)

    def close(self, reason):
        self.cursor.close()                         # close  your cursor
        super(DBDupeFilter, self).close(reason)

更新

这里的问题是DUPEFILTER_CLASS没有在其request_seen对象上提供spider，甚至没有提供构造函数，所以我认为最好的方法是使用一个Downloader Middleware，在这里可以引发一个IgnoreRequest异常。在

在spider上实例化db连接，可以在spider本身（构造函数）上实现，也可以通过中间件或管道上的信号添加，我们将在中间件上添加：

from scrapy.exceptions import IgnoreRequest

class DBMiddleware(object):

    def __init__(self):
        pass

    @classmethod
    def from_crawler(cls, crawler):
        o = cls()
        crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
        return o

    def spider_opened(self, spider):
        spider.dbpool = adbapi.ConnectionPool('psycopg2', cp_max=2, cp_min=1, **dbargs)

    def process_request(self, request, spider):
        if spider.dbpool... # check if request.url inside the database
            raise IgnoreRequest()

现在在您的管道中，删除dbpool的实例化，并在必要时从spider参数中获取它，记住process_item接收项目和spider作为参数，因此您应该能够使用spider.dbpool来检查数据库连接。
记住activate your middleware。

这样，您应该只在spider对象内执行一个db连接实例。在

相关问题更多 >

编程相关推荐

热门问题

热门文章