如何使用BaseDupeFi的Python Scrapy

2024-10-01 19:26:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个网站有很多这样的页面:

mywebsite/?page=1

mywebsite/?page=2

...

...

...

mywebsite/?page=n

每个页面都有指向玩家的链接。当你点击任何一个链接,你就会转到那个玩家的页面。在

用户可以添加玩家,所以我将结束这种情况。在

Player1page=1中有一个链接。在

Player10page=2中有一个链接

一小时后

因为用户添加了新玩家。我会有这种情况。

Player1在^{中有一个链接

Player10page=4中有一个链接

而像Player100Player101这样的新玩家在page=1中有链接

我想从所有玩家那里得到他们的信息。但是,我不想抛弃那些我已经抛弃的球员。我的问题是如何使用scrapy中的BaseDupeFilter来识别这个播放器被刮伤了,而这个没有。记住,我想在网站的pages上sracp,因为每个页面每次都有不同的玩家。在

谢谢。在


Tags: 用户网站链接page玩家情况页面指向
1条回答
网友
1楼 · 发布于 2024-10-01 19:26:39

我会采取另一种方法,在spider运行期间,尽量不查询最后一个玩家,而是使用最后一个刮取的玩家的预先计算参数来启动spider:

scrapy crawl <my spider> -a last_player=X

那么你的蜘蛛可能看起来像:

^{pr2}$

相关问题 更多 >

    热门问题