我有一个网站有很多这样的页面:
mywebsite/?page=1
mywebsite/?page=2
...
...
...
mywebsite/?page=n
每个页面都有指向玩家的链接。当你点击任何一个链接,你就会转到那个玩家的页面。在
用户可以添加玩家,所以我将结束这种情况。在
Player1
在page=1
中有一个链接。在
Player10
在page=2
中有一个链接
Player1
在^{
Player10
在page=4
中有一个链接
而像Player100
和Player101
这样的新玩家在page=1
中有链接
我想从所有玩家那里得到他们的信息。但是,我不想抛弃那些我已经抛弃的球员。我的问题是如何使用scrapy中的BaseDupeFilter
来识别这个播放器被刮伤了,而这个没有。记住,我想在网站的pages
上sracp,因为每个页面每次都有不同的玩家。在
谢谢。在
我会采取另一种方法,在spider运行期间,尽量不查询最后一个玩家,而是使用最后一个刮取的玩家的预先计算参数来启动spider:
那么你的蜘蛛可能看起来像:
^{pr2}$相关问题 更多 >
编程相关推荐