使用Scrapy对网站进行分页并获取价格

2024-10-04 11:30:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我开始关注Scrapy,希望有一个蜘蛛来获取MTG卡的一些价格

首先,我不知道我是否100%正确地使用了在函数开头选择所有可用卡的链接:

name = 'bazarmtgbot'
allowed_domains = ['www.bazardebagda.com.br']
start_urls = ['https://bazardebagda.com.br/?view=ecom/itens&tcg=1&txt_estoque=1&txt_limit=160&txt_order=1&txt_extras=all&page=1']

1-我应该使用这种起始URL吗

2-那么,如果你访问该网站,我找不到如何获得该卡的单位和价格,它们是空白DIV的

我的名字是用:

titles = response.css(".itemNameP.ellipsis::text").extract()

3-我找不到如何对此网站进行分页以获取下一组项目单位/价格。我需要复制起始URL N次吗


Tags: 函数namebrtxtcomurl网站链接
1条回答
网友
1楼 · 发布于 2024-10-04 11:30:52
  1. (和3)从给定的页面开始就可以了。在进行抓取时,您可以通过查找“下一页”按钮、抓取该链接和yield要跟踪的scrapy.Request等方式将要抓取的其他URL排队。请参阅Scrapy教程的this part

  2. 该网站可能会使用一系列技术来阻挠价格的削减:空白价格div正在加载一个像下面和切碎的部分,用杂乱无章的CSS类名来形成数字。您可能需要进行一些OCR或找到其他方法。请记住,因为他们将达到这个程度,可能还有其他的反刮擦对策

gibberish number map

相关问题 更多 >