scrapy有可能在实际抓取数据之前浏览链接吗？

1条回答

网友

1楼 · 发布于 2024-06-28 19:35:27

是的，您可以在不刮取数据的情况下导航，不过您需要提取链接以使用xpath或css或CrawlSpider规则进行导航。这些链接只用于导航，不需要加载到项目中。你知道吗

没有要求你从你访问的每一个页面都把一些东西加载到一个项目中。考虑一个场景，在这个场景中，您需要对过去的登录进行身份验证，以获取您想要获取的数据。无需从登录页中刮取/管道/写入任何数据。你知道吗

出于您的目的：

def start_requests(self):
    forum_url = <spam>
    yield scrapy.Request(url=forum_url, callback=self.parse_forum)

def parse_forum(self, response):
    #get the urls
    for u in subforum_urls:
        yield scrapy.Request(url=u, callback=parse_subforum)

def parse_subforum(self, response):
    #get the other urls
    for u in thread_urls:
        yield scrapy.Request(url=u, callback=parse_thread)

def parse_thread(self, response):
    #get the data you want
    yield <the data>

相关问题更多 >

编程相关推荐

热门问题

热门文章

scrapy有可能在实际抓取数据之前浏览链接吗？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >