索引web中的步骤

2024-05-17 03:20:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我在写一个网络爬虫(聚焦网络爬虫),其中:
输入:seedsURL
产量:大种子

  def crawl(seedURL, pageslimit):
      crawling code ...

      return list of urls crawled 

现在我需要索引和存储数据,以便于快速准确的信息检索(搜索引擎)。在

  1. 我的爬虫返回一个URL列表,如何将它们传递到索引阶段?我应该下载文本文件中每一页的内容吗?在
  2. 是否有一些工具或库来执行索引步骤?还是需要人工完成?在

Tags: of网络returndefcodeurls种子爬虫
1条回答
网友
1楼 · 发布于 2024-05-17 03:20:17

您绝对应该使用Scrapy来完成这项web爬网作业。我将给你一个例子,说明如何使用它以及你的web索引应该如何使用。如果有其他问题,请访问网站!在

使用Scrapy提供的XPath表达式,可以提取所需的资源,包括整个文件。在

例如:<h1>Darwin - The Evolution Of An Exhibition</h1>

XPath表达式://h1/text()

为什么要这样做?使用h1标记,您可以将它变成字典中的键。有了字典,你就可以更容易地访问这些文件。是这样的:

web_index = {
    'Darwin': 'example.html',
    'Evolution': 'example.html'
}

最好将web索引放在字典中,因为它是一个键-值对,您可以从中轻松地“搜索”,而不像在依赖索引的列表中那样。在

相关问题 更多 >