2024-05-17 03:20:17 发布
网友
我在写一个网络爬虫(聚焦网络爬虫),其中: 输入:seedsURL 产量:大种子
def crawl(seedURL, pageslimit): crawling code ... return list of urls crawled
现在我需要索引和存储数据,以便于快速准确的信息检索(搜索引擎)。在
您绝对应该使用Scrapy来完成这项web爬网作业。我将给你一个例子,说明如何使用它以及你的web索引应该如何使用。如果有其他问题,请访问网站!在
使用Scrapy提供的XPath表达式,可以提取所需的资源,包括整个文件。在
例如:<h1>Darwin - The Evolution Of An Exhibition</h1>
<h1>Darwin - The Evolution Of An Exhibition</h1>
XPath表达式://h1/text()
//h1/text()
为什么要这样做?使用h1标记,您可以将它变成字典中的键。有了字典,你就可以更容易地访问这些文件。是这样的:
web_index = { 'Darwin': 'example.html', 'Evolution': 'example.html' }
最好将web索引放在字典中,因为它是一个键-值对,您可以从中轻松地“搜索”,而不像在依赖索引的列表中那样。在
您绝对应该使用Scrapy来完成这项web爬网作业。我将给你一个例子,说明如何使用它以及你的web索引应该如何使用。如果有其他问题,请访问网站!在
使用Scrapy提供的XPath表达式,可以提取所需的资源,包括整个文件。在
例如:
<h1>Darwin - The Evolution Of An Exhibition</h1>
XPath表达式:
//h1/text()
为什么要这样做?使用h1标记,您可以将它变成字典中的键。有了字典,你就可以更容易地访问这些文件。是这样的:
最好将web索引放在字典中,因为它是一个键-值对,您可以从中轻松地“搜索”,而不像在依赖索引的列表中那样。在
相关问题 更多 >
编程相关推荐