Python文件索引和搜索

2024-07-07 06:59:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大的设置文件(hdf),我需要启用搜索。对于Java,我将使用Lucene来实现这一点,因为它是一个文件和文档索引引擎。但我不知道python的等价物是什么。

有谁能推荐我应该使用哪一个库来索引大量文件以进行快速搜索?或者你更喜欢自己滚?

我已经看过pylucenelupy,但是这两个项目看起来都相当不活跃和不受支持,所以我不确定是否应该依赖它们。

最后说明: Woosh和pylucene看起来很有前途,但是Woosh仍然是alpha,所以我不确定是否要依赖它,而且我在编译pylucene时遇到了问题,而且没有实际的发行版。在我看了更多的数据之后,主要是数字和默认文本字符串,所以现在关闭索引引擎对我没有帮助。希望这些图书馆能稳定下来,以后游客们会发现它们的一些用处。


Tags: 文件数据项目文档引擎alpha数字java
4条回答

我以前没有做过索引,但是以下可能会有帮助:

  1. pyIndex-http://rgaucher.info/beta/pyIndex/——Python的文件索引库
  2. http://www.xml.com/pub/a/ws/2003/05/13/email.html——这是一个使用Python和Lucene搜索Outlook电子邮件的脚本
  3. http://gadfly.sourceforge.net/-亚伦·沃特的牛虻数据库(我想你可以用这个来索引。我自己没用过。)

就使用HDF文件而言,我听说过一个叫做h5py的模块。

我希望这能有帮助。

我建议Sphinx。它非常活跃,有更多的功能,似乎比Lucene更快。

Lupyhas been retired而开发人员推荐使用PyLucene。至于PyLucene,它的邮件列表活动可能很低,但绝对受支持。事实上,它最近才变成了official apache subproject

你可能还想看看一个新的竞争者:Whoosh。它类似于lucene,但用纯python实现。

Lupyhas been retired而开发人员推荐使用PyLucene。至于PyLucene,它的邮件列表活动可能很低,但绝对受支持。事实上,它最近才变成official apache subproject

你可能还想看看一个新的竞争者:Whoosh。它类似于lucene,但用纯python实现。

相关问题 更多 >