PyLucen的自定义非索引字

2024-06-26 15:00:53 发布

您现在位置:Python中文网/ 问答频道 /正文

{pylene>在给定的单词中,{pylene}是基于一个filter}的。示例调用如下:

result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)

似乎应该很容易替换停止词集的参数,但这实际上有点挑战性:

^{pr2}$

这是一个Set,无法实现:

>>> Set()

NotImplementedError: ('instantiating java class', <type 'Set'>)

其他地方建议使用PyLucene附带的PythonSet,但结果发现这不是Set的实例,不能与StopFilter一起使用。在

如何给一个StopFilter一组新的停止词?在


Tags: true示例参数englishresultfilter单词stop
1条回答
网友
1楼 · 发布于 2024-06-26 15:00:53

我通过在pylucene dev list上写这个问题的时候发现了这个问题的答案:

http://mail-archives.apache.org/mod_mbox/lucene-pylucene-dev/201202.mbox/thread

可以使用自定义列表定义StopFilter,如下所示:

mystops = HashSet(Arrays.asList(['a','b','c']))
result = StopFilter(True, result, mystops)

相关问题 更多 >