信息检索用雪球词干算法
PyStemmer的Python项目详细描述
词干算法
pystemmer提供了对计算 词干词的词干形式这是一种最常见的 形态末端被移除;希望代表一个共同的 语言基础形式。这在构建搜索引擎时最有用 和信息检索软件;例如,使用词干 enabled应该能够找到包含“cycling”的文档 查询“周期”。
pystemmer为几种语言(主要是欧洲语言)提供了算法, 通过在python中包装snowball项目中的libstemmer库 模块。
它还为 中文:虽然这已经被一个改进的算法所取代,但是 原始算法可能对信息检索感兴趣 希望重现早期实验结果的研究人员。