porter2英文词干算法的一个实现。
porter2stemmer的Python项目详细描述
porter2英文词干算法的一个实现。
- 免费软件:BSD许可证
- 文档:http://porter2-stemmer.readthedocs.org/
什么是堵塞?
词干分析是在自然语言处理中使用的一种技术,它可以将单词的不同屈折形式减少到单个 不变根形式。根的形状称为茎,可能与 一言为定。
有什么好处?
很多事情,但是信息检索中的查询扩展是典型的例子。假设你正在建造一个 搜索引擎。如果有人搜索“猫”,如果给他们看包含“猫”这个词的文档就好了 我也是。除非查询和文档索引是词干化的,否则不会发生这种情况。堵塞可以被认为是一种减少 查询的特殊性,以便拉回更相关的结果。因此,这涉及到一种权衡。
这是什么类型的干茎器?
Porter2是一个后缀剥离词干分析器。它通过应用 更改为单词的最后部分。其他词干分析器的工作方式不同。例如,他们可能只是抬头看 表中的屈折形式并将其映射到形态根,或者他们可以使用聚类方法来 将不同的表单映射到中心表单。不同的方法有不同的优点和缺点。
我怎么用?
很简单。导入它,实例化一个词干分析器,然后离开:
from porter2stemmer import Porter2Stemmer stemmer = Porter2Stemmer() print(stemmer.stem('conspicuous'))
历史
1.0(2016-03-31)
- pypi上的第一个版本。