文本文档nlp解析与摘要的textrank的python实现
pytextrank的Python项目详细描述
基于 Mihalcea 2004 纸张。
对原始算法的修改 Rada Mihalcea等。 包括:
- 修复了错误;请参见Java impl, 2008
- 使用元素化而不是词干化
- 图表中包含的动词(但不包含在生成的关键短语中)
- 命名实体识别
- 摘要中使用的规范化关键字列组
此实现产生的结果更多地用于 作为机器学习中的特征向量,而不是学术论文 总结。
灵感来自Williams 2016 谈谈文本摘要。
示例用法
依赖项和安装
此代码依赖于其他几个python项目:
从PyPi安装:
pip install pytextrank
从这个git repo安装:
pip install -r requirements.txt
安装后,您需要下载语言模型:
python -m spacy download en
另外,运行时依赖于名为stop.txt的本地文件 包含stopWords的列表。您可以在 规范化关键短语()调用。