从中文文本中提取摘要和关键词

FastTextRank的Python项目详细描述


#FastTextRank
从中文文本中提取摘要和关键字,使用*优化的迭代算法*提高运行**速度**,并*有选择地使用词向量*提高**准确性**。
PageRank
PageRank是来自Google的网站页面排名算法。<;br/>;
PageRank最初用于计算网页。整个www可视为一个有向图,而节点是一个网页。<;br/>;
此算法可以通过连接计算所有节点的重要性。<;br/>;
*我的算法更改了迭代算法,使算法更快,平均每篇文章花费10毫秒,而textrank4zh在我的数据上花费80毫秒。<;br/>;
*我的算法也使用word2vec使抽象更精确,但运行算法需要更多时间。在相同的传输数据上使用word2vec每篇文章需要花费40毫秒。

把文章切成句子
2。计算句子之间的相似度:
*使用词向量的余弦相似度
*使用两个句子的常用词
3。根据句子的相似性建立一个图表。通过改进的迭代算法计算每个句子的重要性
5。获取要使用的停止字文件的摘要。如果没有,你将使用这个包的停止词。BuyLo.W2V:BooLeaIn,缺省false
如果必须是,则必须输入传递的DATIOPATH参数。把Artile切成单词
2。计算单词之间的相似度:
如果两个单词都在窗口距离内,则这两个单词的图形边加1.0。窗口由用户设置。
3.根据单词‘similarity
4构建一个图表。通过改进的迭代算法计算每个单词的重要性
5。获取关键字

api
*use_stop word=boolean,default true
*stop_words_file=str,default none.
要使用的stop words文件。如果它不是,你将使用这个包的停止词。< BR/> *Max ITER =最大迭代回合
*窗口=int,默认值2 BR/>窗口以确定两个词是否相关。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java传递实现接口的内部类   java为什么managedbean方法在post请求中的过滤器调用之前调用   java Android应用程序在Android M,O上崩溃,登录A/libc时出错:tid 17938中的致命信号11(SIGSEGV),代码2,故障地址0x343a2944   java JPA存储库。findByAll()返回null,但数据库中存在所有内容   用于发送电子邮件的java Ant脚本   Java小程序HTML页面发生了奇怪的事情   在Postman的请求正文中传递多个JSON数据,并使用Jersy(JXRS)进入Java Rest API   无法强制转换java DAO类   10分钟后重新连接java   正则表达式如何在java中选择字符串直到某个字符   java我的输出有一些问题   Objective中的java时间段   java如何在新屏幕上基于按钮单击在webview中打开url   java哪个selenium版本与Firefox ESR 45.2.0兼容   java无法使用Apache Camel 3.1.0将XML转换为JSON