文本文档和HTML页面的自动摘要模块。

sum的Python项目详细描述


自动文本摘要生成器

image

从html中提取摘要的简单库和命令行实用程序 页面或纯文本。该包还包含简单的评估 文本摘要框架。实现的摘要方法:

下面是一些其他摘要生成器:

安装

确保有Python2.7/3.3+和 pipWindowsLinux) 安装。简单运行(首选方式):

$ [sudo] pip install sumy

或者对于新版本:

$ [sudo] pip install git+git://github.com/miso-belica/sumy.git

用法

sumy包含用于快速摘要文档的命令行实用程序。

$ sumy lex-rank --length=10 --url=http://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy luhn --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info

可以对某些摘要方法执行各种评估方法 通过下面的命令:

$ sumy_eval lex-rank reference_summary.txt --url=http://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info

python api

或者你可以像在项目中使用库一样使用sumy。使用下面的代码创建文件sumy_example.pydon't name it ^{})来测试它。

# -*- coding: utf-8 -*-from__future__importabsolute_importfrom__future__importdivision,print_function,unicode_literalsfromsumy.parsers.htmlimportHtmlParserfromsumy.parsers.plaintextimportPlaintextParserfromsumy.nlp.tokenizersimportTokenizerfromsumy.summarizers.lsaimportLsaSummarizerasSummarizerfromsumy.nlp.stemmersimportStemmerfromsumy.utilsimportget_stop_wordsLANGUAGE="english"SENTENCES_COUNT=10if__name__=="__main__":url="https://en.wikipedia.org/wiki/Automatic_summarization"parser=HtmlParser.from_url(url,Tokenizer(LANGUAGE))# or for plain text files# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))stemmer=Stemmer(LANGUAGE)summarizer=Summarizer(stemmer)summarizer.stop_words=get_stop_words(LANGUAGE)forsentenceinsummarizer(parser.document,SENTENCES_COUNT):print(sentence)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在sqlite数据库中保存特定列的历史记录   java如何更改/更新timeseriechart名称(JFreeChart)   java如何将整数转换为可绘制的   汇编什么解释Java的字节码   java查找已编译的类版本号   我应该什么时候在ColdFusion应用程序中使用Java?   java当一个实体的两个字段为(unique=true)时,如何处理JPA异常?   java为什么在所有其他实例都正确的情况下返回错误的布尔值?   java Hibernate每次都准备语句   java停留在平均字长上   对Java和日语字符进行编码   java如何将导致异常的方法的错误消息传递给侦听器中的onTestFailure方法   java代码没有打印结果   java为什么私有内部接口的方法必须是公共的?   休眠发生错误。有关详细信息,请参阅错误日志。JAVAlang.NullPointerException