summly的开源实现

wanish的Python项目详细描述


Code Climate

关于

这个包允许您通过缩小文章的大小来总结文本 几句话保留了课文的思想。

除此之外,软件包还从文档中提取以下内容:

  1. 文章的规范url
  2. 文章标题
  3. 描述本文的图像的url
  4. 去除文档中过多的信息(页眉、页脚, 导航、广告等)并基于 schema.org的结构化数据

DEMO

安装

easy_install wanish
or
pip install wanish

用法

fromwanishimportWanishwanish=Wanish()wanish.perform_url(document_url)# getting doc's source canonical urlurl=wanish.url# getting document's titletitle=wanish.title# getting url of related image if document has itimage_url=wanish.image_url# getting two-letter code of the document's language (en, de, es...)language_code=wanish.language# getting a clean html page of a document with articleclean_html=wanish.clean_html# getting a short summarized description of the article reduced to several sentences (5 by default)description=wanish.description

wanish()类的可用Kwarg选项(都是可选的):

wanish=Wanish(url=document_url,positive_keywords=["main","story"],negative_keywords=["banner","adv","similar","top-ad"],summary_sentences_qty=5,headers={'user-agent':'test-purposes/0.0.1'})
  • url:允许在构造函数中传递文档的url。如果设置了, 然后它将自动启动self。 初始化。默认为“无”。
  • 正关键字:类中正搜索模式的列表 和id,例如:[“main”,“story”]。默认为“无”。
  • 负关键字:类中负搜索模式的列表 和id,例如:[“banner”,“adv”,“similar”,“top ad”]。 默认为“无”。
  • {STR 1 } $ SimulyYangSuthEngsEsQuQT:<强/>最大句子数量 文件的摘要文本。默认设置为5。
  • headers:获取请求的其他自定义头的dict 获取文章的网页。默认为“无”。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓工作室组织。json。JSONException:类型为java。无法将lang.String转换为JSONObject   java将数据从Jenkins参数化构建传递到testng。运行时的xml   java关注使用所有者框架异步打开JDialog   Android java:broadcastReceiver上的蓝牙连接事件未触发   在java中同时处理写入和读取的文件io   javascript如何替换目标数组字符串并将其更改为用户输入字符串   如何终止或停止java小程序中的其他线程   如何通过SeleniumJava连接到putty以执行一组命令并在putty窗口中验证输出   java为什么空列表上的循环会挂起?   java当我单击run时,什么也没有发生   swing Java多监视器问题   proguard java模块版本不匹配   java在facebook sdk 4.0上获取可标记好友+   java Android Fragmens和滑动示例   java导入。VS代码中的jar库   存储在SQL表中的java下载/显示文件   java项目Euler(第14页):递归问题   java如何在springboot中跳过失败的bean以避免报告失败:771>>应用程序启动失败