支持python3的快速html到文本解析器(文章可读性工具)

readability-lxml的Python项目详细描述


https://travis-ci.org/buriy/python-readability.svg?branch=master

python可读性

给定一个html文档,它会取出主体文本并将其清理。

这是arc90’s readability project的ruby端口的python端口。

安装

使用pip很简单,只需运行:

$ pip install readability-lxml

使用量

>> import requests
>> from readability import Document
>>
>> response = requests.get('http://example.com')
>> doc = Document(response.text)
>> doc.title()
>> 'Example Domain'
>> doc.summary()
>> u'<html><body><div><body id="readabilityBody">\n<div>\n    <h1>Example Domain</h1>\n
<p>This domain is established to be used for illustrative examples in documents. You may
use this\n    domain in examples without prior coordination or asking for permission.</p>
\n    <p><a href="http://www.iana.org/domains/example">More information...</a></p>\n</div>
\n</body>\n</div></body></html>'

更改日志

  • 0.7.1对Python3.7的支持。修复了处理具有大量空格的文档时的速度减慢问题。
  • 0.7改进了HTML5标签处理。修复了剥离不需要的HTML节点(以前只删除了第一个匹配的节点)。
  • 0.6最终是一个支持python版本2.6、2.7、3.3-3.6的版本
  • 0.5准备一个版本以支持python版本2.6、2.7、3.3和3.4
  • 0.4添加视频加载,允许每个段落有更多图像
  • 0.3添加了document.encoding、positive_keywords和negative_keywords

许可

此代码在the Apache License 2.0许可证下。

感谢

  • 最新readability.js
  • Starrhorne和IterationLabs的Ruby端口
  • Python port作者:gfxmonk
  • 减少工作量<;http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/>;移动到lxml
  • “br to p”修复readability.js,提高了较小文本的质量
  • GitHub用户贡献。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaEJB3.0托管bean注入和db连接关闭   amazon web服务用Java连接AWS aerospike实例   java如何使用Springsecurity以编程方式登录用户?   Spring批处理代理失败。lang.ClassCastException:com。太阳代理$Proxy20无法强制转换为   java并发中的条件语句与信号量   java如何使用springdatajpa mongoRepository进行查询和更新?   java将代码从bufferedreader转换为scanner   java SonarQube问题:重命名此常量名称以匹配正则表达式“^[AZ][AZ09]([AZ09]+)$”   带有包含嵌套对象的json主体的java POST请求   java类akka。男演员TypedActor$MethodCall无法访问修饰符为“public abstract”的类JobManager的成员   Android Studio Assistant中的java Firebase,异常错误   javagwt。GWT开发模式控制台中未显示日志   java JAXWS wsimport正在停止重新编译   java以编程方式分析jar文件