提取两个HTML页面之间的差异

extract-html-diff的Python项目详细描述


PyPI VersionBuild StatusCode Coverage

此包允许您提取两个HTML页面之间的差异: 给定页面a和b,它将尝试提取a中在b中更改的部分。 它在引擎盖下使用lxml.html.diff。但只提供作为html的更改部分。

目前它需要python 3。

许可证是麻省理工学院的。

安装

您可以从pypi安装包:

pip install extract-html-diff

用法

您可以将diff提取为文本:

import extract_html_diff

html = '<div> <h1>My site</h1> <div>My content</div> </div>'
other_html = '<div> <h1>My site</h1> <div>Other content</div> </div>'

extract_html_diff.as_string(html, other_html)

这将给您:

'<div><div>My content</div>  </div>'

如果 您计划执行其他转换或更改序列化:

extract_html_diff.as_tree(html, other_html)

您可以将输入html作为str或^{tt4}传递$ (在本例中,它将用lxml.html.fromstring解析),或者作为已经解析的 lxml.html.HtmlElement

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使安卓材质看起来漂亮?   在运行的java jar中打开文件   java如何在RxJava中为列表使用take()运算符?   flyway 1.4.2版在Java 1.7上运行?   java为什么在到达loadfactor时需要调整哈希集合的大小,为什么不能等到集合已满   数组Java对象未返回预期数据   java在Eclipse上的Gradle项目中找不到资源:/METAINF/BenchmarkList   java如何为Spring引导应用程序提供React构建文件   java如何在jpa中创建表作为InnoDB?   Android上的java DRM安全级别   java如何在单击按钮时创建自定义Dilaog   java从多对多关系hibernate创建的表中列出数据   java ElasticSeach |在删除索引后找不到插入的文档   java是否已弃用图表上的javaFX向下展开方法?   java由于某种原因,单词sinchservice和活动的名称有一个错误,即不能解析错误“CallActivity”?