存档web文章

webarchive的Python项目详细描述


网络档案

Webarchive是命令行web页面提取器,它产生可读性 请求的网页的内容。它可以处理url、本地文件路径和 标准输入。在

特点

以下命令显示了如何将webarchive与web页面一起提供 内容:

$ webarchive https://example.com

$ webarchive "$HOME/index.html"

$ webarchive - < "$HOME/index.html"

然后输出各种格式的文本:

  • 降价
  • HTML格式
  • 纯文本

如果可读性算法对特定的网页不起作用,webarchive 可以使用提供页面文本转储的外部命令。示例 这些程序中有命令行web浏览器,如links或w3m

^{pr2}$

Webarchive自动检测并提供上下文信息 比如页面标题,可以在YAML前面加上标题。如果 webarchive输出稍后由其他理解YML的工具处理 正面内容,如pandoc:

$ webarchive https://example.com -t md | \
    pandoc -f markdown --standalone > article.html
$ ebook-convert article.html article.epub  # ebook-convert is part of Calibre

此外,还提供了一个GUI包装器,它也是脚本友好的 将所有保存的文件打印到标准输出。在

#!/bin/shfor f in `webarchive-qt`;do
  pandoc "$f" --standalone > article.html
  ebook-convert article.html article.epub
  mutt -a "article.epub" -s "Good article I found" -- alice@example.com
  rm -f "article.html""article.epub""$f"done

它很小,但是很强大:

  • 允许编辑已分析的页面
  • 自动检测系统剪贴板中的URL并用 他们
  • 当前URL内容将被缓存,直到URL更改-更改输出 格式不会再次下载整个页面。在
  • 定义多个键盘快捷键(ctrl-s代表保存,enter代表页面 重新下载)

安装

$ pip3 install webarchive

要安装GUI包装器(webarchive qt)的依赖项,请执行以下操作:

$ pip3 install webarchive[gui]

您可以使用pipx和pipsi等工具自动安装webarchive 及其对隔离环境的依赖性:

$ pipx install 'webarchive[gui]'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像