Python webarchive包_程序模块 - PyPI

存档web文章

webarchive的Python项目详细描述

网络档案

Webarchive是命令行web页面提取器，它产生可读性请求的网页的内容。它可以处理url、本地文件路径和标准输入。在

特点

以下命令显示了如何将webarchive与web页面一起提供内容：

$ webarchive https://example.com

$ webarchive "$HOME/index.html"

$ webarchive - < "$HOME/index.html"

然后输出各种格式的文本：

降价
HTML格式
纯文本

如果可读性算法对特定的网页不起作用，webarchive 可以使用提供页面文本转储的外部命令。示例这些程序中有命令行web浏览器，如links或w3m

^{pr2}$

Webarchive自动检测并提供上下文信息比如页面标题，可以在YAML前面加上标题。如果 webarchive输出稍后由其他理解YML的工具处理正面内容，如pandoc：

$ webarchive https://example.com -t md | \
    pandoc -f markdown --standalone > article.html
$ ebook-convert article.html article.epub  # ebook-convert is part of Calibre

此外，还提供了一个GUI包装器，它也是脚本友好的将所有保存的文件打印到标准输出。在

#!/bin/shfor f in `webarchive-qt`;do
  pandoc "$f" --standalone > article.html
  ebook-convert article.html article.epub
  mutt -a "article.epub" -s "Good article I found" -- alice@example.com
  rm -f "article.html""article.epub""$f"done

它很小，但是很强大：

允许编辑已分析的页面
自动检测系统剪贴板中的URL并用他们
当前URL内容将被缓存，直到URL更改-更改输出格式不会再次下载整个页面。在
定义多个键盘快捷键（ctrl-s代表保存，enter代表页面重新下载）

安装

$ pip3 install webarchive

要安装GUI包装器（webarchive qt）的依赖项，请执行以下操作：

$ pip3 install webarchive[gui]

您可以使用pipx和pipsi等工具自动安装webarchive 及其对隔离环境的依赖性：

$ pipx install 'webarchive[gui]'

欢迎加入QQ群-->： 979659372

webarchive 0.4.0

webarchive的Python项目详细描述

网络档案

特点

安装

推荐PyPI第三方库

django-filechooser

dstack-tasks

c2.sample.csvworkflow

redis-queue-tool

win32compat

dco-org-check

trasso

mlmmapi

distroverif

pyrpo

jinologparser

cImage

pyobjc-framework-MediaPlayer

leap

linode-api

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

webarchive 0.4.0

webarchive的Python项目详细描述

网络档案

特点

安装

推荐PyPI第三方库

django-filechooser

dstack-tasks

c2.sample.csvworkflow

redis-queue-tool

win32compat

dco-org-check

trasso

mlmmapi

distroverif

pyrpo

jinologparser

cImage

pyobjc-framework-MediaPlayer

leap

linode-api

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签