存档web文章
webarchive的Python项目详细描述
网络档案
Webarchive是命令行web页面提取器,它产生可读性 请求的网页的内容。它可以处理url、本地文件路径和 标准输入。在
特点
以下命令显示了如何将webarchive与web页面一起提供 内容:
$ webarchive https://example.com
$ webarchive "$HOME/index.html"
$ webarchive - < "$HOME/index.html"
然后输出各种格式的文本:
- 降价
- HTML格式
- 纯文本
如果可读性算法对特定的网页不起作用,webarchive 可以使用提供页面文本转储的外部命令。示例 这些程序中有命令行web浏览器,如links或w3m
^{pr2}$Webarchive自动检测并提供上下文信息 比如页面标题,可以在YAML前面加上标题。如果 webarchive输出稍后由其他理解YML的工具处理 正面内容,如pandoc:
$ webarchive https://example.com -t md | \
pandoc -f markdown --standalone > article.html
$ ebook-convert article.html article.epub # ebook-convert is part of Calibre
此外,还提供了一个GUI包装器,它也是脚本友好的 将所有保存的文件打印到标准输出。在
#!/bin/shfor f in `webarchive-qt`;do pandoc "$f" --standalone > article.html ebook-convert article.html article.epub mutt -a "article.epub" -s "Good article I found" -- alice@example.com rm -f "article.html""article.epub""$f"done
它很小,但是很强大:
- 允许编辑已分析的页面
- 自动检测系统剪贴板中的URL并用 他们
- 当前URL内容将被缓存,直到URL更改-更改输出 格式不会再次下载整个页面。在
- 定义多个键盘快捷键(ctrl-s代表保存,enter代表页面 重新下载)
安装
$ pip3 install webarchive
要安装GUI包装器(webarchive qt)的依赖项,请执行以下操作:
$ pip3 install webarchive[gui]
您可以使用pipx和pipsi等工具自动安装webarchive 及其对隔离环境的依赖性:
$ pipx install 'webarchive[gui]'
- 项目
标签: