Python库和CLI,用于在流行服务(如Wayback Machine)上归档url
pgark的Python项目详细描述
pgark公司
Python库和CLI用于归档流行服务上的url,如 回程机
基本上是一个伟大的叉子 pastpages/savepagenow
如何使用
安装方式:
$ pip install pgark
可用的子命令包括:
^{pr2}$(目前,只实现了回程机器服务,所以忽略-s
标志)
保存URL的快照
$ pgark save whitehouse.gov
http://web.archive.org/web/20200904230109/https://www.whitehouse.gov/
获取带有pgark快照元数据的JSON响应和回程
计算机API作业状态响应,传入-j/--json
标志:
$ pgark -j save whitehouse.gov
{"snapshot_url":"http://web.archive.org/web/20200904230109/https://www.whitehouse.gov/","...":"...","server_payload":{"status":"success","duration_sec":10.638,"job_id":"443e89c2-fd3e-4d01-bd35-abfccc3a124a","...":"..."}}
有关回程机器的完整JSON响应的示例,请参见: examples/web.archive.org/job-save-success.json
检查URL是否已快照
可用于获取最新快照的URL:
$ pgark check whitehouse.gov
http://web.archive.org/web/20200904180914/https://www.whitehouse.gov/
要从回程机器API获取JSON响应,请传入
-j/--json
标志:
$ pgark check -j whitehouse.gov
{"snapshot_url":"http://web.archive.org/web/20200904180914/https://www.whitehouse.gov/","server_payload":{"archived_snapshots":{"closest":{"timestamp":"20200904180914","status":"200","available":true,"url":"http://web.archive.org/web/20200904180914/https://www.whitehouse.gov/"}},"url":"whitehouse.gov"}}
项目状态
只是胡说八道。现在可能只会返回forking savepage 添加任何更改/修复。在
有关详细信息,请参见CHANGELOG
类似的图书馆、资源和灵感
- 在
回程机公文之类的
在 - 在
其他库和实用程序:
在 - 在
其他东西:
在
开发说明
要获取设置:
$ make init
要运行测试:
$ make test
冻结Pipfile.lock文件与重新同步设置.py在
$ make freeze
- 项目
标签: