检查回退计算机中URL的来源

waybackprov的Python项目详细描述


waybackprov一个url,它将总结哪个internet存档 集合已存档URL。这种信息有时 提供有关特定Web资源或一组Web资源为何 从网上存档。

安装

pip install waybackprov

基本用法

要检查特定的URL,请执行以下操作:

% waybackprov https://twitter.com/EPAScottPruitt
364 https://archive.org/details/focused_crawls
306 https://archive.org/details/edgi_monitor
151 https://archive.org/details/www3.epa.gov
 60 https://archive.org/details/epa.gov4
 47 https://archive.org/details/epa.gov5
...

第一列包含特定URL的爬网数,以及 第二列包含添加的Internet存档集合的URL IT

时间

默认情况下,waybackprov只查看当前年份。如果你喜欢的话 要检查年份范围,请使用--start--end选项:

% waybackprov --start 2016 --end 2018 https://twitter.com/EPAScottPruitt

多页

如果要查看特定url前缀处的所有url,可以使用 --prefix选项:

% waybackprov --prefix https://twitter.com/EPAScottPruitt

这将使用Internet存档的CDX API来包含作为您提供的URL扩展的URL,因此它将包括例如:

https://twitter.com/EPAScottPruitt/status/1309839080398339

但它也可以包含您可能不想要的内容,例如:

https://twitter.com/EPAScottPruitt/status/1309839080398339/media/1

要进一步限制url,请使用--match参数指定 表达式只检查特定的url。进一步指定您的url 强烈推荐您感兴趣,因为它可以防止大量的css查找, javascript和图像文件是 最初是爬行的。

% waybackprov --prefix --match 'status/\d+$' https://twitter.com/EPAScottPruitt

收藏

在解释这些数据时要记住的一点是,集合可以 包含其他集合。例如,edgi_monitor集合是 聚焦爬网的子集合

如果使用--collapse选项,则只有最特定的集合 为给定爬网报告。所以如果coll1coll2的一部分,它是 coll3,只报告coll1,而不报告coll1coll2coll3。 这确实涉及到在Internet存档API中查找集合元数据,因此 会显著降低性能。

json和csv

如果希望将原始数据视为json或csv,请使用--format选项。 当您使用这两种格式之一时,您将看到每个爬网的元数据, 而不是总结。

日志

如果您想查看有关waybackprov正在执行的操作的详细信息 使用--log选项提供要记录到的A文件路径:

% waybackprov --log waybackprov.log https://example.com/

测试

如果要测试它,请先安装pytest,然后:

pytest test.py

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java apache Jclouds与quarkus兼容吗?   java Switch语句和字符串到字节   java在Windows中处理unix路径   java将XML中的不同值插入数据库表   Android Room中带日期的java查询   java如何将vaadin7与googlemap连接起来   java有条件地忽略特定属性DTO   数据库中的java Spring最后一个ID作为JSP中的默认输入值。。怎样   java创建和使用匿名可运行类的最佳方法   关于布尔语句中参数的java问题   java JMH:无法创建SecurityManager:worker。组织。格拉德尔。过程内部的工人小孩BootstrapSecurityManager   JavaXMLStreamReader编码   java Hibernate空指针位于AbstractUserTypeHibernateIntegrator用户类型   安卓支持v7。小装置。在使用安卓 studio的java文件中找不到工具栏?   java从res文件夹中读取名为的文件(从变量读取)   java如何解决“图形设备初始化失败:d3d、sw”问题   java字节缓冲区可以用作“长寿”静态对象吗?   java如何获取currentlyloggedin用户的用户名   java如何优雅地检测SSL