收集Internet存档集合的元数据

iacoll的Python项目详细描述


iacoll

iacoll将收集Internet存档集合的所有项目元数据 并将其存储在leveldb数据库中。数据库是一个键/值存储,其中 key是唯一的internet归档项标识符,值是json 对于项元数据。

例如,您可以下载 马里兰收藏:

% iacoll university_maryland_cp 

默认情况下,iacoll将在名为 项目标识符。如果你想控制它,你可以显式地传递 信息:

% iacoll university_maryland_cp --db /path/to/my/leveldb/database

当您反复运行iacoll时,它将查看数据库并只获取 更新的记录。如果更新失败,您可能需要强制执行完整扫描:

% iacoll university_maryland_cp --fullscan

如果希望将元数据转储为面向行的json,可以使用--dump:

% iacoll university_maryland_cp --dump > university_maryland_cp.jsonl

安装

要安装iacoll首先需要安装python,然后:

pip install iacoll

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JavaBridge errno=10054被Remotehost关闭   javafx如何在每次调用方法中的变量时更新它?(爪哇)   java mod_群集在发现后未平衡负载   Java软件编辑器/语法高亮   java为什么不能强制转换数组的结果。asList()到ArrayList?   java HIBERNATE:无法使用HIBERNATE从MySQL中提取数据   java在Google地图片段上添加布局   java在AbstractTableModel中执行setValueAt之前,我如何做一些事情?   java在整个Tomcat运行时保存变量   java如何在Thymeleaf模板中获取环境变量的值?   java Selenium Chrome驱动程序针对属性的标签   java正则表达式捕获未知数量的重复组