收集Internet存档集合的元数据
iacoll的Python项目详细描述
iacoll
iacoll将收集Internet存档集合的所有项目元数据 并将其存储在leveldb数据库中。数据库是一个键/值存储,其中 key是唯一的internet归档项标识符,值是json 对于项元数据。
例如,您可以下载 马里兰收藏:
% iacoll university_maryland_cp
默认情况下,iacoll将在名为 项目标识符。如果你想控制它,你可以显式地传递 信息:
% iacoll university_maryland_cp --db /path/to/my/leveldb/database
当您反复运行iacoll时,它将查看数据库并只获取 更新的记录。如果更新失败,您可能需要强制执行完整扫描:
% iacoll university_maryland_cp --fullscan
如果希望将元数据转储为面向行的json,可以使用--dump:
% iacoll university_maryland_cp --dump > university_maryland_cp.jsonl
安装
要安装iacoll首先需要安装python,然后:
pip install iacoll