从维基百科转储操作和提取数据的工具
wikidump的Python项目详细描述
维基转储
简介
此模块包含用于操作Wikipedia转储的代码,可从 http://download.wikimedia.org/backup-index.html
安装
此模块发布在PyPI上,可以使用“轻松安装”进行安装
例如:
easy_install wikidump
或者,您可以使用pip:
pip install wikidump
我强烈建议使用virtualenv来隔离安装环境。
对于那些在ubuntu系统上的用户,可以在PPA中获得一个编译包。 有关如何安装的详细信息,请访问ppa。
配置
第一次导入模块时,将创建一个文件“wikidump.cfg”。 修改此文件中的路径以指向数据。
- scratch:索引存储在哪里(必须是可写的)
- XML转储:XML转储的位置(可以是只读的)
使用量
除了python模块之外,wikidump还附带了一个命令行 快速访问wikidump功能的工具。运行wikidump帮助 一个选项列表。
新闻
0.1
发布日期:2010年8月4日
- wikidump模块的初始版本
0.1.3
发布日期:2013年4月10日
- 重写cli