从维基百科转储操作和提取数据的工具

wikidump的Python项目详细描述


维基转储

简介

此模块包含用于操作Wikipedia转储的代码,可从 http://download.wikimedia.org/backup-index.html

安装

此模块发布在PyPI上,可以使用“轻松安装”进行安装

例如:

easy_install wikidump

或者,您可以使用pip:

pip install wikidump

我强烈建议使用virtualenv来隔离安装环境。

对于那些在ubuntu系统上的用户,可以在PPA中获得一个编译包。 有关如何安装的详细信息,请访问ppa。

配置

第一次导入模块时,将创建一个文件“wikidump.cfg”。 修改此文件中的路径以指向数据。

  • scratch:索引存储在哪里(必须是可写的)
  • XML转储:XML转储的位置(可以是只读的)

使用量

除了python模块之外,wikidump还附带了一个命令行 快速访问wikidump功能的工具。运行wikidump帮助 一个选项列表。

新闻

0.1

发布日期:2010年8月4日

  • wikidump模块的初始版本

0.1.3

发布日期:2013年4月10日

  • 重写cli

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java jpa从oracle检索日期   探查器下的java Hibernate性能和内存泄漏问题   java Spring数据规范RSQL和join   Java序列化将枚举读取为字符串   sonarqube为什么从Java“Sonar way with Findbugs”质量配置文件中删除了squid:CycleBeweenPackages规则?   java按钮单击不使用材质设计?   java如何仅对某些控制器使用Spring转换器?   在一个Java Android类中使用相同名称的方法   java将PDF/A1b转换为PDF/A2   带有scribesjava库的wordpress Woocommerce REST API返回消费者密钥参数缺失错误消息   我的扫描器类java代码有一个异常,这是一个错误