一组用于处理mediawiki xml转储数据的实用程序。
mwxml的Python项目详细描述
#mediawiki XML
此库包含一个实用程序集合,用于有效地 正在处理MediaWiki的XML数据库转储。有两个 本单元旨在解决以下重要问题: 流式XML解析的复杂性和性能这个图书馆 使用 一个简单的[迭代器](https://pythonhosted.org/mwxml/iteration.html) 战略。这个库还实现了 处理策略(参见 [map()](https://pythonhosted.org/mwxml/map.html))启用并行 同时处理多个XML转储文件。
- 安装:pip install mwxml
- 文档:https://pythonhosted.org/mwxml
- 寄存:https://github.com/mediawiki-utilities/python-mwxml
- 许可证:mit
##示例
>>> import mwxml >>> >>> dump = mwxml.Dump.from_file(open("dump.xml")) >>> print(dump.site_info.name, dump.site_info.dbname) Wikipedia enwiki >>> >>> for page in dump: ... for revision in page: ... print(revision.id) ... 1 2 3
##作者 *亚伦·哈法克–https://github.com/halfak
##另见 *http://dumps.wikimedia.org/ *http://community.wikia.com/wiki/Help:Database_download