一组用于处理mediawiki xml转储数据的实用程序。

mwxml的Python项目详细描述


#mediawiki XML

此库包含一个实用程序集合,用于有效地 正在处理MediaWiki的XML数据库转储。有两个 本单元旨在解决以下重要问题: 流式XML解析的复杂性和性能这个图书馆 使用 一个简单的[迭代器](https://pythonhosted.org/mwxml/iteration.html) 战略。这个库还实现了 处理策略(参见 [map()](https://pythonhosted.org/mwxml/map.html))启用并行 同时处理多个XML转储文件。

##示例

>>> import mwxml
>>>
>>> dump = mwxml.Dump.from_file(open("dump.xml"))
>>> print(dump.site_info.name, dump.site_info.dbname)
Wikipedia enwiki
>>>
>>> for page in dump:
...     for revision in page:
...        print(revision.id)
...
1
2
3

##作者 *亚伦·哈法克–https://github.com/halfak

##另见 *http://dumps.wikimedia.org/ *http://community.wikia.com/wiki/Help:Database_download

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓 studio安装的java Unity本机广告   java如何将映射转换为对象   java我试图使用rest控制器从h2数据库中检索记录,但它说没有数据集   反思为什么会抛出java。lang.InstanceException?   在opensuse中找不到Java/javac   java为Android上的谷歌地图添加了5900多个标记。如何有效地做   java如何在if语句中使用循环   java如何在JPA(Hibernate)中映射一对多关系和复合主键?   如何在Java中读取和写入外部进程?   Java线程。睡眠时间最短   java使用EclipseGradle插件如何离线托管和使用依赖项(库jar文件)   java为什么虚拟引用在排队时没有被清除?   java无法理解如何创建用于响铃报警的取消按钮   java解析不应通过注入容器错误发生   java Toast或ProgressDialog不显示   java在自定义对象上使用优先级队列的更好方法   java格式的。wmv文件。(或者任何视频文件都很好)   从页面调用另一个侦听器后,不会调用java JSF<f:ajax>侦听器   java注释ConfigApplicationContext不能多次刷新有什么原因吗?