从维基百科抽取中文语料

txtcn-wiki的Python项目详细描述


从维基百科抽取中文语料

维基百科语料下载地址 : dumps.wikimedia.org/zhwiki

有很多链接,下载比如 https://dumps.wikimedia.org/zhwiki/20200701/zhwiki-20200701-pages-articles.xml.bz2

然后,用如下命令安装 txtcn_wiki ( 请用 python3 的 pip,有些系统上直接是 pip3)

pip install txtcn_wiki

安装成功后,用如下方式即可抽取。

txtcn_wiki /share/wiki/zhwiki-20200701-pages-articles.xml.bz2

小技巧:维基百科打包打包很大,但是不需要完全下载也可以运行以上命令(会报错,但能部分输出)。

会在bz2的同目录输出两个文件

  • 条目正文:zhwiki-20200701-pages-articles.title.txt.zd
  • 条目标题:zhwiki-20200701-pages-articles.txt.zd

这两个文件是Zstandard压缩后的纯文本文件 ( 参见 Zstandard:一种新的无损压缩算法 )

使用本软件包附带的 zdcat 命令可以查看, 比如:

zdcat /share/wiki/zhwiki-20200701-pages-articles.title.txt.zd

在条目正文中,条目的标题以 "➜ " 开头。

在程序中读取zd文件,可用如下方法(zd可以单独安装,比如pip install zd,源码见gitee.com/znlp/zd

import zd

with zd.open(
  "/share/wiki/zhwiki-20200701-pages-articles.txt.zd"
) as f:
  for i in f:
    print(i)

如使用有问题请到 github.com/txtcn/wiki 发帖。

特别感谢

代码改编自 《获取并处理中文维基百科语料 - 科学空间|Scientific Spaces》

我的其他项目友情推荐

1. 中文语料库-每日自动更新版

网上有一些中文语料库,但是居然都不是自动更新的。

是可忍,孰不可忍。我想自动挖掘研究市场热点炒股票,没有新数据搞毛线。

于是,有了这个项目 : 《中文语料库-每日自动更新版》

核心思想,通过RSS订阅,存档内容。

然后通过GitHub Actions来实现每日运行,这样就实现了一个无服务器的自动更新语料库。

2. 谷歌浏览器实用插件:六度空间 · 短链接

可以生成短链接(短网址)、二维码,一键复制标题和链接。

现有的chrome插件,没有一个能自动复制并带上标题的,所以自己写了一个,很实用,欢迎试用。

安装地址:Chrome 网上应用店

如果没法访问Chrome网上应用店,可以按照以下步骤安装。

点击这里下载源码 ,并解压

在Chrome浏览器中输入 chrome://extensions ,并开启开发者模式(点击右上角)

点击「加载已解压的扩展程序」选择刚刚解压的目录。

这是开源项目,欢迎参与改进。

关于作者

张沈鹏 ,欢迎扫码关注我的微信公众号。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在安卓 studio中使用调用jaxws web服务的jar文件   java双时间模拟时钟不打印两个不同的时间   java Jackson反序列化处理不带字段的生成值   多线程在java同步中读锁的目的是什么   为什么java中有这么多获取日期时间的方法?   java从listview中的TextView获取数据   java是否可以定义如何对枚举进行(反)序列化以在枚举内持久化?   Java:异常处理我的catch()有问题   VMWare java SDK:可用的PerfMetricID何时不报告数据?   exec在Java中执行命令而不重定向输出   java使用SpringXML配置实现观察者模式?   java在竹笔平板电脑中使用JPen