如何加载维基百科转存?

2024-06-02 21:16:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经下载了Wikipedia文件的转储(13.40gb)。它以enwiki-latest-pages-articles.xml.bz2格式下载。在

如何在Python中加载文件,然后将文章转换为纯文本文件,以便对其执行LDA?在

遵循mhttps://radimrehurek.com/gensim/wiki.html中的说明,但是没有提到将数据加载到Python中。在


Tags: 文件格式文章xmlpageswikipedialatestarticles