从维基百科数据库转储生成纯文本

2024-05-19 02:08:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我找到了一个Python脚本(here: Wikipedia Extractor),它可以从(English) Wikipedia database dump生成纯文本。 当我使用此命令时(如脚本页面所述):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted

我得到这个错误:

File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">

^
SyntaxError: invalid syntax

我在Windows7上使用Python2.7.6&Cygwin执行脚本。

我希望如果有人已经使用过这个脚本或使用Python的经验,可以帮助我解决这个错误。

提前谢谢!


Tags: org脚本httpwww错误exportxmlpages
1条回答
网友
1楼 · 发布于 2024-05-19 02:08:59

python的第一个参数应该是脚本名。

您可能需要交换xmlpy文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted

相关问题 更多 >

    热门问题