我找到了一个Python脚本(here: Wikipedia Extractor),它可以从(English) Wikipedia database dump生成纯文本。 当我使用此命令时(如脚本页面所述):
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我得到这个错误:
File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax
我在Windows7上使用Python2.7.6&Cygwin执行脚本。
我希望如果有人已经使用过这个脚本或使用Python的经验,可以帮助我解决这个错误。
提前谢谢!
python
的第一个参数应该是脚本名。您可能需要交换
xml
和py
文件名:相关问题 更多 >
编程相关推荐