我尝试使用“Wikipedia提取器(http://medialab.di.unipi.it/wiki/Wikipedia_Extractor)”将bz2转换为文本。我下载了带有bz2扩展名的Wikipedia dump,然后在命令行上使用以下代码行:
WikiExtractor.py -cb 250K -o extracted itwiki-latest-pages-articles.xml.bz2
这给了我一个可以在链接中看到的结果:
然而,后续报告指出: 为了将整个提取文本合并到单个文件中,可以发布:
> find extracted -name '*bz2' -exec bzip2 -c {} \; > text.xml
> rm -rf extracted
我得到以下错误:
File not found - '*bz2'
我能做什么
请检查一下。这会有帮助
Error using the 'find' command to generate a collection file on opencv
WikiExtractor页面上提到的命令适用于Unix/Linux系统,在Windows上不起作用
在windows上运行的
find
命令的工作方式与unix/linux中的不同只要使用python前缀运行,提取的部分在windows/linux环境中都可以正常工作
您将看到一个
extracted
文件夹创建在与脚本相同的目录中之后
find
命令应该是这样工作的,仅在linux上另外,如果您运行
bzip -help
命令,该命令应该与上面的find
命令一起运行,您将看到它在Windows上不起作用,对于Linux,您将获得以下输出如上所述,bzip2的默认操作是压缩,所以使用bzcat进行解压缩
仅在linux上工作的修改后的命令如下所示
它在我的ubuntu系统上工作
编辑:
适用于Windows:
尝试任何东西之前,请先阅读说明
WikiExtractor.py
和itwiki-latest-pages-articles1.xml-p1p277091.bz2
(在我的例子中,因为这是一个我可以找到的小文件)李>根据文件大小,这将需要时间,但现在目录将如下所示
注意:如果您已经提取了文件夹,请将其移动到当前目录,以便它与上面的图像匹配,您无需再次提取
bz2_Extractor.py
文件中李>请阅读每个输入在命令中的作用
-r
:包含bz2文件的根目录-o
:输出文件名-n
:要写入的文件数。[如果未提供,则写出根目录中的所有文件]注意:我可以看到您的文件以GB为单位,其中包含50多万篇文章。如果您尝试使用上述命令将其放在一个文件中,我不确定会发生什么,或者您的系统是否能够保存下来,如果它确实保存下来,输出文件将非常大,因为它是从2.8GB文件中提取的,我认为Windows操作系统无法直接打开它
所以我的建议是一次处理10000个文件
让我知道这是否适合你
PS:对于上面的命令,输出如下所示
相关问题 更多 >
编程相关推荐