有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

Hadoop发出的本机snappy压缩数据无法通过javasnappy版本提取

当我们在经过一些处理后使用Spark时,我会将结果存储到文件中,并使用snappy编解码器和简单的代码:

 data.saveAsTextFile("/data/2014-11-29",classOf[org.apache.hadoop.io.compress.SnappyCodec])

之后,当我用Spark阅读这个文件夹文件时,一切都很完美!但今天我尝试在我的电脑中使用java snappy(java snappy 1.1.1.2)来解压缩结果文件夹中的文件(该文件是下载到我电脑上的该文件夹中的文件之一)

maven依赖性:

<dependency>
    <groupId>org.xerial.snappy</groupId>
    <artifactId>snappy-java</artifactId>
    <version>1.1.1.2</version>
</dependency>

我使用以下代码来解压:

File fileIn = new File("E:\\dt\\part-00000.snappy");
File fileOut = new File("E:\\dt\\adv1417971604684.dat");
FileOutputStream fos = new FileOutputStream(fileOut, true);
byte[] fileBytes = Files.readAllBytes(Paths.get(fileIn.getPath()));
byte[] fileBytesOut = Snappy.uncompress(fileBytes);
fos.write(fileBytesOut);

但是:(我立刻发现了这个错误:

    java.io.IOException: FAILED_TO_UNCOMPRESS(5)
 at org.xerial.snappy.SnappyNative.throw_error(SnappyNative.java:84)
 at org.xerial.snappy.SnappyNative.rawUncompress(Native Method)
 at org.xerial.snappy.Snappy.rawUncompress(Snappy.java:444)
 at org.xerial.snappy.Snappy.uncompress(Snappy.java:480)
 at org.xerial.snappy.Snappy.uncompress(Snappy.java:456)
 at

在spark cluster中,我们使用:

spark 1.1.0 && hadoop 2.5.1 ( with native hadoop snappy )

下面是我运行hadoop checknative-a时的结果:

    14/12/09 16:16:57 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2    library system-native
14/12/09 16:16:57 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /usr/local/hadoop/hadoop2.5.1/lib/native/libhadoop.so
zlib:   true /lib64/libz.so.1
snappy: true /usr/local/hadoop/hadoop2.5.1/lib/native/libsnappy.so.1
lz4:    true revision:99
bzip2:  true /lib64/libbz2.so.1

我从以下链接下载并构建snappy native:

https://code.google.com/p/snappy/ 来源: https://drive.google.com/file/d/0B0xs9kK-b5nMOWIxWGJhMXd6aGs/edit?usp=sharing

请有人解释一下这个奇怪的错误!!hadoop使用本机snappy压缩来自use java snappy的数据时是否存在一些差异


共 (1) 个答案

  1. # 1 楼答案

    我是snappy java的开发者。Hadoop的SnappyCodec与Snappy的格式规范不完全相同:https://code.google.com/p/snappy/source/browse/trunk/format_description.txt

    Hadoop中的SnappyCodec扩展了这种格式以压缩大型数据流。数据被分成块(通过BlockCompressionStream),每个块都有一些头和压缩数据。使用Snappy读取压缩数据。解压方法,您需要提取每个块并删除其标题