为什么Java和Go的gzip会得到不同的结果？

4 月，1 周 Questions & Answers 2518

首先，我的Java版本：

string str = "helloworld"; ByteArrayOutputStream localByteArrayOutputStream = new ByteArrayOutputStream(str.length()); GZIPOutputStream localGZIPOutputStream = new GZIPOutputStream(localByteArrayOutputStream); localGZIPOutputStream.write(str.getBytes("UTF-8")); localGZIPOutputStream.close(); localByteArrayOutputStream.close(); for(int i = 0;i < localByteArrayOutputStream.toByteArray().length;i ++){ System.out.println(localByteArrayOutputStream.toByteArray()[i]); }

输出为：

三十一 -117 8. 0 0 0 0 0 0 0 -53 72 -51 -55 -55 47 -49 47 -54 73 1. 0 -83 32 -21 -7 10 0 0 0

然后是Go版本：

var gzBf bytes.Buffer gzSizeBf := bufio.NewWriterSize(&gzBf, len(str)) gz := gzip.NewWriter(gzSizeBf) gz.Write([]byte(str)) gz.Flush() gz.Close() gzSizeBf.Flush() GB := (&gzBf).Bytes() for i := 0; i < len(GB); i++ { fmt.Println(GB[i]) }

输出：

三十一 139 8. 0 0 9 110 136 0 255 202 72 205 201 201 47 207 47 202 73 1. 0 0 0 255 255 1. 0 0 255 255 173 32 235 249 10 0 0 0

为什么?

起初我认为这可能是由于这两种语言的字节读取方法不同造成的。但是我注意到0永远不能转换成9。而且[]byte的大小是不同的

我写错代码了吗？有没有办法让我的Go程序获得与Java程序相同的输出

谢谢

| Java | Go ID1 | 31 | 31 ID2 | 139 | 139 CM (compression method) | 8 | 8 FLG (flags) | 0 | 0 MTIME (modification time) | 0 0 0 0 | 0 9 110 136 XFL (extra flags) | 0 | 0 OS (operating system) | 0 | 255

# 2 楼答案

首先，Java中的byte类型是有符号的，它的范围是-128..127，而在Go中byte是uint8的别名，它的范围是0..255。因此，如果要比较结果，必须将负Java值移位256（添加256）

提示：要以无符号方式显示Java byte值，请使用：byteValue & 0xff将其转换为int，使用byte的8位作为int中的最低8位。或者更好：以十六进制形式显示这两个结果，这样您就不必关心符号的大小

即使你做了轮班，你仍然会看到不同的结果。这可能是由于不同语言的默认压缩级别不同。请注意，尽管Java和Go中的默认压缩级别都是6，但这并没有指定，不同的实现可以选择不同的值，并且在将来的版本中也可能会更改

即使压缩级别相同，您也可能会遇到差异，因为gzip基于LZ77和Huffman coding，它使用基于频率（概率）的树来决定输出代码，如果不同的输入字符或位模式具有相同的频率，则分配的代码可能会有所不同，此外，多个输出位模式可能具有相同的长度，因此可能会选择不同的模式

如果您想要相同的输出，唯一的方法是（参见下面的注释！）使用0压缩级别（根本不压缩）。在Go中使用压缩级别gzip.NoCompression，在Java中使用^{}

爪哇：

GZIPOutputStream gzip = new GZIPOutputStream(localByteArrayOutputStream) {
    {
        def.setLevel(Deflater.NO_COMPRESSION);
    }
};

去：

gz, err := gzip.NewWriterLevel(gzSizeBf, gzip.NoCompression)

但我不会担心不同的输出。Gzip是一个标准，即使输出不相同，您仍然可以使用任何用于压缩数据的Gzip解码器对输出进行解压缩，解码后的数据将完全相同

以下是简化版和扩展版：

这并不重要，但是你的代码太复杂了。您可以这样简化它们（这些版本还包括设置0压缩级别和转换负Javabyte值）：

Java版本：

ByteArrayOutputStream buf = new ByteArrayOutputStream();
GZIPOutputStream gz = new GZIPOutputStream(buf) {
    { def.setLevel(Deflater.NO_COMPRESSION); }
};
gz.write("helloworld".getBytes("UTF-8"));
gz.close();
for (byte b : buf.toByteArray())
    System.out.print((b & 0xff) + " ");

Go版本：

var buf bytes.Buffer
gz, _ := gzip.NewWriterLevel(&buf, gzip.NoCompression)
gz.Write([]byte("helloworld"))
gz.Close()
fmt.Println(buf.Bytes())

注意事项：

gzip格式允许在输出中包含一些额外的字段（标题）

在Go中，这些由^{}类型表示：

type Header struct {
    Comment string    // comment
    Extra   []byte    // "extra data"
    ModTime time.Time // modification time
    Name    string    // file name
    OS      byte      // operating system type
}

它可以通过^{}结构字段访问。Go设置并插入它们，而Java不设置（将标题字段保留为零）。因此，即使在两种语言中将压缩级别设置为0，输出也将不相同（但“压缩”数据将在两种输出中匹配）

不幸的是，标准Java没有提供设置/添加这些字段的方法/接口，Go也没有使填充输出中的Header字段成为可选，因此您将无法生成精确的输出

一个选项是使用支持设置这些字段的第三方Java GZip库Apache Commons Compress就是这样一个例子，它包含一个^{}类，该类具有允许传递^{}实例的构造函数。这个GzipParameters是gzip.Header结构的等价物。只有使用它，您才能生成精确的输出

但正如前面提到的，生成精确的输出并没有实际的价值

共 (2) 个答案

# 1 楼答案

从RFC 1952开始，GZip文件头的结构如下：

+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+
|ID1|ID2|CM |FLG|     MTIME     |XFL|OS | (more >)
+ -+ -+ -+ -+ -+ -+ -+ -+ -+ -+

根据您提供的输出，我们有：

因此，我们可以看到Go正在设置头的修改时间字段，并将操作系统设置为255（未知），而不是0（FAT文件系统）。在其他方面，它们表示文件以相同的方式压缩

一般来说，这些差异是无害的。如果要确定两个压缩文件是否相同，则应该真正比较文件的解压缩版本

# 2 楼答案
首先，Java中的byte类型是有符号的，它的范围是-128..127，而在Go中byte是uint8的别名，它的范围是0..255。因此，如果要比较结果，必须将负Java值移位256（添加256）

提示：要以无符号方式显示Java byte值，请使用：byteValue & 0xff将其转换为int，使用byte的8位作为int中的最低8位。或者更好：以十六进制形式显示这两个结果，这样您就不必关心符号的大小

即使你做了轮班，你仍然会看到不同的结果。这可能是由于不同语言的默认压缩级别不同。请注意，尽管Java和Go中的默认压缩级别都是6，但这并没有指定，不同的实现可以选择不同的值，并且在将来的版本中也可能会更改

即使压缩级别相同，您也可能会遇到差异，因为gzip基于LZ77和Huffman coding，它使用基于频率（概率）的树来决定输出代码，如果不同的输入字符或位模式具有相同的频率，则分配的代码可能会有所不同，此外，多个输出位模式可能具有相同的长度，因此可能会选择不同的模式

如果您想要相同的输出，唯一的方法是（参见下面的注释！）使用0压缩级别（根本不压缩）。在Go中使用压缩级别gzip.NoCompression，在Java中使用^{}

爪哇：
```
GZIPOutputStream gzip = new GZIPOutputStream(localByteArrayOutputStream) {
    {
        def.setLevel(Deflater.NO_COMPRESSION);
    }
};
```
去：
```
gz, err := gzip.NewWriterLevel(gzSizeBf, gzip.NoCompression)
```
但我不会担心不同的输出。Gzip是一个标准，即使输出不相同，您仍然可以使用任何用于压缩数据的Gzip解码器对输出进行解压缩，解码后的数据将完全相同

以下是简化版和扩展版：

这并不重要，但是你的代码太复杂了。您可以这样简化它们（这些版本还包括设置0压缩级别和转换负Javabyte值）：

Java版本：
```
ByteArrayOutputStream buf = new ByteArrayOutputStream();
GZIPOutputStream gz = new GZIPOutputStream(buf) {
    { def.setLevel(Deflater.NO_COMPRESSION); }
};
gz.write("helloworld".getBytes("UTF-8"));
gz.close();
for (byte b : buf.toByteArray())
    System.out.print((b & 0xff) + " ");
```
Go版本：
```
var buf bytes.Buffer
gz, _ := gzip.NewWriterLevel(&buf, gzip.NoCompression)
gz.Write([]byte("helloworld"))
gz.Close()
fmt.Println(buf.Bytes())
```
注意事项：

gzip格式允许在输出中包含一些额外的字段（标题）

在Go中，这些由^{}类型表示：
```
type Header struct {
    Comment string    // comment
    Extra   []byte    // "extra data"
    ModTime time.Time // modification time
    Name    string    // file name
    OS      byte      // operating system type
}
```
它可以通过^{}结构字段访问。Go设置并插入它们，而Java不设置（将标题字段保留为零）。因此，即使在两种语言中将压缩级别设置为0，输出也将不相同（但“压缩”数据将在两种输出中匹配）

不幸的是，标准Java没有提供设置/添加这些字段的方法/接口，Go也没有使填充输出中的Header字段成为可选，因此您将无法生成精确的输出

一个选项是使用支持设置这些字段的第三方Java GZip库Apache Commons Compress就是这样一个例子，它包含一个^{}类，该类具有允许传递^{}实例的构造函数。这个GzipParameters是gzip.Header结构的等价物。只有使用它，您才能生成精确的输出

但正如前面提到的，生成精确的输出并没有实际的价值

Python中文网

有 Java 编程相关的问题?

为什么Java和Go的gzip会得到不同的结果？

共 (2) 个答案

# 1 楼答案

# 2 楼答案