如何在python中膨胀这个zlib字节字符串？

bytestring = b'x\xef\xbf\xbdK\xef\xbf\xbd\x06\x00\x00\xef\xbf\xbd\x00\xef\xbf\xbd\n' zlib.decompress(bytestring[4:-4], -15).decode('utf-8') *** UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8f in position 1: invalid start byte

2条回答

网友

1楼 · 编辑于 2024-09-30 14:36:46

\xef\xbf\xbd的每个序列表示原始数据的损坏实例

在第一个示例中，第一个也是唯一的\xef\xbf\xbd应该是一个单字节，它是zlib头的第二个字节。在第二个示例中，第一个\xef\xbf\xbd应该是zlib头的第二个字节，第二个实例应该是\b4，第三个实例应该是\ff，第四个实例应该是\9b

在这条路上的某个地方有一些UTF-8处理不应该发生。每当它遇到一个设置了高位的字节时，它就会失败。在这些情况下，它用三字节UTF-8序列U+FFFD替换字节，这是用于表示未知字符的“替换”字符

归根结底，您的数据已损坏，无法修复。你需要修复上游发生的一切。您是否正在尝试使用复制和粘贴来获取数据？如果你在黑钻石上看到一个问号，那就是UTF-8字符

网友

2楼 · 编辑于 2024-09-30 14:36:46

我同意这是一个数据损坏问题zlib和pako应该能够读取彼此的数据，而无需删除任何字段或添加幻数

为了证明这一点，我收集了两个演示脚本，一个使用pako压缩数据，另一个使用zlib再次压缩数据：

// deflate.js
var pako = require("./pako.js");
console.log(escape(pako.deflate(process.argv[2], {to: "string"})));

# inflate.py
import urllib.parse, zlib, sys
print(zlib.decompress(urllib.parse.unquote_to_bytes(sys.stdin.read())).decode("utf-8"))

使用node deflate.js "Here is some example text" | inflate.py在命令行上运行它们。预期的输出是传递给node deflate.js的参数

关于pako值得指出的一点是使用to: "string"选项时的行为。此选项的documentation如下所示：

to (String) - if equal to 'string', then result will be "binary string" (each char code [0..255])

正是出于这个原因，我在上面的JavaScript函数中使用了escape。使用escape可以确保JavaScript和Python之间传递的字符串不包含任何非ASCII字符。（请注意，encodeURIComponent不工作，因为字符串包含二进制数据。）然后我在Python中使用urllib.parse.unquote_to_bytes来撤消此转义

如果您可以在浏览器中escape压缩pako的数据，那么您可能会将其传递给Python以再次对其进行膨胀

相关问题更多 >

编程相关推荐

热门问题

热门文章