奇怪的gzip几乎被提取，但并不完全正确

import zlib import base64 def decode_binary_from_utf8_to_cp1251(data): enc_from = "utf8" enc_to = "cp1251" on_errors = "replace" # on_errors = "" return data.decode(enc_from, on_errors).encode(enc_to, on_errors) def remove_archive_signature_from_start(data): return data[10:] def decompress_gzip(body): args = (-zlib.MAX_WBITS | 16,) # working return zlib.decompress(body, *args) def convert_binary_to_normal_text(b, encoding="cp1251"): b = b.decode(encoding, "replace") return b base64_encoded = "L2dldC8f4oC5CAAAAAAABABN4oCZX+KAmdCrIAzQltCH0KLQ ... gMAAA==" data = base64.b64decode(base64_encoded)[5:] # data = b'\x1f\xe2\x80\xb9\x08\x00\x00\x00\x00\x00\x04\x00...\x03\x00\x00' new_data = decode_binary_from_utf8_to_cp1251(data) new_data = remove_archive_signature_from_start(new_data) decompressed = decompress_gzip(new_data) normal_text = convert_binary_to_normal_text(decompressed) print(f"{normal_text=}")

2条回答

网友

1楼 · 编辑于 2024-09-28 21:13:24

“某些程序”有一个需要修复的bug。通常，UTF编码不是无损的，因此原始数据是不可恢复的。该程序需要而不是执行任何此类转换，而是发送原始二进制文件

通过使用Windows-1251 Wikipedia page上的表，我能够从示例中恢复原始gzip文件，并添加了一个。您将注意到该表中没有字符0x98。我假设unicode符号U+0098转换为字节0x98。应用该转换并删除结果的前五个字节，将得到一个具有正确CRC和长度检查的有效gzip流

由于所提供的示例没有所有可能的字节值，因此不能保证这在一般情况下都会起作用

网友

2楼 · 编辑于 2024-09-28 21:13:24

多亏了@Mark Adler，新版decode_binary_from_utf8_to_cp1251解决了这个问题：

def decode_binary_from_utf8_to_cp1251(data, enc_from="utf8", enc_to="cp1251"):
    data = data_correction_before(data)
    data = data.decode(enc_from)
    data = data.encode(enc_to)
    data = data_correction_after(data)
    return data


def data_correction_before(data):
    return data.replace(b"\xc2\x98", b"__WRONG__")


def data_correction_after(data):
    return data.replace(b"__WRONG__", b"\x98")

相关问题更多 >

编程相关推荐

热门问题

热门文章