如何在python 3.6中打开混合编码的unicode文件？

2条回答

网友

1楼 · 编辑于 2024-09-27 21:31:09

如果不知道文件中的实际字节，我们所能做的就是推测

如果文件在整个过程中没有使用单一编码，那么实际上就没有办法以编程方式处理它。您必须将其划分为多个部分，并分别使用对该序列正确的编码对每个部分进行转换。这几乎肯定需要手工操作，即使只是为了在不同编码的部分之间建立边界

接下来，您可能希望将所有内容转换为单一编码；我的建议是UTF-8。它应该能够容纳任何可以让Python首先识别为有效字符串的内容

作为一个粗略的示例，如果您知道您提供的示例使用纯7位ASCII表示拉丁部分，EUC-JP表示日语字符，那么可以尝试一下

with open(filename, 'rb') as filebytes:
    raw_bytes = filebytes.read()
string = raw_bytes[0:26].decode('ascii') + \
    raw_bytes[26:54].decode('euc-jp') + \
    raw_bytes[54:].decode('ascii')

我根据您提供的字符串实验性地确定了字符范围；如果我猜错了日语文本使用的编码（特别是），那么它们可能与您的实际数据不符

观察我们如何从用rb打开的文件句柄中读取bytes，Python在读取它们时不会尝试应用任何字符编码。但是如果我们想把它们变成一个字符串，我们当然必须用正确的编码分别对它们进行编码

网友

2楼 · 编辑于 2024-09-27 21:31:09

如果将{}插入UTF-8序列的中间，错误消息并不一定意味着数据实际上不是UTF-8，只是无法找到确切的位置并获得有用的解码。“无效开始字节”表示这不能是有效UTF-8字符串的开始

如果您只需要检索文件的最后一行，可以只读取整个文件并删除最后一行，或者use ^{}/ ^{} until you find a position you can safely seek to. ，或者只读取部分或全部文件作为bytes，然后只解码最后一行

import os

with open(file_path, "rb") as f:  # notice "b" in "rb"
    f.seek(0, os.SEEK_END)
    f.seek(f.tell() -40, os.SEEK_SET)
    records_bytes = f.read()
records_str = records_bytes.split(b'\n')[-2].decode('ascii')
print(records_str)

我们使用[-2]的前提是文件末尾包含一个最终换行符（即，它是一个格式良好的文本文件），因此[-1]只是一个空字符串，这将检索最后一个实际行

（将此作为一个单独的答案发布，以免污染我的另一个答案，我希望这对未来的访问者可能更有用。）

相关问题更多 >

编程相关推荐

热门问题

热门文章