在UTF8 fi中逐个字符

2条回答

网友

1楼 · 编辑于 2024-10-01 09:39:37

Unless you start at the beginning, I am think there is no way to know what the character boundaries are...

那不是真的。你可以在UTF-8的任何一块中找到开头：

如果给定字节中的第一位被设置，则它是多字节序列的一部分。在
如果第二位也被设置，它就是这样一个序列的开始。在

所以序列中的第一个字节要么以“0”（单字节字符）或“11”（两个或多个字节的第一个）开头。后续字节都以“10”开头。在

看看这个chart on Wikipedia。在

因此，您只需从文件末尾读取几个字节即可确定字符的开始和结束位置。在

网友

2楼 · 编辑于 2024-10-01 09:39:37

你可以这样做，但不能作为个人角色。将文件视为字节。在

每个UTF-8字符由1到4个字节组成。要读取文件的结尾，请读取最后4*n个字节并开始查找字符边界。UTF-8字符的第一个字节具有0或11的顶层模式，中间的所有其他字节都将采用10模式。只需向后搜索，直到计算出与图案匹配的正确数字。在

with open('test.txt', 'rb') as f:
    f.seek(-4, os.SEEK_END)
    ch=f.read(4)
    for i in range(3, -1, -1):
        pattern = ord(ch[i]) & 0xc0
        if pattern in (0x00, 0x40, 0xc0):
            ch = ch[i:]
            break

相关问题更多 >

编程相关推荐

热门问题

热门文章

在UTF8 fi中逐个字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >