修复python中从右向左的书写

import unicodedata import sys from tabulate import tabulate headers=["Unicode Point", "Character in UTF-8 + length", "Character normalized + legth"] data = [] f = open('multiplierNFD.txt', 'a', encoding='utf8') for i in range (sys.maxunicode + 1): uni = chr(i) char8 = uni.encode('utf8', 'ignore').decode('utf8', 'ignore') char8norm = unicodedata.normalize('NFKC', char8) if len(char8) != len(char8norm): if i < 65535: str1 = "U+" + str(hex(i))[2:].rjust(4,'0') else: str1 = "U+" + str(hex(i))[2:].rjust(8,'0') str2 = char8 + " ---> " + str(len(char8)) str3 = char8norm + " ---> " + str(len(char8norm)) data.append([str1, str2, str3]) f.write(tabulate(data, headers=["Unicode Point", "Character in UTF-8 + length", "Character normalized + legth"]))

U+fb16 ﬖ ---> 1 վն ---> 2 U+fb17 ﬗ ---> 1 մխ ---> 2 U+fb1d יִ ---> 1 יִ ---> 2 U+fb1f ײַ ---> 1 ײַ ---> 2 U+fb2a שׁ ---> 1 שׁ ---> 2

1条回答

网友

1楼 · 发布于 2024-09-30 02:22:29

将字符从左向右换行：

import unicodedata
import sys
from tabulate import tabulate

ltr = '\N{LEFT-TO-RIGHT OVERRIDE}'

headers=["Unicode", "Character + UTF-8 length", "NFKC + UTF-8 length"]
data = []
for i in range (sys.maxunicode + 1):
    uni = chr(i)
    nfkc = unicodedata.normalize('NFKC', uni)
    if len(uni) != len(nfkc):
        str1 = f'U+{i:04X}'
        str2 = f'{ltr}{uni}{ltr}  -> {len(uni.encode())}'
        str3 = f'{ltr}{nfkc}{ltr}  -> {len(nfkc.encode())}'
        data.append([str1, str2, str3])

with open('multiplierNFD.txt', 'w', encoding='utf8') as f:
    f.write(tabulate(data, headers=headers))

输出样本：

Unicode    Character + UTF-8 length    NFKC + UTF-8 length
    -                              
...
U+FB16     ‭ﬖ‭  -> 3                    ‭վն‭  -> 4
U+FB17     ‭ﬗ‭  -> 3                    ‭մխ‭  -> 4
U+FB1D     ‭יִ‭  -> 3                    ‭יִ‭  -> 4
U+FB1F     ‭ײַ‭  -> 3                    ‭ײַ‭  -> 4
U+FB2A     ‭שׁ‭  -> 3                    ‭שׁ‭  -> 4
...

我还对代码进行了一些清理，并输出UTF-8长度，如标题所示，而不是代码点长度。不要将Unicode代码点与UTF-8编码混淆。例如，这不起任何作用：

char8 = uni.encode('utf8', 'ignore').decode('utf8', 'ignore')

所有代码点都可以用UTF8编码，因此没有什么可以忽略的，解码会再次将其转换回原始字符，因此代码中的uni == char8

相关问题更多 >

编程相关推荐

热门问题

热门文章