将非7bit ASCII的字母转换为ASCII（如从n到n，从ą到a）

>>> utf8_letters = ['ą','ę','ć','ź','ż','ó','ł','ń','ś'] >>> ascii_letters = ['a','e','c','z','z','o','l','n','s'] >>> trans_dict = dict(zip(utf8_letters,ascii_letters)) >>> turtle = "żółw" >>> out = [] >>> for l in turtle: ... out.append(trans_dict[l] if l in trans_dict else l) >>> result = ''.join(out) >>> result 'zolw'

1条回答

网友

1楼 · 发布于 2024-10-01 11:35:41

unicodedata模块可用于此操作。它有操作Unicode字符名的函数：^{}和^{}。在

现在让我们仔细看看。在

name('Ż') == 'LATIN CAPITAL LETTER Z WITH DOT ABOVE'
name('ł') == 'LATIN SMALL LETTER L WITH STROKE'
lookup('LATIN CAPITAL LETTER Z') == 'Z'
lookup('LATIN SMALL LETTER L') == 'l'

看到图案了吗？让我们做一个利用它的函数：

^{pr2}$

它查找字符名中包含的单词，删除其后面的所有内容并将其反馈给^{}函数。
如果不存在带的'，则引发ValueError，并且当没有具有此类名称的字符时，KeyError将被引发，因此函数将返回不变的字符。在

下面是一个基于前一个函数“翻译”字符串的函数：

def normalize(s):
    return ''.join(normalize_char(c) for c in s)

normalize('Móżdżek') == 'Mozdzek'

所以这个解决方案显然是非常好的，但是我将把前面的解决方案留在下面。在

^{}模块还有一个函数，它承诺类似的结果&^{}带有'NFKD'参数（兼容性分解），但它忽略了大多数字符。在

如果你有字符数据，你提供的代码可以改进。在

letters={'ł':'l', 'ą':'a', 'ń':'n', 'ć':'c', 'ó':'o', 'ę':'e', 'ś':'s', 'ź':'z', 'ż':'z'}
trans=str.maketrans(letters)
result=text.translate(trans)

Here是一个很好的包含字符数据的表。这是JavaScript，但可以很容易地用于Python。在

如果您不介意使用外部库，您可以尝试Unidecode。它就是为这个做的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章