Python：迭代字符串中的unicode字符

import unicodedata import json words = ['\\u05d5\\u05b7\\u05d9\\u05b0\\u05d3\\u05b7\\u05d1\\u05bc\\u05b5\\u05a3\\u05e8', '\\u05d9\\u05b0\\u05d4\\u05b9\\u05d5\\u05b8\\u0594\\u05d4', '\\u05d0\\u05b6\\u05dc\\u05be\\u05de\\u05b9\\u05e9\\u05c1\\u05b6\\u05a5\\u05d4', '\\u05d5\\u05b0\\u05d0\\u05b6\\u05bd\\u05dc\\u05be\\u05d0\\u05b7\\u05d4\\u05b2\\u05e8\\u05b9\\u0596\\u05df', '\\u05dc\\u05b5\\u05d0\\u05de\\u05b9\\u05bd\\u05e8\\u05c3'] for word in words: print(word) print(type(word)) for idx, char in enumerate(word): char_name = unicodedata.name(char) print(char_name + ": " + char + " : " + json.dumps(char)) # comment out

REVERSE SOLIDUS: \ : "\\" LATIN SMALL LETTER U: u : "u" DIGIT ZERO: 0 : "0" DIGIT FIVE: 5 : "5" LATIN SMALL LETTER D: d : "d" DIGIT FIVE: 5 : "5" REVERSE SOLIDUS: \ : "\\" LATIN SMALL LETTER U: u : "u"

3条回答

网友

1楼 · 编辑于 2024-09-29 19:23:20

请键入正确的单词列表，不带双反斜杠：

words = ['\u05d5\u05b7\u05d9\u05b0\u05d3\u05b7\u05d1\u05bc\u05b5\u05a3\u05e8', '\u05d9\u05b0\u05d4\u05b9\u05d5\u05b8\u0594\u05d4', '\u05d0\u05b6\u05dc\u05be\u05de\u05b9\u05e9\u05c1\u05b6\u05a5\u05d4', '\u05d5\u05b0\u05d0\u05b6\u05bd\u05dc\u05be\u05d0\u05b7\u05d4\u05b2\u05e8\u05b9\u0596\u05df', '\u05dc\u05b5\u05d0\u05de\u05b9\u05bd\u05e8\u05c3']
print(words)

或者使用.decode('unicode_escape')转换列表，但必须首先将.encode()转换为字节字符串。由于原始字符串都是ASCII字符，您几乎可以使用任何标准编码来转换为字节，但是'ascii'是最明确的：

words = ['\\u05d5\\u05b7\\u05d9\\u05b0\\u05d3\\u05b7\\u05d1\\u05bc\\u05b5\\u05a3\\u05e8', '\\u05d9\\u05b0\\u05d4\\u05b9\\u05d5\\u05b8\\u0594\\u05d4', '\\u05d0\\u05b6\\u05dc\\u05be\\u05de\\u05b9\\u05e9\\u05c1\\u05b6\\u05a5\\u05d4', '\\u05d5\\u05b0\\u05d0\\u05b6\\u05bd\\u05dc\\u05be\\u05d0\\u05b7\\u05d4\\u05b2\\u05e8\\u05b9\\u0596\\u05df', '\\u05dc\\u05b5\\u05d0\\u05de\\u05b9\\u05bd\\u05e8\\u05c3']
words = [word.encode('ascii').decode('unicode_escape') for word in words]
print(words)

两者都会导致：

['וַיְדַבֵּ֣ר', 'יְהֹוָ֔ה', 'אֶל־מֹשֶׁ֥ה', 'וְאֶֽל־אַהֲרֹ֖ן', 'לֵאמֹֽר׃']

网友

2楼 · 编辑于 2024-09-29 19:23:20

显然，需要对单词进行编码和解码以避开反斜杠：

words = [word.encode('utf-8').decode('unicode_escape') for word in verse_unicode.split()]

网友

3楼 · 编辑于 2024-09-29 19:23:20

可以使用Python中的split（）命令将sting分解为一个列表。然后可以迭代列表中的元素。您可以按如下方式执行此操作：

string = "\\u05d5\\u05b7\\u05d9\\u05b0\\u05d3\\u05b7\\u05d1\\u05bc\\u05b5\\u05a3\\u05e8"

splitted = string.split("\\")
targetlist = []
for s in splitted[1:]:
    targetlist.append(f"\\{s}")
print(targetlist)

这将产生：

['\\u05d5', '\\u05b7', '\\u05d9', '\\u05b0', '\\u05d3', '\\u05b7', '\\u05d1', '\\u05bc', '\\u05b5', '\\u05a3', '\\u05e8']

相关问题更多 >

编程相关推荐

热门问题

热门文章