Python。将“\\uxxx”替换为“\uxxx”

def raw_to_utf8(matcher): string2convert = matcher.group(0) return(chr(int(string2convert[2:],base=16))) def decode_utf8(text_raw): text_raw_re=re.compile(r"\\u[0-9a-ce-z]\w{0,3}") return text_raw_re.sub(raw_to_utf8, text_raw) text_fixed = decode_utf8(text_raw)

2条回答

网友

1楼 · 编辑于 2024-10-01 15:41:04

第一：也许你没有用正确的字符集解码网页。如果web服务器没有提供字符集，那么您可能需要在meta标记中找到它，或者进行有根据的猜测。也许可以尝试一些常用的字符集并比较结果。在

第二：我玩了一段时间的字符串和解码，这确实令人沮丧，但我在format()中找到了一个可能的解决方案：

s = "\\u00f3"
print('{:c}'.format(int(s[2:], 16)))

将提取的十六进制值格式化为unicode似乎可以工作。在

网友

2楼 · 编辑于 2024-10-01 15:41:04

不能将'\\'替换为'\'，因为'\'不是有效的文本字符串。在

将十六进制表达式转换为数字，然后找到相应的字符：

original = '\\u00f3'
char = chr(int(original[2:], base=16))

您可以检查这是否会产生所需的结果：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章