python替换unicode字符

2条回答

网友

1楼 · 编辑于 2024-09-30 02:25:40

这个怎么样？

line = '(13)\xc2\xb5\xc2\xb1\xc2\xbe\xc3\xa2p\xc3\xb4\xc2\x8d(5)example(3)com(0)'

pattern = r'\\x.+'
re.sub(pattern, r'?', line)

网友

2楼 · 编辑于 2024-09-30 02:25:40

有比regex更好的工具用于此作业，您可以尝试例如：

>>> line
'(13)\xc2\xb5\xc2\xb1\xc2\xbe\xc3\xa2p\xc3\xb4\xc2\x8d(5)example(3)com(0)'
>>> line.decode('ascii', 'ignore')
u'(13)p(5)example(3)com(0)'

跳过非ascii字符。或者使用replace，可以将它们替换为“？”占位符：

^{pr2}$

但是最好的解决方案是首先找出是什么错误的编码/解码导致mojibake发生，这样就可以通过使用正确的代码页来恢复数据。

关于取消emojibakehere，有一个很好的答案。请注意，这是一门不精确的科学，很多关键信息实际上都在答案下面的评论帖子中。