对python的unicode正则表达式错误感到困惑

import re walden = "Waldenström" walden print(walden) s1 = "ö" s2 = "Wal" s3 = "OOOOO" out = re.sub(s1, s3, walden) print(out) out = re.sub("W", "w", walden) print(out) # I need this one to work out = re.sub('W', u'w', walden) # ERROR out = re.sub(u'W', 'w', walden) print(out) out = re.sub(s2, s1, walden) print(out)

1条回答

网友

1楼 · 发布于 2024-10-02 12:24:32

walden是str：

walden = "Waldenström"

此代码用unicode字符串替换字符：

re.sub('W', u'w', walden)

结果应该是u'w' + "aldenström"。这是失败的部分

为了连接str和unicode，必须首先将两者转换为unicode。结果也是unicode

问题是，解释器不知道如何将'ö'转换为unicode，因为它不知道使用哪种编码。结果不明确

解决方案是在进行更换之前先转换自己：

re.sub('W', u'w', unicode(walden, encoding))

encoding应该是用来创建该文件的

re.sub('W', u'w', unicode(walden, 'utf-8'))

编程相关推荐

地理编码器java gwt
如何在Java中将Json节点插入到另一个节点中？
java什么会导致重新创建安卓数据库？
java从hashmap中获得5个最高值，同时保留插入顺序
JavaStruts：使用进度条上传文件
不依赖于用户偏好的java时间
启动应用程序的java问题
java如果找不到文件，如何显示错误消息？
java如何知道一个标记是包含一个值还是另一个标记？
另一个类的try-catch块中的java Invoke方法

相关问题更多 >

编程相关推荐

热门问题

热门文章