如何在Python 3.5中移除重音并使用unicodedata或其他解决方案得到字符串？

3条回答

网友

1楼 · 编辑于 2024-05-19 17:04:03

addresse1=unicodedata.normalize('NFKD', addresse1).encode('utf-8','ignore')

您可能是指.encode('ascii', 'ignore')，删除非ASCII字符。UTF-8包含所有字符，因此对其进行编码不会消除任何字符，使用它的编解码循环是no-op

is there a better solution?

这取决于你想做什么。

如果只想删除变音符号而不丢失所有其他非ASCII字符，则可以在NFKD标准化后读取每个字符的unicodedata.category，并删除M类中的字符

如果您想将ASCII翻译成需要自定义替换的特定语言问题（例如在德语中ö变成oe，但在瑞典语中不是）。

如果您只是想将字符串伪造成ASCII，因为其中包含非ASCII字符会导致某些代码中断，那么修复该代码以使其与所有Unicode字符一起正常工作当然比损坏良好的数据要好得多。字母è不能用ASCII编码，但99.9989%的字符也不能编码，因此很难使其“特殊”。只支持ASCII的代码是蹩脚的。

Google Geocoding API可以很好地与Unicode一起工作，因此没有明显的理由需要您做这些事情。

预计到达时间：

url2= 'maps.googleapis.com/maps/api/geocode/json?address=' + addresse1 ...

啊，你需要对你注入一个URL的数据进行URL编码。这不仅仅是针对Unicode的，上面的代码也会被许多ASCII标点符号打断。使用urllib.quote对单个字符串进行编码，或使用urllib.encode转换多个参数：

params = dict(
    address=address1.encode('utf-8'),
    key=googlekey
)
url2 = '...?' + urllib.urlencode(params)

（在Python 3中是urllib.parse.quote和urllib.parse.encode，它们会自动选择UTF-8，因此您不必在那里手动编码。）

data2 = urllib.request.urlopen(url2).read().decode('utf-8')
data3=json.loads(data2)

json.loads读取字节字符串，因此您应该可以安全地省略UTF-8解码。无论如何，json.load将直接从类似文件的对象中读取，因此您根本不必将数据加载到字符串中：

data3 = json.load(urllib.request.urlopen(url2))

网友

2楼 · 编辑于 2024-05-19 17:04:03

使用第三方包：^{}

3>> unidecode.unidecode("32 rue d'Athènes Paris France")
"32 rue d'Athenes Paris France"

网友

3楼 · 编辑于 2024-05-19 17:04:03

您可以使用python中的translate()方法。以下是从tutorialspoint.com复制的示例：

#!/usr/bin/python

from string import maketrans   # Required to call maketrans function.

intab = "aeiou"
outtab = "12345"
trantab = maketrans(intab, outtab)

str = "this is string example....wow!!!";
print str.translate(trantab)

这将输出：

th3s 3s str3ng 2x1mpl2....w4w!!!

因此，您可以定义希望替换哪些字符比使用replace()更容易

相关问题更多 >

编程相关推荐

热门问题

热门文章