如何在 Python 中修复损坏的 utf-8 编码？

3条回答

网友

1楼 · 编辑于 2024-05-18 14:22:36

我不知道你能用这些数据做些什么，但是对于你在原始文章中的例子，这是有效的：

>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh'
>>> s = mystr.decode('utf8').encode('latin1').decode('utf8')
>>> s
u'09. B\xe1t Nh\xe3 T\xe2m Kinh'
>>> print(s)
09. Bát Nhã Tâm Kinh

网友

2楼 · 编辑于 2024-05-18 14:22:36

尝试：

str.encode('ascii', 'ignore').decode('utf-8')

您将字符串编码为ASCII格式/忽略错误并解码为UTF-8格式。这可能会消除口音，但这是一种方法。

网友

3楼 · 编辑于 2024-05-18 14:22:36

唯一能帮我解决西里尔文断线的是-https://github.com/LuminosoInsight/python-ftfy

这个模块修复了几乎所有的东西，比在线解码器工作得更好。

>>> from ftfy import fix_encoding
>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh'
>>> fix_encoding(mystr)
'09. Bát Nhã Tâm Kinh'

可以使用pip install ftfy轻松安装

编程相关推荐

如何在java中模拟按键？
尽管元素存在，但HtmlUnit中的java ElementNotFoundException
在Java中，长双精度并发写入不是原子的吗？
java如何在另一个对象数组中打印对象的int值？
java在显示或更改视图后执行一些代码
java JFR:读取时发生OutOfMemoryError。jfr文件
java Android助手检查是否购买
java这种设计模式的好处是什么？
Weblogic 10.3中针对托管服务器的java部署问题
java如何获取字符串。在编译时投诉的格式

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在 Python 中修复损坏的 utf-8 编码？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >