Python降价模块因unicode转换而受阻,utf8

2024-10-01 02:38:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用web2py中的markdown模块来处理标记文本。问题是,人们提交的材料带有smartquotes、特殊字符等,我需要用它们的等价物替换它们。在

我有这样的文字:'\n\r\n上校脸色有点苍白。\xe2\x80\x9cBut,然后是\xe2\x80“对不起我的大胆,先生\xe2\x80“我们现在就去乌瓦尔”

如何确保像在markdown内部对文本那样调用unicode(txt,'utf-8')不会引发错误?文字处理程序插入的奇特的特殊引号是正常原因,但似乎有许多字符是一个问题。在


Tags: 模块标记文本unicodemarkdown材料大胆xe2
1条回答
网友
1楼 · 发布于 2024-10-01 02:38:17

当解码为UTF-8时,\xe2\x80\x9c是U+201C左双引号(“智能引号”)。两个出现的\xe2\x80"不是有效的UTF-8序列,并且其中存在"(一个“哑”引号)是可疑的。您似乎有损坏或编码问题,或两者兼而有之。在我们开始用愚蠢的引号代替智能引号之前,我们需要先解决这个问题。在

“人们提交资料”到底是怎么回事?在markdown做unicode(txt, 'utf-8')之前,它经历了哪些转变?在

相关问题 更多 >