将“\xf3”和“\xe9”替换为它们的正常形式

2024-09-30 00:39:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在从一个网站上抓取一些非英语字母的数据,比如Vitória,因为输出的是Vit\xf3ria,这会把我的数据搞得一团糟。在

如何替换\xf3和其他类似的文件?在

附言:

text.replace('\xf3', '') 

不起作用。如果可能的话,我希望能以csv格式显示并保存这些字母。在


Tags: 文件csv数据text网站格式字母replace
3条回答

在Python 3中:

>>> bytes('Vit\xf3ria', 'unicode-escape').decode('unicode-escape')
'Vitória'

多亏了评论中的所有帮助,我找到了答案: 信用: @SIM,@match,@t.m.adam和@dax

好了。在

text.encode('utf-8').strip()

感谢大家。在

按原样编码:

^{pr2}$

ps 在终端的输出和以前一样…例如

之前('Cear\xe1-CE')>;现在('Cear\xc3\xa1-CE'

但在csv中它是CearáCE

尽早修复编码错误,而不是晚些时候替换字符。在

因此,与其修复提取字符串的编码,不如尽早读取网页的正确编码(使用http标头、meta标记等),然后所有刮取的字符串都应该是正确的。在

相关问题 更多 >

    热门问题