2024-09-30 00:39:57 发布
网友
我正在从一个网站上抓取一些非英语字母的数据,比如Vitória,因为输出的是Vit\xf3ria,这会把我的数据搞得一团糟。在
如何替换\xf3和其他类似的文件?在
附言:
text.replace('\xf3', '')
不起作用。如果可能的话,我希望能以csv格式显示并保存这些字母。在
在Python 3中:
>>> bytes('Vit\xf3ria', 'unicode-escape').decode('unicode-escape') 'Vitória'
多亏了评论中的所有帮助,我找到了答案: 信用: @SIM,@match,@t.m.adam和@dax
好了。在
text.encode('utf-8').strip()
感谢大家。在
按原样编码:
ps 在终端的输出和以前一样…例如
之前('Cear\xe1-CE')>;现在('Cear\xc3\xa1-CE')
但在csv中它是CearáCE
尽早修复编码错误,而不是晚些时候替换字符。在
因此,与其修复提取字符串的编码,不如尽早读取网页的正确编码(使用http标头、meta标记等),然后所有刮取的字符串都应该是正确的。在
在Python 3中:
多亏了评论中的所有帮助,我找到了答案: 信用: @SIM,@match,@t.m.adam和@dax
好了。在
感谢大家。在
按原样编码:
^{pr2}$ps 在终端的输出和以前一样…例如
之前('Cear\xe1-CE')>;现在('Cear\xc3\xa1-CE')
但在csv中它是CearáCE
尽早修复编码错误,而不是晚些时候替换字符。在
因此,与其修复提取字符串的编码,不如尽早读取网页的正确编码(使用http标头、meta标记等),然后所有刮取的字符串都应该是正确的。在
相关问题 更多 >
编程相关推荐