2024-10-03 09:07:39 发布
网友
我有一个dataframe列("albums"),其中大多数值都是用纯文本编码的(例如:"Album","Album 2",等等),但有些值有utf-8或其他值与纯文本组合。例如,除了文本"Précis"之外,我还使用了"Pr\xc3\xa9cis."编码,例如HTML来代替文本中的撇号
"albums"
"Album"
"Album 2"
utf-8
"Précis"
"Pr\xc3\xa9cis."
HTML
是否有一种简单的方法可以将所有内容转换为纯文本,而无需搜索和替换每个可能的utf/unicode/html
对于\xc3\xa9,您需要将encode()和decode()与raw_unicode_escape组合使用
\xc3\xa9
encode()
decode()
raw_unicode_escape
print( "Pr\xc3\xa9cis.".encode('raw_unicode_escape').decode() )
文件:编解码器Python Specific Encodings
对于',您需要html.unescape
'
html.unescape
import html print(html.unescape("'"))
文件:html
对于
\xc3\xa9
,您需要将encode()
和decode()
与raw_unicode_escape
组合使用文件:编解码器Python Specific Encodings
对于
'
,您需要html.unescape
文件:html
相关问题 更多 >
编程相关推荐