在python中转换为纯文本

2024-10-03 09:07:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个dataframe列("albums"),其中大多数值都是用纯文本编码的(例如:"Album""Album 2",等等),但有些值有utf-8或其他值与纯文本组合。例如,除了文本"Précis"之外,我还使用了"Pr\xc3\xa9cis."编码,例如HTML来代替文本中的撇号

是否有一种简单的方法可以将所有内容转换为纯文本,而无需搜索和替换每个可能的utf/unicode/html


Tags: 方法文本内容dataframe编码albumhtmlunicode
1条回答
网友
1楼 · 发布于 2024-10-03 09:07:39

对于\xc3\xa9,您需要将encode()decode()raw_unicode_escape组合使用

print( "Pr\xc3\xa9cis.".encode('raw_unicode_escape').decode() )

文件:编解码器Python Specific Encodings


对于',您需要html.unescape

import html

print(html.unescape("'"))

文件:html

相关问题 更多 >