在python中转换为纯文本

2024-10-03 09:07:39 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个dataframe列（"albums"），其中大多数值都是用纯文本编码的（例如："Album"，"Album 2"，等等），但有些值有utf-8或其他值与纯文本组合。例如，除了文本"Précis"之外，我还使用了"Pr\xc3\xa9cis."编码，例如HTML来代替文本中的撇号

是否有一种简单的方法可以将所有内容转换为纯文本，而无需搜索和替换每个可能的utf/unicode/html

Tags：方法文本内容 dataframe 编码 album html unicode

1条回答

网友

1楼 · 发布于 2024-10-03 09:07:39

对于\xc3\xa9，您需要将encode()和decode()与raw_unicode_escape组合使用

print( "Pr\xc3\xa9cis.".encode('raw_unicode_escape').decode() )

文件：编解码器Python Specific Encodings

对于'，您需要html.unescape

import html

print(html.unescape("&#x27;"))

文件：html

在python中转换为纯文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中转换为纯文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >