将HTML字符转换为数据帧中的字符串

1条回答

网友

1楼 · 发布于 2024-07-08 07:23:15

如果没有任何NaN，那么可以简单地使用applymap()让所有单元格由html.escape处理

因此，如果您认为可以将NaN转换为空字符串，则可以使用：

df.fillna("").applymap(html.unescape)

如果您想保留NaN，那么一个好的解决方案是使用stack()将列转换为另一级别的索引，这将抑制NaN条目。然后，您可以使用apply()（因为它现在是一个系列，而不是一个数据帧）和稍后的unstack()将其恢复到原始格式：

df.stack().apply(html.unescape).unstack()

但请注意，最后一个方法将删除完全由NaN组成的行或列，不确定您是否可以接受

另一种选择是使用applymap()但使用lambda，并且仅将html.unescape应用于非NaN的术语：

df.applymap(lambda x: html.unescape(x) if pd.notnull(x) else x)