保留原始列名

santandar_data = pd.read_csv(r"train.csv", nrows=40000) santandar_data.shape santandar_data.original_names=santandar_data.columns ndf=santandar_data ndf.original_names Index(['ID', 'var3', 'var15', 'imp_ent_var16_ult1', 'imp_op_var39_comer_ult1', 'imp_op_var39_comer_ult3', 'imp_op_var40_comer_ult1', 'imp_op_var40_comer_ult3', 'imp_op_var40_efect_ult1', 'imp_op_var40_efect_ult3', ... 'saldo_medio_var33_hace2', 'saldo_medio_var33_hace3', 'saldo_medio_var33_ult1', 'saldo_medio_var33_ult3', 'saldo_medio_var44_hace2', 'saldo_medio_var44_hace3', 'saldo_medio_var44_ult1', 'saldo_medio_var44_ult3', 'var38', 'TARGET'], dtype='object', length=371)

1条回答

网友

1楼 · 发布于 2024-09-26 18:10:30

几乎可以肯定的是，pyjanitor.clean_names函数会返回输入数据帧的副本。复制数据帧是known to not copy arbitrary attributes assigned to an instance。你知道吗

但是，实际上，这些原始列标题不属于您的pd.DataFrame实例，因为您不能将它们直接用于标记或其他任何操作。你知道吗

我的建议是存储为一个单独的变量。如果需要使用数据帧进行分组，可以将字典与任何其他元数据一起使用：

df_dct = {'df': santandar_data, 'original_names': santandar_data.columns}

df_dct['df'] = df_dct['df'].clean_names(...)

相关问题更多 >

编程相关推荐

热门问题

热门文章