pandas drop_duplicates不会删除重复的行

2024-09-30 16:23:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个叫Live_Data的df

           Date     SP500    ESTX50    NIKKEI
0    1993-01-25  0.076267  0.143558  0.155526
1    1993-01-26  0.073754  0.143356  0.161161
2    1993-01-27  0.074086  0.142795  0.155861
3    1993-01-28  0.071559  0.137905  0.201874
4    1993-01-29  0.069098  0.133931  0.195362

[6740 rows x 4 columns]
Date      datetime64[ns]
SP500            float64
ESTX50           float64
NIKKEI           float64
dtype: object

我在本地将此df保存为CSV文件,然后在另一个名为Archive的df中再次导入:

hist_realized_vol.to_csv('local_path', index=False)
Archive = pd.read_csv('local_path', parse_dates=['Date'])

这是档案。它显然与实时数据具有相同的数据和结构

           Date     SP500    ESTX50    NIKKEI
0    1993-01-25  0.076267  0.143558  0.155526
1    1993-01-26  0.073754  0.143356  0.161161
2    1993-01-27  0.074086  0.142795  0.155861
3    1993-01-28  0.071559  0.137905  0.201874
4    1993-01-29  0.069098  0.133931  0.195362

[6740 rows x 4 columns]
Date      datetime64[ns]
SP500            float64
ESTX50           float64
NIKKEI           float64
dtype: object

我试图连接两个dfs,只保留其中一个重复行(在本例中,任务没有意义,因为两个dfs包含相同的数据;当代码生效时,live_数据将包括我需要添加到本地保存的存档中的新数据)

我得到的结果不是我想要的(副本仍然存在):

final=pd.concat([Archive,Live_Data]).drop_duplicates()
final=final.sort_values(by='Date')

           Date     SP500    ESTX50    NIKKEI
0    1993-01-25  0.076267  0.143558  0.155526
0    1993-01-25  0.076267  0.143558  0.155526
1    1993-01-26  0.073754  0.143356  0.161161
1    1993-01-26  0.073754  0.143356  0.161161
2    1993-01-27  0.074086  0.142795  0.155861


[13169 rows x 4 columns]

我做错了什么?谢谢


Tags: columns数据livedfdatadaterowsfinal