如何比较两个pandas数据帧并删除一个文件中的重复项而不附加来自其他fi的数据

+-------------+-------------+-------------+ | column 1 | column 2 | column 3 | +-------------+-------------+-------------+ | duplicate 1 | duplicate 1 | duplicate 1 | | duplicate 2 | duplicate 2 | duplicate 2 | | 10 | 11 | 12 | | 13 | 14 | 15 | +-------------+-------------+-------------+

+-------------+-------------+-------------+ | column 1 | column 2 | column 3 | +-------------+-------------+-------------+ | 1 | 2 | 3 | | 4 | 5 | 6 | | 7 | 8 | 9 | | duplicate 1 | duplicate 1 | duplicate 1 | | duplicate 2 | duplicate 2 | duplicate 2 | | 10 | 11 | 12 | | 13 | 14 | 15 | +-------------+-------------+-------------+

+----------+----------+----------+ | column 1 | column 2 | column 3 | +----------+----------+----------+ | 10 | 11 | 12 | | 13 | 14 | 15 | +----------+----------+----------+

1条回答

网友

1楼 · 发布于 2024-09-24 06:24:02

试试这个：

我将2个索引装箱，然后将第2-4行设置为重复：

import numpy as np

test_master = pd.DataFrame(np.random.rand(3, 3), columns=['A', 'B', 'C'])
test_daily = pd.DataFrame(np.random.rand(5, 3), columns=['A', 'B', 'C'])
test_daily.iloc[1:4] = test_master[:3].values

print(test_master)
print(test_daily)

输出：

^{pr2}$

然后，添加一个多索引级别以标识哪些数据来自哪个数据帧：

test_master['master'] = 'master'
test_master.set_index('master', append=True, inplace=True)
test_daily['daily'] = 'daily'
test_daily.set_index('daily', append=True, inplace=True)

现在按照您的建议合并并删除重复项：

merged = test_master.append(test_daily)
merged = merged.drop_duplicates().sort_index()
print(merged)

输出：

             A         B         C
  master                              
0 daily   0.643062  0.335643  0.215443
  master  0.009322  0.330057  0.082956
1 master  0.197500  0.010593  0.356774
2 master  0.147410  0.697779  0.421207
4 daily   0.973867  0.873358  0.502973

在这里，您可以看到组合的数据帧，其中的数据源标记在索引中。现在只需对每日数据进行切片：

idx = pd.IndexSlice
print(merged.loc[idx[:, 'daily'], :])

输出：

             A         B         C
  master                              
0 daily   0.643062  0.335643  0.215443
4 daily   0.973867  0.873358  0.502973

相关问题更多 >

编程相关推荐

热门问题

热门文章