Pandas分组合并

df1: ID cumul_growth_perc Nioz-TC-09-A1R 0 Nioz-TC-09-A1R 2.99881756777804 Nioz-TC-09-A1R 90.1974001442841 Nioz-TC-09-A1R 92.7010664317585 Nioz-TC-09-A1R 95.4937993952028 Nioz-TC-09-A1R 97.7300790074048 Nioz-TC-09-A1R 100 Nioz-TC-09-A2R 0 Nioz-TC-09-A2R 2.1989297984251 Nioz-TC-09-A2R 4.25561486642024 Nioz-TC-09-A2R 82.2910739802899 Nioz-TC-09-A2R 93.276493352502 Nioz-TC-09-A2R 95.5072381936874 Nioz-TC-09-A2R 97.5983443147713 Nioz-TC-09-A2R 100

df2: day cumul_growth_perc 32 0.233297611918821 33 0.466595223837642 34 0.699892835756464 35 0.933190447675285 36 1.16648805959411 37 1.39978567151293 46 3.54027808151455 47 3.78173847397982 48 4.02319886644508 335 92.4313101347799 336 92.6888317371006 337 92.9463533394213 338 93.203874941742 339 93.4613965440627 340 93.7189181463834 361 99.0468989121531 362 99.2851741841149 363 99.5234494560766 364 99.7617247280384 365 100

ID cumul_growth_perc day 0 Nioz-TC-09-A1R 0.000000 32 1 Nioz-TC-09-A1R 2.998818 46 2 Nioz-TC-09-A1R 90.197400 335 3 Nioz-TC-09-A1R 92.701066 336 4 Nioz-TC-09-A1R 95.493799 340 5 Nioz-TC-09-A1R 97.730079 361 6 Nioz-TC-09-A1R 100.000000 365 7 Nioz-TC-09-A2R 0.000000 32 8 Nioz-TC-09-A2R 2.198930 37 9 Nioz-TC-09-A2R 4.255615 48 10 Nioz-TC-09-A2R 82.291074 335 11 Nioz-TC-09-A2R 93.276493 338 12 Nioz-TC-09-A2R 95.507238 340 13 Nioz-TC-09-A2R 97.598344 361 14 Nioz-TC-09-A2R 100.000000 365

for i, name in enumerate(df1.Shell_ID.unique()): if i==0: df2_long = df2.copy() df2_long['ID'] = name else: temp = df2.copy() temp['ID'] = name df2_long = df2_long.append(temp)

2条回答

网友

1楼 · 编辑于 2024-09-30 06:29:31

使用tolerance和direction参数，可以定义值之间的接近程度。正如您所看到的value 2.998818 有ID{}，因为例如，在3.0间隔中没有来自第二个df的关闭值

df = pd.DataFrame({
    "cumul_growth_perc": [2.99881756777804,90.1974001442841,92.7010664317585],
    'day':['one','two','three']
})
print(df)
   cumul_growth_perc    day
0           2.998818    one
1          90.197400    two
2          92.701066  three


df2= pd.DataFrame({
    "cumul_growth_perc": [92.9463533394213, 93.203874941742, 84.00],
    'ID':['first','second','3rd']
}).sort_values(by='cumul_growth_perc')

print(df2)
   cumul_growth_perc      ID
2          84.000000     3rd
0          92.946353   first
1          93.203875  second

res = pd.merge_asof(df,df2,on='cumul_growth_perc',tolerance=3.0,direction='nearest')

print(res)
   cumul_growth_perc    day     ID
0           2.998818    one    NaN
1          90.197400    two  first
2          92.701066  three  first

网友

2楼 · 编辑于 2024-09-30 06:29:31

使用^{}对数据帧df1和df2进行排序cumul_growth_perc，然后对排序后的数据帧执行^{}：

d1 = df1.sort_values('cumul_growth_perc')
d2 = df2.sort_values('cumul_growth_perc')

df = pd.merge_asof(d1, d2, on='cumul_growth_perc', direction='nearest').sort_values('ID')

结果:

                ID  cumul_growth_perc  day
0   Nioz-TC-09-A1R           0.000000   32
1   Nioz-TC-09-A1R           2.998818   46
2   Nioz-TC-09-A1R          90.197400  335
3   Nioz-TC-09-A1R          92.701066  336
4   Nioz-TC-09-A1R          95.493799  340
5   Nioz-TC-09-A1R          97.730079  361
6   Nioz-TC-09-A1R         100.000000  365
7   Nioz-TC-09-A2R           0.000000   32
8   Nioz-TC-09-A2R           2.198930   37
9   Nioz-TC-09-A2R           4.255615   48
10  Nioz-TC-09-A2R          82.291074  335
11  Nioz-TC-09-A2R          93.276493  338
12  Nioz-TC-09-A2R          95.507238  340
13  Nioz-TC-09-A2R          97.598344  361
14  Nioz-TC-09-A2R         100.000000  365

相关问题更多 >

编程相关推荐

热门问题

热门文章