pandas，根据某些列值和NAN组合行

网友

1楼 · 编辑于 2024-10-01 09:24:32

groupby+first

df=df.replace('NAN',np.nan) # make sure it is np.nan not string NAN

df.groupby(['id_1','id_2'],as_index=False).first()
Out[37]: 
   id_1  id_2 value1 value2
0     1     2    100    101
1    10     2    345    345
2    10    20    200    202

网友

2楼 · 编辑于 2024-10-01 09:24:32

我不认为有一个单一的命令和许多不同的方法来实现这一点。但是，您可以在后面使用melt和pivot：

id_vars = ["id_1", "id_2"]
melted = df.melt(id_vars=id_vars).dropna()
pivoted = melted.pivot_table(index=id_vars, columns="variable", values="value")

print(pivoted)

    variable    value1  value2
id_1    id_2        
1       2       100.0   101.0
10      2       345.0   345.0
        20      200.0   202.0

但是，上述解决方案比以下两种方案慢。在

首先，可以使用forward fill ffill填充nan，使用last获得最后一行，该行包含由于ffill而产生的所有有效值：

^{pr2}$

第二，您可以使用自定义的apply，而不是分组两次（因为ffill返回一个数据帧），它有相同的结果：

def collapse(x):
    return x.ffill().iloc[-1, 2:]

df.groupby(ids).apply(collapse).reset_index()

即使我们在这里使用apply，它也是最快的解决方案（至少对于您提供的虚拟数据-对于更大的数据集，它可能会有不同的缩放比例）。在

网友

3楼 · 编辑于 2024-10-01 09:24:32

单向（df是初始数据帧）：

df1=df.dropna(subset=["value1"]).drop("value2",axis=1)
df2=df.dropna(subset=["value2"]).drop("value1",axis=1)
dfNew=pd.concat([df1,df2],axis=1)

相关问题更多 >

编程相关推荐

热门问题

热门文章

pandas，根据某些列值和NAN组合行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >