融化Pandas数据帧

df = pd.DataFrame({'custid':[1,2,3,4], ...: 'prod1':['jeans','tshirt','jacket','tshirt'], ...: 'prod1_hnode1':[1,2,3,2], ...: 'prod1_hnode2':[6,7,8,7], ...: 'prod2':['tshirt','jeans','jacket','shirt'], ...: 'prod2_hnode1':[2,1,3,4], ...: 'prod2_hnode2':[7,6,8,7]}) In [54]: df Out[54]: custid prod1 prod1_hnode1 prod1_hnode2 prod2 prod2_hnode1 \ 0 1 jeans 1 6 tshirt 2 1 2 tshirt 2 7 jeans 1 2 3 jacket 3 8 jacket 3 3 4 tshirt 2 7 shirt 4 prod2_hnode2 0 7 1 6 2 8 3 7

2条回答

网友

1楼 · 编辑于 2024-10-03 04:30:53

使用：

^{}按列custid
按^{}在列中创建{}
将列中的NaN替换为rec
^{}第一级
^{}表示来自MultiIndex的列
重命名列

df = df.set_index('custid')
df.columns = df.columns.str.split('_', expand=True)
df = df.rename(columns={np.nan:'rec'})
cols = ['custid','hnode1','hnode2','prod','rec']
df = df.stack(0).reset_index().rename(columns={'level_1':'prod'}).reindex(columns=cols)
print (df)
   custid  hnode1  hnode2   prod     rec
0       1       1       6  prod1   jeans
1       1       2       7  prod2  tshirt
2       2       2       7  prod1  tshirt
3       2       1       6  prod2   jeans
4       3       3       8  prod1  jacket
5       3       3       8  prod2  jacket
6       4       2       7  prod1  tshirt
7       4       4       7  prod2   shirt

网友

2楼 · 编辑于 2024-10-03 04:30:53

这是另一种应该有效的方法，但是使用重复的melts

coln = df.dtypes.index  # save some typing
df_long = pd.melt(
    df, id_vars = "custid", value_vars = ["prod1", "prod2"],
    var_name = "prod", value_name = "rec").assign(
    hnode1 = pd.melt(df, id_vars = "custid", 
                     value_vars = filter(lambda x: "hnode1" in x, coln))["value"],
    hnode2 = pd.melt(df, id_vars = "custid", 
                     value_vars = filter(lambda x: "hnode2" in x, coln))["value"])
print(df_long)
   custid   prod     rec  hnode1  hnode2
0       1  prod1   jeans       1       6
1       2  prod1  tshirt       2       7
2       3  prod1  jacket       3       8
3       4  prod1  tshirt       2       7
4       1  prod2  tshirt       2       7
5       2  prod2   jeans       1       6
6       3  prod2  jacket       3       8
7       4  prod2   shirt       4       7

你在评论中提到了R。melt来自“数据表“应该能够更容易地处理这一问题，因为您可以一次熔化多组列，这与使用baser的reshape函数类似。在

基本R方法可能大致如下：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章