如何按不同列分组

ISO3 Income_Cat_1980 Income_Cat_1985 DWWC1980 DWWC1985 AFG L LM 5 10 AGO LM H 15 25 ALB LM UM 30 40 ARE H H 40 50 for i in range (1980,1990,5): df=pd.DataFrame(pd.read_csv("mydata.csv")) df=df.groupby("Income_Cat_"+str(i)).sum() print df df.to_csv('country-surplus'+str(i)+'.csv',index="Income_Cat_"+str(i))

Income_Cat_1980 DWWC1980 DWWC1985 H 40 50 L 5 10 LM 45 65 Income_Cat_1985 DWWC1980 DWWC1985 H 55 75 LM 5 10 UM 30 40

3条回答

网友

1楼 · 编辑于 2024-10-06 12:44:09

我猜你需要这个。你知道吗

输入：

df

    ISO3    Income_Cat_1980     Income_Cat_1985     DWWC1980    DWWC1985
0   AFG     L                   LM                  5           10
1   AGO     LM                  H                   15          25
2   ALB     LM                  UM                  30          40
3   ARE     H                   H                   40          50

使用以下代码

pd.concat([df.groupby('Income_Cat_' + str(year)).sum()['DWWC' + str(year)] 
           for year in range(1980,1986) if 'Income_Cat_' + str(year) in            
           df.columns],1).fillna(0).astype(int)

输出

    DWWC1980    DWWC1985
H   40          75
L   5           0
LM  45          10
UM  0           40

说明：

pd.concat([list of series],1)沿着索引连接pd.Series。如果一个pd.Series（列名为series1）没有另一个的索引i，则结果数据帧中的单元格将获得值NaN，因此：

print(df.loc[i, series1])

结果NaN。因此我们使用fillna(0)用零填充NaN。转换为整数是获得所需数据帧的最后一步

网友

2楼 · 编辑于 2024-10-06 12:44:09

如果我理解这个问题的话，这应该会产生期望的结果

init = True
for i in range(1980,1990,5):

    _df = df[["Income_Cat_"+str(i), 'DWWC'+str(i)]]
    _df=_df.groupby("Income_Cat_"+str(i)).sum()

    if init:
        out = _df
        init=False
    else:
        out = out.merge(_df, how='outer', left_index=True, right_index=True)

out.fillna(0, inplace=True)
out.index.rename('Income_cat', inplace=True)

您可以将循环中的第一行替换为：

_df = df[[a for a in df.columns if str(i) in a]]

网友

3楼 · 编辑于 2024-10-06 12:44:09

代码应如下所示：

#You should only be loading the data once
df=pd.DataFrame(pd.read_csv("mydata.csv"))

dfl = []
for i in range (1980,1990,5):
    temp = df.groupby("Income_Cat_"+str(i))[['DWWC' + str(i)]].sum()
    temp.index.rename('Income_Cat', inplace=True)
    dfl.append(temp)

out = pd.concat(dfl, sort=False).fillna(0)).groupby('Income_Cat').sum()

out.to_csv('country-surplus'+str(i)+'.csv',index="Income_Cat')

产出和你描述的不完全一样，因为它的指数包括了所有6个收入类别。我不明白你为什么只需要4个，但我希望这段话对你有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章