有没有一种更简洁的方法可以根据字符串中的一个特定子字符串来取多个变量的平均值

fullname = ['MainName1,subname1','MainName1,subname2','MainName2,subname1','MainName2,subname2'] var1 = [1,5,9,4] var2 = [2,6,1,5] var3 = [3,7,2,6] var4 = [4,8,3,7] vars = pd.DataFrame(np.column_stack([fullname,var1,var2,var3,var4])) vars = vars.set_index('fullname') meanvars = [(allvars[allvars.index.str.contains('MainName1')]).mean(), (allvars[allvars.index.str.contains('MainName2')]).mean()] MainName = ['MainName1','MainName2'] Final = pd.DataFrame(np.column_stack([MainName,meanvars]))

1条回答

网友

1楼 · 发布于 2024-09-28 22:33:17

您可以使用^{}从通过|连接的列表中获取具有连接子字符串的子字符串，对于传递给groupby并聚合mean的regex OR：

fullname = ['MainName1,subname1','MainName1,subname2',
            'MainName2,subname1','MainName2,subname2']
var1 = [1,5,9,4]
var2 = [2,6,1,5]
var3 = [3,7,2,6]
var4 = [4,8,3,7]

df = pd.DataFrame(np.column_stack([var1,var2,var3,var4]), index=fullname)
print (df)
                    0  1  2  3
MainName1,subname1  1  2  3  4
MainName1,subname2  5  6  7  8
MainName2,subname1  9  1  2  3
MainName2,subname2  4  5  6  7

L = ['MainName1','MainName2']
idx = df.index.str.extract('('+ '|'.join(L) + ')', expand=False)
print (idx)
Index(['MainName1', 'MainName1', 'MainName2', 'MainName2'], dtype='object')

df = df.groupby(idx).mean()
print (df)
             0    1    2    3
MainName1  3.0  4.0  5.0  6.0
MainName2  6.5  3.0  4.0  5.0

相关问题更多 >

编程相关推荐

热门问题

热门文章