Python中按特征求和数组

import numpy as np year = np.repeat((1980, 1990 , 2000, 2010), 10) sex = np.array(['male', 'female']*20) disease = np.repeat(('d1', 'd2', 'd3', 'd4', 'd5', 'd6', 'd7', 'd8'), 5) draws = np.random.normal(0, 1, size=(sex.shape[0], 1000))

2条回答

网友

1楼 · 编辑于 2024-09-30 20:25:59

import numpy as np
import itertools   
import csv

year = np.repeat((1980, 1990 , 2000, 2010), 10)
sex = np.array(['male', 'female']*20)
disease = np.repeat(('d1', 'd2', 'd3', 'd4', 'd5', 'd6', 'd7', 'd8'), 5)
draws = np.random.normal(0, 1, size=(sex.shape[0], 1000))

years=np.unique(year)
diseases=np.unique(disease)

draw_sums = dict(((y,d), draws[(year==y)&(disease==d)].sum(axis=0)) 
                  for y,d in itertools.product(years,diseases))

这就产生了一个dict，将每个（年、疾病）与相应的提取总和相关联。要将draw_sums写入csv，可以执行以下操作：

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 20:25:59

这是一个典型的分组问题，可以使用numpy_indexed包以完全矢量化的方式有效地解决它（免责声明：我是它的作者）

keys, values = npi.group_by((year, disease)).sum(draws)
for key, value in zip(zip(*keys), values):
    print(key, value.shape)

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中按特征求和数组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >