掩蔽数据帧的乘积

import functools import operator import time def mymult(a): ttl_wgt = float('NaN') #Initialize to NaN if ~np.isnan(a['ID']): #condition 1, only process if an ID is present if a['prob'] > -1.0: #condition 2, only process if our unweighted score is NOT -1.0 b = np.where(a[msks] ==1)[0] #index for which of our masks is 1? ttl_wgt = functools.reduce(operator.mul, a[np.asarray(wgt_nms)[b]], 1) return ttl_wgt

msks = ['Msk1','Msk2','Msk3','Msk4',...,'Msk20'] wgt_nms = ['Wgt1','Wgt2','Wgt3','Wgt4',...,'Wgt20'] print('Determining final weights...') chunksize = 500000 #we'll operate on this many rows at a time start_time = time.time() ttl_wgts = [] #initialize list to hold weight products for i in range(0,len(df),chunksize): ttl_wgts.extend(df[i:(i+chunksize)].apply(lambda x: mymult(x), axis=1)) print("--- %s seconds ---" % (time.time() - start_time)) #Expect between 30 and 40 minutes print('Done!')

df = pd.DataFrame({'id': [999999999,136550,80010170,80010177,90002408,90002664,16207501,62992,np.nan,80010152], 'prob': [-1,0.180274382,0.448361456,0.000945058,0.005060279,0.009893078,0.169686288,0.109541453,0.117907763,0.266242921], 'Msk1': [0,1,1,1,0,0,1,0,0,0], 'Msk2': [0,0,1,0,0,0,0,1,0,0], 'Msk3': [1,0,0,0,1,1,0,0,1,1], 'Wgt1': [np.nan,0.919921875,1.08984375,1.049804688,np.nan,np.nan,np.nan,0.91015625,np.nan,0.810058594], 'Wgt2': [np.nan,1.129882813,1.120117188,0.970214844,np.nan,np.nan,np.nan,1.0703125,np.nan,0.859863281], 'Wgt3': [np.nan,1.209960938,1.23046875,1,np.nan,np.nan,np.nan,1.150390625,np.nan,0.649902344] })

1条回答

网友

1楼 · 发布于 2024-09-29 06:34:46

IIUC公司：

你想用1填充你的蒙版重量。然后你就可以把它们叠加在一起，而不会受到被掩盖的影响。这就是窍门。你必须根据需要使用它。你知道吗

创建msk

msk = df.filter(like='Msk')
print(msk)

   Msk1  Msk2  Msk3
0     0     0     1
1     1     0     0
2     1     1     0
3     1     0     0
4     0     0     1
5     0     0     1
6     1     0     0
7     0     1     0
8     0     0     1
9     0     0     1

创建wgt

wgt = df.filter(like='Wgt')
print(wgt)

       Wgt1      Wgt2      Wgt3
0       NaN       NaN       NaN
1  0.919922  1.129883  1.209961
2  1.089844  1.120117  1.230469
3  1.049805  0.970215  1.000000
4       NaN       NaN       NaN
5       NaN       NaN       NaN
6       NaN       NaN       NaN
7  0.910156  1.070312  1.150391
8       NaN       NaN       NaN
9  0.810059  0.859863  0.649902

创建new_weight

new_wgt = np.where(msk, wgt, 1)
print(new_wgt)

[[ 1.          1.                 nan]
 [ 0.91992188  1.          1.        ]
 [ 1.08984375  1.12011719  1.        ]
 [ 1.04980469  1.          1.        ]
 [ 1.          1.                 nan]
 [ 1.          1.                 nan]
 [        nan  1.          1.        ]
 [ 1.          1.0703125   1.        ]
 [ 1.          1.                 nan]
 [ 1.          1.          0.64990234]]

最终prod_wgt

prod_wgt = pd.Series(new_wgt.prod(1), wgt.index)
print(prod_wgt)

0         NaN
1    0.919922
2    1.220753
3    1.049805
4         NaN
5         NaN
6         NaN
7    1.070312
8         NaN
9    0.649902
dtype: float64

相关问题更多 >

编程相关推荐

热门问题

热门文章