Pandas：对多索引数据帧应用掩码

import itertools import numpy as np def mklbl(prefix, n): return ["%s%s" % (prefix, i) for i in range(n)] miindex = pd.MultiIndex.from_product([mklbl('A', 4)]) micolumns = pd.MultiIndex.from_tuples(list(itertools.product(['A', 'B'], ['a', 'b', 'c'], ['foo', 'bar'])), names=['lvl0', 'lvl1', 'lvl2']) dfmi = pd.DataFrame(np.arange(len(miindex) * len(micolumns)).reshape((len(miindex), len(micolumns))), index=miindex, columns=micolumns).sort_index().sort_index(axis=1) lvl0 A B lvl1 a b c a b c lvl2 bar foo bar foo bar foo bar foo bar foo bar foo A0 1 0 3 2 5 4 7 6 9 8 11 10 A1 13 12 15 14 17 16 19 18 21 20 23 22 A2 25 24 27 26 29 28 31 30 33 32 35 34 A3 37 36 39 38 41 40 43 42 45 44 47 46

3条回答

网友

1楼 · 编辑于 2024-06-23 19:54:05

使用底层数组数据进行现场编辑以提高内存效率（不创建任何其他数据帧）

d = len(dfmi.columns.levels[0])
n = dfmi.shape[1]//d
for i in range(0,d*n,n):
    dfmi.values[:,i:i+n][a_mask] = 0

样本运行-

^{pr2}$

网友

2楼 · 编辑于 2024-06-23 19:54:05

我将按如下方式进行：

mask = pd.concat({k: a_mask for k in dfmi.columns.levels[0]}, axis=1)
dfmi.where(~mask, 0)

网友

3楼 · 编辑于 2024-06-23 19:54:05

我认为用这种方法更安全。在

dfmi.where(a_mask.loc[:,dfmi.columns.droplevel(0)].values,0)
Out[191]: 
lvl0   A               B            
lvl1   a       b       a       b    
lvl2 bar foo bar foo bar foo bar foo
A0     0   0   0   2   0   0   0   6
A1     9   8  11   0  13  12  15   0
A2     0  16  19  18   0  20  23  22
A3    25   0   0   0  29   0   0   0

相关问题更多 >

编程相关推荐

热门问题

热门文章