基于类别列表的Dummify变量

>>> df CATX CATY CATZ AAA BBB 0 A G AAA 1 0 1 B H BBB 0 1 2 A I AAA 1 0 3 B J CCC 0 0 4 A H BBB 0 1 5 B H DDD 0 0 6 D K EEE 0 0 7 E L FFF 0 0

>>> df CATX CATY CATZ AAA BBB AG AH BH 0 A G AAA 1 0 1 0 0 1 B H BBB 0 1 0 0 1 2 C I AAA 1 0 0 0 0 3 B J CCC 0 0 0 0 0 4 A G BBB 0 1 1 0 0 5 B H DDD 0 0 0 0 1 6 D K EEE 0 0 0 0 0 7 E L FFF 0 0 0 0 0

catxy_list = [['A', 'G'], ['A', 'H'], ['B', 'H']] for catxy_item in catxy_list: df[catxy_item[0] + catxy_item[1]] = df.apply(lambda x: 1 if x.CATX == catxy_item[0] and x.CATY == catxy_item[1] else 0, axis=1)

3条回答

网友

1楼 · 编辑于 2024-10-04 05:25:04

对于涉及CATZ的第一位，可以使用where/mask+get_dummies-

v = df.CATZ.where(df.CATZ.isin(['AAA', 'BBB'])).str.get_dummies()

或者

v = df.CATZ.mask(~df.CATZ.isin(['AAA', 'BBB'])).str.get_dummies()

接下来，对于您的“复杂查询”，使用numpy广播，并在末尾进行astype转换-

# initial values to compare
i = np.array([['A', 'G'], ['A', 'H'], ['B', 'H']])
# perform broadcasted comparison with `i` and convert the result to OHEs
j = (df.iloc[:, :-1].values[:, None] == i).all(2).astype(int)

# load the result into a dataframe  with the appropriate column names 
j = pd.DataFrame(j, columns=list(map(''.join, i)))

对于“复杂查询”，另一个速度较慢但内存效率更高的选项是循环遍历每个类别并查找OHE：

ohe = []
for x, y in [['A', 'G'], ['A', 'H'], ['B', 'H']]:
    # generate OHEs for each pair of elements per category
    s = df.CATX.eq(x) & df.CATY.eq(y)  # s = df[['CATX', 'CATY']].isin([x, y]).all(1)
    s.name = ''.join([x, y])
    ohe.append(s)

# concatenate the intermediate results
j = pd.concat(ohe, 1).astype(int)

最后，您可以使用concat将df、v和j加载到新的数据帧中。你知道吗

pd.concat([df, v, j], 1)

  CATX CATY CATZ  AAA  BBB  AG  AH  BH
0    A    G  AAA    1    0   1   0   0
1    B    H  BBB    0    1   0   0   1
2    C    I  AAA    1    0   0   0   0
3    B    J  CCC    0    0   0   0   0
4    A    G  BBB    0    1   1   0   0
5    B    H  DDD    0    0   0   0   1
6    D    K  EEE    0    0   0   0   0
7    E    L  FFF    0    0   0   0   0

网友

2楼 · 编辑于 2024-10-04 05:25:04

pd.crosstab(df.index,df.CATZ)[['AAA','BBB']]
Out[66]: 
CATZ   AAA  BBB
row_0          
0        1    0
1        0    1
2        1    0
3        0    0
4        0    1
5        0    0
6        0    0
7        0    0

pd.concat([df,pd.crosstab(df.index,df.CATZ)[['AAA','BBB']]],1)
Out[68]: 
      CATX CATY CATZ  AAA  BBB
row_0                         
0        A    G  AAA    1    0
1        B    H  BBB    0    1
2        C    I  AAA    1    0
3        B    J  CCC    0    0
4        A    G  BBB    0    1
5        B    H  DDD    0    0
6        D    K  EEE    0    0
7        E    L  FFF    0    0

网友

3楼 · 编辑于 2024-10-04 05:25:04

In [403]: df.join(df.CATZ.str.get_dummies())
Out[403]:
  CATX CATY CATZ  AAA  BBB  CCC  DDD  EEE  FFF
0    A    G  AAA    1    0    0    0    0    0
1    B    H  BBB    0    1    0    0    0    0
2    C    I  AAA    1    0    0    0    0    0
3    B    J  CCC    0    0    1    0    0    0
4    A    G  BBB    0    1    0    0    0    0
5    B    H  DDD    0    0    0    1    0    0
6    D    K  EEE    0    0    0    0    1    0
7    E    L  FFF    0    0    0    0    0    1

或：

In [410]: df.join(df.CATZ[df.CATZ.isin(['AAA','BBB'])].str.get_dummies(), how='left').fillna(0)
Out[410]:
  CATX CATY CATZ  AAA  BBB
0    A    G  AAA  1.0  0.0
1    B    H  BBB  0.0  1.0
2    C    I  AAA  1.0  0.0
3    B    J  CCC  0.0  0.0
4    A    G  BBB  0.0  1.0
5    B    H  DDD  0.0  0.0
6    D    K  EEE  0.0  0.0
7    E    L  FFF  0.0  0.0

相关问题更多 >

编程相关推荐

热门问题

热门文章