使用多个like列进行热编码

| cond1 | cond2 | cond3 | target | |-------|-------|-------|--------| | I219 | E119 | I48 | 1 | | I500 | | | 0 | | I48 | I500 | F171 | 1 | | I219 | E119 | I500 | 0 | | I219 | I48 | | 0 |

import pandas as pd df = pd.read_csv('micro.csv', dtype='object') df['cond1'] = pd.Categorical(df['cond1']) df['cond2'] = pd.Categorical(df['cond2']) df['cond3'] = pd.Categorical(df['cond3']) dummies = pd.get_dummies(df[['cond1', 'cond2', 'cond3']], prefix = 'cond') dummies

| cond_I219 | cond_I48 | cond_I500 | cond_E119 | cond_I48 | cond_I500 | cond_F171 | cond_I48 | cond_I500 | |-----------|----------|-----------|-----------|----------|-----------|-----------|----------|-----------| | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |

| cond_I219 | cond_I48 | cond_I500 | cond_E119 | cond_F171 | |-----------|----------|-----------|-----------|-----------| | 1 | 1 | 0 | 1 | 0 | | 0 | 0 | 1 | 0 | 0 | | 0 | 1 | 1 | 0 | 1 | | 1 | 0 | 1 | 1 | 0 | | 1 | 1 | 0 | 0 | 0 |

1条回答

网友

1楼 · 发布于 2024-09-30 01:21:21

如果需要输出中的1和0数据，则获取max值：

dfDummies = dummies.max(axis=1, level=0)

或者使用sum如果需要计数1值：

dfDummies = dummies.sum(axis=1, level=0)

相关问题更多 >

编程相关推荐

热门问题

热门文章