在更宽的数据帧中转换虚拟对象中的变量列表

index year gvkey code 0 1998 15686 ['TAX', 'ENVR', 'HEALTH'] 1 2005 15372 ['EDUC', 'TAX', 'HEALTH', 'JUST'] 2 2001 27486 ['LAB', 'TAX', 'HEALTH'] 3 2008 84967 ['HEALTH','LAB', 'JUST']

index year gvkey TAX ENVR HEALTH EDUC JUST LAB 0 1998 15686 1 1 1 0 0 0 1 2005 15372 1 0 1 0 1 0 2 2001 27486 1 0 1 0 1 0 3 2008 84967 0 0 1 0 1 1

2条回答

网友

1楼 · 编辑于 2024-09-28 22:21:12

您可以通过以下方法执行此操作：

方法1：将列转换为数据帧并获取Dummie，然后groupbyon axis=1并获取max:

m = pd.get_dummies(pd.DataFrame(df['code'].tolist())).groupby(lambda x:
    x.split('_')[1],axis=1).max()
final1 = df.drop('code',1).assign(**m)

方法2：用|连接列列表并使用series.str.get_dummies

final2 = df.drop('code',1).assign(**df['code'].str.join('|').str.get_dummies())

方法3：使用concat的方法

s = pd.Series(df["code"])
l = pd.get_dummies(s.apply(pd.Series).stack()).max(level=0)
final3 = pd.concat((df.drop('code',1),l),axis=1)
#or final = df.drop('code',1).assign(**l)

网友

2楼 · 编辑于 2024-09-28 22:21:12

我认为更好的解决方案是将^{}与^{}和^{}一起使用：

df = df.join(df.pop('code').str.join('|').str.get_dummies())
print (df)
       year  gvkey  EDUC  ENVR  HEALTH  JUST  LAB  TAX
index                                                 
0      1998  15686     0     1       1     0    0    1
1      2005  15372     1     0       1     1    0    1
2      2001  27486     0     0       1     0    1    1
3      2008  84967     0     0       1     1    1    0

如果性能很重要，请使用^{}：

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df1 = pd.DataFrame(mlb.fit_transform(df.pop('code')),columns=mlb.classes_)

df = df.join(df1)
print (df)
       year  gvkey  EDUC  ENVR  HEALTH  JUST  LAB  TAX
index                                                 
0      1998  15686     0     1       1     0    0    1
1      2005  15372     1     0       1     1    0    1
2      2001  27486     0     0       1     0    1    1
3      2008  84967     0     0       1     1    1    0

您的解决方案是可能的，but slow，因此最好避免它，同时sum只针对唯一值，因为一般解决方案需要max：

df = df.join(pd.get_dummies(df.pop('code').apply(pd.Series).stack()).max(level=0))
print (df)
       year  gvkey  EDUC  ENVR  HEALTH  JUST  LAB  TAX
index                                                 
0      1998  15686     0     1       1     0    0    1
1      2005  15372     1     0       1     1    0    1
2      2001  27486     0     0       1     0    1    1
3      2008  84967     0     0       1     1    1    0

相关问题更多 >

编程相关推荐

热门问题

热门文章