将表转换为状态/缺席矩阵python

import pandas as pd with open('file1.txt', 'r') as file1: col_names = ['name', 'house'] df1 = pd.read_csv(file1, sep='\t', header=None, names=col_names) with open('file2.txt', 'r') as file2: col_names = ['name', 'transport'] df2 = pd.read_csv(file2, sep='\t', header=None, names=col_names) # include the values from df1 into the df2 creating a new column df2['house'] = df2['name'].map(df1.set_index('name')['house']) g = df2.groupby('house')['transport'].apply(list).reset_index() g.join(pd.get_dummies(g['transport'].apply(pd.Series).stack()).sum(level=0)).drop('transport', 1) print g

1条回答

网友

1楼 · 发布于 2024-10-03 23:20:15

有一种方法。在

设置

# df1
  individual   house
0      name1  house1
1      name2  house1
2      name3  house1
3      name4  house2
4      name5  house2
5      name6  house2

# df2
  individual   transport
0      name1         car
1      name2        bike
2      name3       skate
3      name4         car
4      name5  motorcycle
5      name6        boat

解决方案

^{pr2}$

结果

    house  bike  boat  car  motorcycle  skate
0  house1     1     0    1           0      1
1  house2     0     1    1           1      0

说明

有三个步骤：

将'house'列添加到df2，映射自df1。在
集体送货上门。在
使用pd.get_dummies将transports列展开为伪列。在

相关问题更多 >

编程相关推荐

热门问题

热门文章