用DataFrame得到标识符矩阵

dat1=DataFrame({'user_id':['a1','a1','a4','a3','a1','a15', 'a8', 'a15' ,'a1', 'a5'], 'Visits':[1,4,2,1,3,1,1,8,1,9],'cell': [14,21,14,14,19,10,18,17,10,11], 'date': ['2011-01-05', '2011-01-05', '2011-01-12', '2011-01-12', '2011-01-12', '2011-01-12', '2011-01-02', '2011-01-19', '2011-01-19', '2011-01-19' ] }) dat1['date']=pd.to_datetime(dat1['date']) dat2=dat1.sort_index(by='date')

Visits cell date user_id 1 18 2011-01-02 a8 1 14 2011-01-05 a1 4 21 2011-01-05 a1 2 14 2011-01-12 a4 1 14 2011-01-12 a3 3 19 2011-01-12 a1 1 10 2011-01-12 a15 8 17 2011-01-19 a15 1 10 2011-01-19 a1 9 11 2011-01-19 a5

1条回答

网友

1楼 · 发布于 2024-10-05 12:22:32

您可以在这里使用get_dummies函数：

users = data.set_index('date')['user_id']
visits = pd.get_dummies(users)

这为我们提供了一个数据帧，它使用“一个热”编码来表示用户是否在以下日期访问：

            a1  a15  a3  a4  a5  a8
date                               
2011-01-02   0    0   0   0   0   1
2011-01-05   1    0   0   0   0   0
2011-01-05   1    0   0   0   0   0
2011-01-12   0    0   0   1   0   0
2011-01-12   0    0   1   0   0   0
2011-01-12   1    0   0   0   0   0
2011-01-12   0    1   0   0   0   0
2011-01-19   0    1   0   0   0   0
2011-01-19   1    0   0   0   0   0
2011-01-19   0    0   0   0   1   0

但是日期是重复的。因此，我们根据日期索引和聚合进行分组，询问用户是否访问了该日期的任何条目：

visits.groupby(visits.index).any().astype(int)

它给出：

            a1  a15  a3  a4  a5  a8
date                               
2011-01-02   0    0   0   0   0   1
2011-01-05   1    0   0   0   0   0
2011-01-12   1    1   1   1   0   0
2011-01-19   1    1   0   0   1   0

相关问题更多 >

编程相关推荐

热门问题

热门文章