向中的同一数据帧添加新的数据帧列

1条回答

网友

1楼 · 发布于 2024-10-01 09:32:14

你的榜样

如果没有数据可以测试，我无法测试，但下面应该可以（用电子邮件列的名称替换“email\u column\u name”）：

dates = pd.get_dummies(
                       roulette_data.set_index('email_column_name')['date']\
                       .str.split(';',expand=True)\
                       .stack().reset_index(level=1, drop=True)
                      )\
                      .reset_index().groupby('email_column_name').sum()

以下是一个玩具示例：

df = pd.DataFrame({'col1':['record1', 'record2'], 
                  'col2':["this is good text", "but this is even better"]}
                 )

df
#      col1                     col2
#0  record1        this is good text
#1  record2  but this is even better

我们首先将索引设置为col1，然后选择col2，这样我们就可以使用它的.str.split方法将行拆分为单个单词。你知道吗

df.set_index('col1')['col2'].str.split(expand=True)
#            0     1     2     3       4
#col1                                   
#record1  this    is  good  text    None
#record2   but  this    is  even  better

然后我们使用stack来改变形状，使用reset_index来去除不必要的索引级别

df.set_index('col1')['col2'].str.split(expand=True)\
            .stack().reset_index(level=1, drop=True) 
#col1
#record1      this
#record1        is
#record1      good
#record1      text
#record2       but
#record2      this
#record2        is
#record2      even
#record2    better
#dtype: object

我们把整个表达式都用警察局的傻瓜（）

pd.get_dummies(df.set_index('col1')['col2'].str.split(expand=True).stack().reset_index(level=1, drop=True))

#         better  but  even  good  is  text  this
#col1                                            
#record1       0    0     0     0   0     0     1
#record1       0    0     0     0   1     0     0
#record1       0    0     0     1   0     0     0
#record1       0    0     0     0   0     1     0
#record2       0    1     0     0   0     0     0
#record2       0    0     0     0   0     0     1
#record2       0    0     0     0   1     0     0
#record2       0    0     1     0   0     0     0
#record2       1    0     0     0   0     0     0

最终结果

最后我们reset_index（也就是col1或者在您的例子中是电子邮件列），groupby和col1并对其求和。你知道吗

pd.get_dummies(
               df.set_index('col1')['col2']\
               .str.split(expand=True)\
               .stack().reset_index(level=1, drop=True)
              )\
              .reset_index().groupby('col1').sum()
#         better  but  even  good  is  text  this
#col1                                            
#record1       0    0     0     1   1     1     1
#record2       1    1     1     0   1     0     1

你的榜样

以下是一个玩具示例：

最终结果

相关问题更多 >

编程相关推荐

热门问题

热门文章

向中的同一数据帧添加新的数据帧列

你的榜样

以下是一个玩具示例：

最终结果

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >