在DataFrame中计算新列中数值列的计数

self.movie_df_tmp = self.rating_df[['MovieId', 'Rate']] self.movie_df_tmp['RaCount'] = self.movie_df_tmp.groupby(['MovieId'])['Rate'].transform('count') self.movie_df_tmp['Sum'] = self.movie_df_tmp.groupby(['MovieId'])['Rate'].transform('sum') self.movie_df_tmp['NORC'] = self.movie_df_tmp.groupby(['MovieId', 'Rate'])['Rate'].transform('count') self.movie_df_tmp = self.movie_df_tmp.drop_duplicates() self.movie_df_tmp['Rate1C'] = self.movie_df_tmp[self.movie_df_tmp['Rate'] == 1]['NORC'] self.movie_df_tmp['Rate2C'] = self.movie_df_tmp[self.movie_df_tmp['Rate'] == 2]['NORC'] self.movie_df_tmp['Rate3C'] = self.movie_df_tmp[self.movie_df_tmp['Rate'] == 3]['NORC'] self.movie_df_tmp['Rate4C'] = self.movie_df_tmp[self.movie_df_tmp['Rate'] == 4]['NORC'] self.movie_df_tmp['Rate5C'] = self.movie_df_tmp[self.movie_df_tmp['Rate'] == 5]['NORC'] self.movie_df_tmp = self.movie_df_tmp.replace(np.nan, 0) self.movie_df = self.movie_df_tmp[['MovieId', 'RaCount', 'Sum']].drop_duplicates() self.movie_df_tmp = self.movie_df_tmp.drop(columns=['Rate', 'NORC', 'Sum', 'RaCount']) self.movie_df_tmp = self.movie_df_tmp.groupby(['MovieId'])["Rate1C", "Rate2C", "Rate3C", "Rate4C", "Rate5C"].apply( lambda x: x.astype(int).sum()) self.movie_df = self.movie_df.merge(self.movie_df_tmp, left_on='MovieId', right_on='MovieId') self.movie_df = pd.DataFrame(self.movie_df.values, columns=['MovieId', 'Rate1C', 'Rate2C', 'Rate3C', 'Rate4C', 'Rate5C'])

2条回答

网友

1楼 · 编辑于 2024-09-29 21:49:31

尝试使用^{}：

pd.crosstab(df['Movie'], df['Rate'])

Rate   1  2  4  5
Movie            
2124   0  1  0  0
3029   0  0  0  1
5821   0  0  1  0
7582   1  0  0  0
17479  1  0  0  0

固定轴名称和列名^{}+^{}+^{}：

new_df = (
    pd.crosstab(df['Movie'], df['Rate'])
        .rename(columns=lambda c: f'Rate_{c}_Count')
        .reset_index()
        .rename_axis(columns=None)
)

   Movie  Rate_1_Count  Rate_2_Count  Rate_4_Count  Rate_5_Count
0   2124             0             1             0             0
1   3029             0             0             0             1
2   5821             0             0             1             0
3   7582             1             0             0             0
4  17479             1             0             0             0

网友

2楼 · 编辑于 2024-09-29 21:49:31

这将为您提供所需的输出：

grouper=df.groupby(['Movie','Rate']).size()
dg=pd.DataFrame()
dg['Movie']=df['Movie'].unique()
for i in [1,2,3,4,5]:
  dg['Rate_'+str(i)+'Count']=dg['Movie'].apply(lambda x: grouper[x,i] if (x,i) 
  in grouper.index else 0)

相关问题更多 >

编程相关推荐

热门问题

热门文章