Python：在dataframe中为每个条目具有多个值的列计算值

RestaurantName City Restaurant ID Cuisines Restaurant A Milan 31333 French, Spanish, Italian Restaurant B Shanghai 63551 Pizza, Burgers Restaurant C Dubai 7991 Burgers, Ice Cream

rst= pd.DataFrame({'RestaurantName': ['Rest A', 'Rest B', 'Rest C'], 'City': ['Milan', 'Shanghai', 'Dubai'], 'RestaurantID': [31333,63551,7991], 'Cuisines':['French, Spanish, Italian','Pizza, Burgers','Burgers, Ice Cream']})

csnsplit=rst.Cuisines.str.split(", ",expand=True) rst["Cuisine1"]=csnsplit.loc[:,0] rst["Cuisine2"]=csnsplit.loc[:,1] rst["Cuisine3"]=csnsplit.loc[:,2] rst["Cuisine4"]=csnsplit.loc[:,3] rst["Cuisine5"]=csnsplit.loc[:,4] rst["Cuisine6"]=csnsplit.loc[:,5] rst["Cuisine7"]=csnsplit.loc[:,6] rst["Cuisine8"]=csnsplit.loc[:,7]

AllCsn=np.concatenate((rst.Cuisine1.unique(), rst.Cuisine2.unique(), rst.Cuisine3.unique(), rst.Cuisine4.unique(), rst.Cuisine5.unique(), rst.Cuisine6.unique(), rst.Cuisine7.unique(), rst.Cuisine8.unique() )) AllCsn=np.unique(AllCsn.astype(str)) AllCsn

1条回答

网友

1楼 · 发布于 2024-09-27 04:23:56

听起来你在寻找^{}而没有展开，然后^{}：

rst['Cuisines'] = rst['Cuisines'].str.split(', ')
rst = rst.explode('Cuisines')

创建一个框架，如：

  RestaurantName      City  RestaurantID   Cuisines
0         Rest A     Milan         31333     French
0         Rest A     Milan         31333    Spanish
0         Rest A     Milan         31333    Italian
1         Rest B  Shanghai         63551      Pizza
1         Rest B  Shanghai         63551    Burgers
2         Rest C     Dubai          7991    Burgers
2         Rest C     Dubai          7991  Ice Cream

然后听起来像^{}：

pd.crosstab(rst['City'], rst['Cuisines'])

Cuisines  Burgers  French  Ice Cream  Italian  Pizza  Spanish
City                                                         
Dubai           1       0          1        0      0        0
Milan           0       1          0        1      0        1
Shanghai        1       0          0        0      1        0

或^{}

rst[['City', 'Cuisines']].value_counts().reset_index(name='counts')

       City   Cuisines  counts
0     Dubai    Burgers       1
1     Dubai  Ice Cream       1
2     Milan     French       1
3     Milan    Italian       1
4     Milan    Spanish       1
5  Shanghai    Burgers       1
6  Shanghai      Pizza       1

通过^{}每个城市的最大值计数：

max_counts = (
    rst[['City', 'Cuisines']].value_counts()
        .groupby(level=0).head(1)
        .reset_index(name='counts')
)

max_counts：

       City Cuisines  counts
0     Dubai  Burgers       1
1     Milan   French       1
2  Shanghai  Burgers       1

相关问题更多 >

编程相关推荐

热门问题

热门文章