基于堆栈上的append-columns-based-on-other-column-values-to-pandas-dataframe">thispost,我尝试了这样的值计数函数
df2 = df1.join(df1.genres.str.split(",").apply(pd.value_counts).fillna(0))
除了我的数据有22种独特的类型,在分割之后我得到了42个值,这当然不是唯一的。 数据示例:
Action Adventure Casual Design & Illustration Early Access Education Free to Play Indie Massively Multiplayer Photo Editing RPG Racing Simulation Software Training Sports Strategy Utilities Video Production Web Publishing Accounting Action Adventure Animation & Modeling Audio Production Casual Design & Illustration Early Access Education Free to Play Indie Massively Multiplayer Photo Editing RPG Racing Simulation Software Training Sports Strategy Utilities Video Production Web Publishing nan
0 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan 1.0 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
(我只贴了头和第一排)
我有一种感觉,问题是由我原来的数据。嗯,我的专栏(流派)是一个包含括号的列表列表
示例:[Action,Indie]
所以当python读取它时,它会将[Action and Action and Action]读为不同的值,结果是303个不同的值。
所以我所做的是:
您必须通过函数^{} 从列
genres
中删除第一个和最后一个[]
,然后用空字符串替换空格相关问题 更多 >
编程相关推荐