列出数据框列中相同的元素问题的回答

列出数据框列中相同的元素

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想列举一列中出现多次的元素。不应修改只出现一次的元素 我提出了两种解决办法，但它们似乎很不雅观，我希望有更好的解决办法 <pre><code>Input: X 0 A 1 B 2 C 3 A 4 C 5 C 6 D Output: new_name X A A1 A A2 B B C C1 C C2 C C3 D D </code></pre> 这里有两种可能的方法来实现这一点，一种是使用<code>.expanding().count()</code>，另一种是使用<code>.cumcount()</code>，但两者都很难看 <pre><code>import pandas as pd def solution_1(df): pvt = (df.groupby(by='X') .expanding() .count() .rename(columns={'X': 'Counter'}) .reset_index() .drop('level_1', axis=1) .assign(name = lambda s: s['X'] + s['Counter'].astype(int).astype(str)) .set_index('X') ) pvt2 = (df.reset_index() .groupby(by='X') .count() .rename(columns={'index': 'C'} )) df2 = pd.merge(left=pvt, right=pvt2, left_index=True, right_index=True) ind=df2['C']>1 df2.loc[ind, 'new_name']=df2.loc[ind, 'name'] df2.loc[~ind, 'new_name']=df2.loc[~ind].index df2 = df2.drop(['Counter', 'C', 'name'], axis=1) return df2 def solution_2(df): pvt = pd.DataFrame(df.groupby(by='X') .agg({'X': 'cumcount'}) ).rename(columns={'X': 'Counter'}) pvt2 = pd.DataFrame(df.groupby(by='X') .agg({'X': 'count'}) ).rename(columns={'X': 'Total Count'}) # print(pvt2) df2 = df.merge(pvt, left_index=True, right_index=True) df3 = df2.merge(pvt2, left_on='X', right_index=True) ind=df3['Total Count']>1 df3['Counter'] = df3['Counter']+1 df3.loc[ind, 'new_name']=df3.loc[ind, 'X']+df3.loc[ind, 'Counter'].astype(int).astype(str) df3.loc[~ind, 'new_name']=df3.loc[~ind, 'X'] df3 = df3.drop(['Counter', 'Total Count'], axis=1).set_index('X') return df3 if __name__ == '__main__': s = ['A', 'B', 'C', 'A', 'C', 'C', 'D'] df = pd.DataFrame(s, columns=['X']) print(df) sol_1 = solution_1(df) print(sol_1) sol_2 = solution_2(df) print(sol_2) </code></pre> 有什么建议吗？非常感谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

列出数据框列中相同的元素

1 个回答

相关Python问题