如何在大Pandas身上标记重复的群体？

import pandas as pd df = pd.DataFrame({'A': ('foo', 'bar', 'foo', 'baz', 'foo', 'bar')}) duplicates = df.groupby('A').size() duplicates = duplicates[duplicates>1] # Yes, this is ugly, but I didn't know how to do it otherwise: duplicates[duplicates.reset_index().index] = duplicates.reset_index().index df.insert(1, 'dgroup_id', df['A'].map(duplicates))

3条回答

网友

1楼 · 编辑于 2024-09-27 21:29:55

您可以通过get_duplicates()创建一个list副本，然后通过A的索引设置dgroup_id

def find_index(string):
    if string in duplicates:
        return duplicates.index(string)+1
    else:
        return 0

df = pd.DataFrame({'A': ('foo', 'bar', 'foo', 'baz', 'foo', 'bar')})
duplicates = df.set_index('A').index.get_duplicates()
df['dgroup_id'] = df['A'].apply(find_index)
df

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-09-27 21:29:55

你可以选择：

import pandas as pd
import numpy as np
df = pd.DataFrame(['foo', 'bar', 'foo', 'baz', 'foo', 'bar',], columns=['name'])

# Create the groups order
ordered_names = df['name'].drop_duplicates().tolist()   # ['foo', 'bar', 'baz']

# Find index of each element in the ordered list
df['duplication_index'] = df['name'].apply(lambda x: ordered_names.index(x) + 1)

# Discard non-duplicated entries
df.loc[~df['name'].duplicated(keep=False), 'duplication_index'] = np.nan

print(df)
#   name  duplication_index
# 0  foo                1.0
# 1  bar                2.0
# 2  foo                1.0
# 3  baz                NaN
# 4  foo                1.0
# 5  bar                2.0

网友

3楼 · 编辑于 2024-09-27 21:29:55

使用链式运算首先得到每个A的值_count，计算每个组的序号，然后连接回原始DF。在

(
    pd.merge(df,
             df.A.value_counts().apply(lambda x: 1 if x>1 else np.nan)
               .cumsum().rename('dgroup_id').to_frame(), 
             left_on='A', right_index=True).sort_index()
)
Out[49]: 
     A  dgroup_id
0  foo        1.0
1  bar        2.0
2  foo        1.0
3  baz        NaN
4  foo        1.0
5  bar        2.0

如果您需要唯一组的Nan，就不能使用int作为数据类型，这是目前pandas的一个限制。如果对唯一组设置0没有问题，可以执行以下操作：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章