如何在一定的条件下找到数据帧中的重复项？

RTYPE PERIOD_ID STORE_ID MKT MTYPE RGROUP RZF RXF 0 MKT 20171411 3102300001 PM KA+PM PROV+SMKT+PETRO CELL NaN NaN NaN 1 MKT 20171411 3102300002 PM KA+PM PROV+SMKT+PETRO CELL NaN NaN NaN 2 MKT 20171411 3104001193 PM Provision CELL NaN NaN NaN 3 MKT 20171411 3104001193 PM KA+PM PROV+SMKT+PETRO CELL NaN NaN NaN 4 MKT 20171411 3104001193 Provision including MM CELL NaN NaN NaN 5 MKT 20171411 3104001641 PM Provision CELL NaN NaN NaN 6 MKT 20171411 3104001641 PM KA+PM PROV+SMKT+PETRO CELL NaN NaN NaN 7 MKT 20171411 3104001641 Provision including MM CELL NaN NaN NaN 8 MKT 20171411 3104001682 PM Provision CELL NaN NaN NaN 9 MKT 20171411 3104001682 PM KA+PM PROV+SMKT+PETRO CELL NaN NaN NaN 10 MKT 20171411 3104001682 Provision including MM CELL NaN NaN NaN 11 MKT 20171412 3104001682 Alcohol CELL NaN NaN NaN 12 MKT 20171412 3104001682 Fish CELL NaN NaN NaN 13 MKT 20171412 3104001684 Alcohol CELL NaN NaN NaN 14 MKT 20171412 3104001684 Fish CELL NaN NaN NaN

3条回答

网友

1楼 · 编辑于 2024-09-30 06:33:36

这对你的情况应该有用。我刚从你找到的重复的MKT中删除了唯一的MKT。你知道吗

duplicate = {k:set(v) for k, v in newdf[newdf.duplicated(['PERIOD_ID','STORE_ID'], 
                                                         keep=False)].groupby('PERIOD_ID')['MKT']}
unique = {k:set(v) for k, v in newdf[newdf.duplicated(['PERIOD_ID','STORE_ID'], 
                                                      keep=False) == False].groupby('PERIOD_ID')['MKT']}

final = dict()
for k in duplicate:
    if k in unique:
        final[k] = tuple(duplicate[k] - unique[k])
    else:
        final[k] = tuple(duplicate[k])

print(final)

网友

2楼 · 编辑于 2024-09-30 06:33:36

我希望我能正确地理解你，如果我忘了什么或没有正确理解，请随意评论。你知道吗

df_grouped = df.groupby(['PERIOD_ID','STORE_ID','MKT'],
                    as_index=False)\
                    .agg({'MTYPE':'count'})\
                    .rename(columns={'MTYPE': 'count'})

df_grouped[df_grouped['count'] > 1]\
           .groupby('PERIOD_ID')\
           .agg({'MKT':lambda x: list(set(x))}).to_dict()['MKT']

网友

3楼 · 编辑于 2024-09-30 06:33:36

我可以用下面的代码来解决这个问题

    df1=df[['PERIOD_ID','STORE_ID','MKT']]
    df1=df1.sort_values(['PERIOD_ID','STORE_ID'],ascending=True)
    duplicatedf = df1.groupby(['PERIOD_ID','MKT'])['STORE_ID'].agg(lambda STORE_ID: ','.join(STORE_ID.astype(str).replace(' ','').unique())).reset_index()
    duplicates =duplicatedf[ duplicatedf.duplicated(['PERIOD_ID','STORE_ID'],keep='first') | duplicatedf.duplicated(['PERIOD_ID','STORE_ID'],keep='last')]
    duplicates= duplicates.groupby(['PERIOD_ID','STORE_ID']).agg(lambda MKT: ','.join(MKT.astype(str))).reset_index()
    print (duplicates)


#Converting the df into dict
    dupdictdf=duplicates[['PERIOD_ID','MKT']]
    dicta=dupdictdf.to_dict("records")
    print (dicta)

相关问题更多 >

编程相关推荐

热门问题

热门文章