Python匹配元素相同但美元在%以内的记录

Client ID(Numeric) Client_2nd_ID(Alphanumeric) Instrument(text) Dollars(numer) 12345 FA000123AB Baseball 600 45678 PP000157DC Football 800 12345 FA000123AB Baseball 570 12345 FA000123AB Baseball 645 12345 FB000159EE Baseball 605

1条回答

网友

1楼 · 发布于 2024-10-02 04:22:36

以下代码将过滤组客户机/工具中“美元”字段值与组内最近值的差值小于阈值的任何记录：

import pandas as pd
import numpy as np

threshold = 0.01

df = pd.DataFrame({'Client_ID': [12345, 45678, 12345, 12345, 12345],
                    'Client_2nd_ID': ["FA000123AB", "PP000157DC", "FA000123AB", "FA000123AB", "FB000159EE"],
                    'Instrument': ["Baseball", "Football", "Baseball", "Baseball", "Baseball"],
                    'Dollars': [600, 800, 570, 645, 605]})

idx_lookup = df.apply(lambda x: (df.loc[(df['Client_ID'] == x['Client_ID']) & (df['Instrument'] == x['Instrument'] ), 'Dollars'] - x['Dollars']).abs().replace(0, np.nan).idxmin(), axis=1)

df['percent'] = (df['Dollars'] - df.loc[idx_lookup, 'Dollars'].values) / df.loc[idx_lookup, 'Dollars'].values

df = df.drop(df[(df.percent<=threshold) & (df.percent>0)].index)

它看起来与客户端#12345的条件相匹配，但是，我另外检查了一下，为客户端#45678添加了805个值，以确保它适用于不同的客户端：

import pandas as pd
import numpy as np

threshold = 0.01

df = pd.DataFrame({'Client_ID': [12345, 45678, 12345, 12345, 12345, 45678],
                    'Client_2nd_ID': ["FA000123AB", "PP000157DC", "FA000123AB", "FA000123AB", "FB000159EE", "PP000157DC"],
                    'Instrument': ["Baseball", "Football", "Baseball", "Baseball", "Baseball", "Football" ],
                    'Dollars': [600, 800, 570, 645, 605, 805]})

idx_lookup = df.apply(lambda x: (df.loc[(df['Client_ID'] == x['Client_ID']) & (df['Instrument'] == x['Instrument'] ), 'Dollars'] - x['Dollars']).abs().replace(0, np.nan).idxmin(), axis=1)

df['percent'] = (df['Dollars'] - df.loc[idx_lookup, 'Dollars'].values) / df.loc[idx_lookup, 'Dollars'].values

df = df.drop(df[(df.percent<=threshold) & (df.percent>0)].index)

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python匹配元素相同但美元在%以内的记录

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >