如何在pandas中基于滚动窗口中的多个列查找副本？

{"transaction": {"merchant": "merchantA", "amount": 20, "time": "2019-02-13T10:00:00.000Z"}} {"transaction": {"merchant": "merchantB", "amount": 90, "time": "2019-02-13T11:00:01.000Z"}} {"transaction": {"merchant": "merchantC", "amount": 90, "time": "2019-02-13T11:00:10.000Z"}} {"transaction": {"merchant": "merchantD", "amount": 90, "time": "2019-02-13T11:00:20.000Z"}} {"transaction": {"merchant": "merchantE", "amount": 90, "time": "2019-02-13T11:01:30.000Z"}} {"transaction": {"merchant": "merchantE", "amount": 90, "time": "2019-02-13T11:02:30.000Z"}} . .

df = pd.DataFrame() for line in sys.stdin: data = json.loads(line) # df1 = pd.DataFrame(data["transaction"], index=[len(df.index)]) df1 = pd.DataFrame(data["transaction"], index=[data['transaction']['time']]) df1['time'] = pd.to_datetime(df1['time']) df = df.append(df1) # df['count'] = df.rolling('2min', on='time', min_periods=1)['amount'].count() print(df) print(len(df[df.merchant.eq(data['transaction']['merchant']) & df.amount.eq(data['transaction']['amount'])].index))

2019-02-13T10:00:00.000Z merchantA 20 2019-02-13 10:00:00 2019-02-13T11:00:01.000Z merchantB 90 2019-02-13 11:00:01 2019-02-13T11:00:10.000Z merchantC 90 2019-02-13 11:00:10 2019-02-13T11:00:20.000Z merchantD 90 2019-02-13 11:00:20 2019-02-13T11:01:30.000Z merchantE 90 2019-02-13 11:01:30 2019-02-13T11:02:30.000Z merchantE 90 2019-02-13 11:02:30 2

#dup = df[df.duplicated(subset=['merchant', 'amount'], keep=False)] res = df.loc[(df.merchant == data['transaction']['merchant']) & (df.amount == data['transaction']['amount'])] # res['timediff'] = pd.to_timedelta((data['transaction']['time'] - res['time']), unit='T') res['timediff'] = (data['transaction']['time'] - res['time']) if len(res.index) >1: print(res)

merchant amount time concat timediff 2019-02-13 11:03:00 merchantF 10 2019-02-13 11:03:00 merchantF10 -1 days +23:59:20 2019-02-13 11:02:20 merchantF 10 2019-02-13 11:02:20 merchantF10 00:00:00 2019-02-13 11:01:30 merchantE 10 2019-02-13 11:01:30 merchantE10 00:01:00 2019-02-13 11:02:00 merchantE 10 2019-02-13 11:02:00 merchantE10 00:00:30 2019-02-13 11:02:30 merchantE 10 2019-02-13 11:02:30 merchantE10 00:00:00

2条回答

网友

1楼 · 编辑于 2024-10-03 23:26:29

首先，您可以形成120秒的滚动数据块。然后你可以申请

使用“复制”块和计算： df=df[df.duplicated（子集=['val1'，'val2'，'val3'，keep=False]

或groupby： groupby（['val1'，'val2'，'val3']）.count（）

甚至是一个SQL数据库。 https://www.w3schools.com/sql/sql_distinct.asp

请张贴您尝试过的内容。上述方法适用于字符串、浮点、日期时间和整数数据类型

网友

2楼 · 编辑于 2024-10-03 23:26:29

所以我让它工作，但不支持滚动窗口，因为它不支持字符串类型。熊猫回购协议中也报告并要求提供该功能

我的问题解决方案片段：

    if len(df.index) > 0:
        res = df.loc[(df.merchant == data['transaction']['merchant']) & (df.amount == data['transaction']['amount'])]
        res['timediff'] = (data['transaction']['time'] - res['time']).dt.total_seconds().abs() <= 120
        if res.timediff.any():
            continue
    df = df.append(df1)
print(df)

样本数据：

{"transaction": {"merchant": "merchantA", "amount": 20, "time": "2019-02-13T10:00:00.000Z"}}
{"transaction": {"merchant": "merchantB", "amount": 90, "time": "2019-02-13T11:00:01.000Z"}}
{"transaction": {"merchant": "merchantC", "amount": 10, "time": "2019-02-13T11:00:10.000Z"}}
{"transaction": {"merchant": "merchantD", "amount": 10, "time": "2019-02-13T11:00:20.000Z"}}
{"transaction": {"merchant": "merchantE", "amount": 10, "time": "2019-02-13T11:01:30.000Z"}}
{"transaction": {"merchant": "merchantF", "amount": 10, "time": "2019-02-13T11:03:00.000Z"}}
{"transaction": {"merchant": "merchantE", "amount": 10, "time": "2019-02-13T11:02:00.000Z"}}
{"transaction": {"merchant": "merchantF", "amount": 10, "time": "2019-02-13T11:02:20.000Z"}}
{"transaction": {"merchant": "merchantE", "amount": 10, "time": "2019-02-13T11:02:30.000Z"}}
{"transaction": {"merchant": "merchantF", "amount": 10, "time": "2019-02-13T11:05:20.000Z"}}
{"transaction": {"merchant": "merchantE", "amount": 10, "time": "2019-02-13T11:00:30.000Z"}}

输出：

                      merchant  amount                time
2019-02-13 10:00:00  merchantA      20 2019-02-13 10:00:00
2019-02-13 11:00:01  merchantB      90 2019-02-13 11:00:01
2019-02-13 11:00:10  merchantC      10 2019-02-13 11:00:10
2019-02-13 11:00:20  merchantD      10 2019-02-13 11:00:20
2019-02-13 11:01:30  merchantE      10 2019-02-13 11:01:30
2019-02-13 11:03:00  merchantF      10 2019-02-13 11:03:00
2019-02-13 11:05:20  merchantF      10 2019-02-13 11:05:20

相关问题更多 >

编程相关推荐

热门问题

热门文章