高级问题：对于每一行，从另一个数据帧获取复杂信息

1条回答

网友

1楼 · 发布于 2024-10-02 20:44:13

主要思想是使用merge_asof获取每个产品类型和客户ID的最后日期，因此执行以下操作：

# get unique product types
product_types = list(df_prod['Product-Type'].unique())

# create a new DataFrame with a row for each Product-Type for each Client_ID
df['Product-Type'] = [product_types for _ in range(len(df))]
df_with_prod = df.explode('Product-Type')

# merge only the closest date by each client and product type
merge = pd.merge_asof(df_with_prod.sort_values(['Date', 'Client_ID']),
                      df_prod.sort_values(['Product-Date', 'Buyer']),
                      left_on='Date',
                      right_on='Product-Date',
                      left_by=['Client_ID', 'Product-Type'], right_by=['Buyer', 'Product-Type'])

# fill na in prices
merge['Price'] = merge['Price'].fillna(0)

# sum Price by client and date
res = merge.groupby(['Client_ID', 'Date'], as_index=False)['Price'].sum().rename(columns={'Price' : 'LastProdSum'})
print(res)

输出

  Client_ID       Date  LastProdSum
0   johndoe 2015-11-25        200.0
1   johndoe 2019-01-15        900.0
2   pauldoe 2015-05-26          0.0

问题是merge\u asof无法处理重复的值，因此我们需要创建唯一的值。这些新值是客户ID和产品类型的笛卡尔乘积，这部分内容在以下方面完成：

# get unique product types
product_types = list(df_prod['Product-Type'].unique())

# create a new DataFrame with a row for each Product-Type for each Client_ID
df['Product-Type'] = [product_types for _ in range(len(df))]
df_with_prod = df.explode('Product-Type')

最后，做一个groupby并对价格求和，而不是在做填充以填充缺少的值之前

更新

你可以试试：

# get unique product types
product_types = df_prod.groupby('Buyer')['Product-Type'].apply(lambda x: list(set(x)))

# create a new DataFrame with a row for each Product-Type for each Client_ID
df['Product-Type'] = df['Client_ID'].map(product_types)
df_with_prod = df.explode('Product-Type')

# merge only the closest date by each client and product type
merge = pd.merge_asof(df_with_prod.sort_values(['Date', 'Client_ID']),
                      df_prod.sort_values(['Product-Date', 'Buyer']),
                      left_on='Date',
                      right_on='Product-Date',
                      left_by=['Client_ID', 'Product-Type'], right_by=['Buyer', 'Product-Type'])

# fill na in prices
merge['Price'] = merge['Price'].fillna(0)

# sum Price by client and date
res = merge.groupby(['Client_ID', 'Date'], as_index=False)['Price'].sum().rename(columns={'Price' : 'LastProdSum'})

print(res)

这里的想法是改变生成唯一值的方式

问题

我所做的：

在Dani的回答后编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章