Python中的Pandas SQL用于分析大型数据集

2024-10-03 11:20:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个熊猫数据框,它包含以下结构:

用户ID EmailOpenRank
用户1
用户1 2
用户1 3
用户2 1
用户2
用户3 1
用户3 2
用户3 4
用户3 5


“EmailOpenRank”字段捕获顺序事件(DF)。如果数字按顺序出现,则表示(1、2、3)用户按顺序打开电子邮件的次数。我在描述中提供了示例。问题是在1000万用户中,什么是合适的SQL查询(Pandasql),这样我就可以告诉900万人连续打开了3封电子邮件,100万人连续打开了4封电子邮件

使用pandasql,我想从“EmailOpenRank”列中计算出连续打开2封电子邮件、3封电子邮件、4封电子邮件等的用户总数。例如,User1根据排名打开了3封连续电子邮件,User2打开了2封连续电子邮件,Users3打开了4封连续电子邮件

我怎样才能开始呢


Tags: 数据用户id示例dfsql顺序电子邮件