我有一个包含如下内容的数据集:
SNo Cookie
1 A
2 A
3 A
4 B
5 C
6 D
7 A
8 B
9 D
10 E
11 D
12 A
假设我们有5个曲奇'A,B,C,D,E'。现在我要计算在遇到新的cookie之后是否有任何cookie再次出现。例如,在上述示例中,第7位和第12位再次遇到cookieA。注意我们不会计算第二位的A,因为它同时出现,但在第七位和第十二位,我们在再次看到A之前看到了许多新的cookie,因此我们计算该实例。所以本质上我想要这样的东西:
Sno Cookie Count
1 A 2
2 B 1
3 C 0
4 D 2
5 E 0
有人能告诉我这背后的逻辑或python代码吗?你知道吗
从删除连续的重复项开始,然后计算生存者:
一种方法是首先去掉连续的
Cookies
,然后在使用duplicated
之前找到Cookie
的位置,最后groupby
cookie并得到总和:这将为您提供:
pandas.factorize
和numpy.bincount
factorize
bincount
pandas.Series
pandas.value_counts
zip
具有滞后自我的cookie,拉出非重复的defaultdict
相关问题 更多 >
编程相关推荐