在python中计算值的重复出现次数

网友

1楼 · 编辑于 2024-05-02 17:03:17

从删除连续的重复项开始，然后计算生存者：

no_dups = df[df.Cookie != df.Cookie.shift()] # Borrowed from @sacul
no_dups.groupby('Cookie').count() - 1
#        SNo
#Cookie     
#A         2
#B         1
#C         0
#D         2
#E         0

网友

2楼 · 编辑于 2024-05-02 17:03:17

一种方法是首先去掉连续的Cookies，然后在使用duplicated之前找到Cookie的位置，最后groupbycookie并得到总和：

no_doubles = df[df.Cookie != df.Cookie.shift()]

no_doubles['dups'] = no_doubles.Cookie.duplicated()

no_doubles.groupby('Cookie').dups.sum()

这将为您提供：

Cookie
A    2.0
B    1.0
C    0.0
D    2.0
E    0.0
Name: dups, dtype: float64

网友

3楼 · 编辑于 2024-05-02 17:03:17

`pandas.factorize`和`numpy.bincount`

如果不计算立即重复的值，则删除它们。你知道吗
对剩下的值进行正常计数。你知道吗
然而，这是一个比什么要求，所以减去一。你知道吗

factorize
过滤掉即时重复
bincount
产生pandas.Series

i, r = pd.factorize(df.Cookie)
mask = np.append(True, i[:-1] != i[1:])
cnts = np.bincount(i[mask]) - 1

pd.Series(cnts, r)

A    2
B    1
C    0
D    2
E    0
dtype: int64

`pandas.value_counts`

zip具有滞后自我的cookie，拉出非重复的

c = df.Cookie.tolist()

pd.value_counts([a for a, b in zip(c, [None] + c) if a != b]).sort_index() - 1

A    2
B    1
C    0
D    2
E    0
dtype: int64

`defaultdict`

from collections import defaultdict

def count(s):
  d = defaultdict(lambda:-1)
  x = None
  for y in s:
    d[y] += y != x
    x = y

  return pd.Series(d)

count(df.Cookie)

A    2
B    1
C    0
D    2
E    0
dtype: int64

`pandas.factorize`和`numpy.bincount`

`pandas.value_counts`

`defaultdict`

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中计算值的重复出现次数

pandas.factorize和numpy.bincount

pandas.value_counts

defaultdict

相关问题 更多 >

编程相关推荐

热门问题

热门文章

`pandas.factorize`和`numpy.bincount`

`pandas.value_counts`

`defaultdict`

相关问题更多 >