基于分组字段计算唯一值

listaa = [(u'2004-2006', 48600.0, 386011), (u'2004-2006', 900.0, 385792), (u'2004-2006', 16200.0, 385792), (u'2004-2006', 11700.0, 385792), (u'2004-2006', 900.0, 385792), (u'2006-2008', 900.0, 386198), (u'2006-2008', 39600.0, 385916), (u'2006-2008', 4500.0, 385916), (u'2006-2008', 900.0, 385916), (u'2006-2008', 900.0, 385916), (u'2008-2010', 11700.0, 386067)]

fechas = list(set([f[0] for f in listaa])) fechas.sort() lista1 = [] lista2 = [] for fecha in fechas: for l in listaa: if l[0] == fecha: lista1.append(l[2]) lista2.append(str(len(set(lista1)))) lista1 = [] print lista2

2条回答

网友

1楼 · 编辑于 2024-09-28 17:17:56

提供利用nunique()的pandas解决方案：

import pandas as pd

listaa = [(u'2004-2006', 48600.0, 386011),
 (u'2004-2006', 900.0, 385792),
 (u'2004-2006', 16200.0, 385792),
 (u'2004-2006', 11700.0, 385792),
 (u'2004-2006', 900.0, 385792),
 (u'2006-2008', 900.0, 386198),
 (u'2006-2008', 39600.0, 385916),
 (u'2006-2008', 4500.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2008-2010', 11700.0, 386067)]

df = pd.DataFrame(listaa, columns=['Date','Val1','Val2'])

df.groupby('Date')['Val2'].nunique().tolist()

提供：

[2, 2, 1]

网友

2楼 · 编辑于 2024-09-28 17:17:56

您可以使用defaultdict轻松统计每个组的唯一值(在手机上，很抱歉没有示例输出。）

from collections import defaultdict 

values = defaultdict(set) 
for row in data:
  values[row[0]].add(row[2])

相关问题更多 >

编程相关推荐

热门问题

热门文章