如何在datatable框架中按组查找唯一值

2条回答

网友

1楼 · 编辑于 2024-05-18 22:28:13

dt.unique函数尚未按组应用。因此，实现所需的一种方法是首先按lifecycle+customerID进行分组，然后在第二步中仅按lifecycle重新分组：

>>> DT_EX[:, count(), by(f.cust_life_cycle, f.cid)]\
...      [:, {"unique_cids": count()}, by(f.cust_life_cycle)]

   | cust_life_cycle  unique_cids
  +        -       -
 0 | Active                     2
 1 | Inactive                   2
 2 | Lead                       3

[3 rows x 2 columns]

网友

2楼 · 编辑于 2024-05-18 22:28:13

@pasha

我还为我的实践创建了一个自定义函数，如下所示

def pydt_unique_per_group(DT,by_col,uni_col):
    DT_dict = DT[:,(f[by_col],f[uni_col])].to_dict()
    pairs = list(zip(DT_dict[by_col], DT_dict[uni_col]))
    unique_per_col_dict = {k : list(map(itemgetter(1), v)) for k,v in groupby(sorted(pairs, key=itemgetter(0)), key=itemgetter(0))}
    unique_per_col_count = {drink:len(set(ingr)) for drink,ingr in unique_per_col_dict.items()}
    unique_per_col_count_sort = {k:v for k,v in sorted(unique_per_col_count.items(),key=lambda x:x[1],reverse=True)}
    by_group_summary_dict = {by_col:[],'count':[]}
    for k, v in unique_per_col_count_sort.items():
        by_group_summary_dict[by_col].append(k)
        by_group_summary_dict['count'].append(v)
    return dt.Frame(by_group_summary_dict)

输出：

In [8]: pydt_unique_per_group(DT_EX,'cust_life_cycle','cid')                                                                                                                                                
Out[8]: 
   | cust_life_cycle  count
  +        -    -
 0 | Lead                 3
 1 | Active               2
 2 | Inactive             2

[3 rows x 2 columns]

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在datatable框架中按组查找唯一值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >