添加一个“flag”列，说明一个ID在另一列中是否有某些值

In [1]: df Out[2]: userid type has_type_12 0 1 1 1 1 1 2 1 2 2 1 0 3 3 1 1 4 3 2 1 5 3 3 1

3条回答

网友

1楼 · 编辑于 2024-09-27 09:37:46

将^{}+^{}与set一起使用：

cats = [1,2]
df['has_type_12'] = df.groupby('userid')['type'] \
                      .transform(lambda x: set(x) >= set((cats))) \
                      .astype(int) 
print (df)
   userid  type  has_type_12
0       1     1            1
1       1     2            1
2       2     1            0
3       3     1            1
4       3     2            1
5       3     3            1

另一个具有双^{}（如果只有几个类别）的解决方案：

cats = [1,2]
df['has_type_12'] = df.groupby('userid')['type'] \
                      .transform(lambda x: ((x == 1).any()) & ((x == 2).any())) \
                      .astype(int) 
print (df)
   userid  type  has_type_12
0       1     1            1
1       1     2            1
2       2     1            0
3       3     1            1
4       3     2            1
5       3     3            1

网友

2楼 · 编辑于 2024-09-27 09:37:46

当使用set时，>=操作符测试右手侧是否是左手侧的子集。我使用ge方法作为>=的代理

使用groupby

m = df.groupby('userid').type.apply(set)
df.assign(
  has_type_12=df.userid.map(m).ge({1, 2}).astype(int)
)

   userid  type  has_type_12
0       1     1            1
1       1     2            1
2       2     1            0
3       3     1            1
4       3     2            1
5       3     3            1

使用defaultdict

from collections import defaultdict

d = defaultdict(set)
[d[k].add(v) for k, v in zip(df.userid.values.tolist(), df.type.values.tolist())];
df.assign(has_type_12=df.userid.map(d).ge({1, 2}).astype(int))

   userid  type  has_type_12
0       1     1            1
1       1     2            1
2       2     1            0
3       3     1            1
4       3     2            1
5       3     3            1

时间安排 大数据

np.random.seed([3,1415])
df = pd.DataFrame(dict(
        userid=np.random.randint(1000, size=100000),
        type=np.random.randint(100, size=100000)
    ))

%%timeit
d = defaultdict(set)
[d[k].add(v) for k, v in zip(df.userid.values.tolist(), df.type.values.tolist())];
df.userid.map(d).ge({1, 2}).astype(int)
10 loops, best of 3: 55.6 ms per loop

%%timeit 
m = df.groupby('userid').type.apply(set)
df.userid.map(m).ge({1, 2}).astype(int)
10 loops, best of 3: 76.1 ms per loop

%timeit df.groupby('userid')['type'] \
                      .transform(lambda x: set(x) >= set((cats))) \
                      .astype(int)
1 loop, best of 3: 206 ms per loop

网友

3楼 · 编辑于 2024-09-27 09:37:46

In [308]: df['has_type_12'] = \
              df.groupby('userid')['type'].transform(lambda x: x[x.isin([1,2])].nunique() == 2)

In [309]: df
Out[309]:
   userid  type  has_type_12
0       1     1            1
1       1     2            1
2       2     1            0
3       3     1            1
4       3     2            1
5       3     3            1

相关问题更多 >

编程相关推荐

热门问题

热门文章

添加一个“flag”列，说明一个ID在另一列中是否有某些值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >