获取具有任何所需值的组

gr = [] for i in range(12000): gr.extend([i] * 2) np.random.seed(0) df = pd.DataFrame({'gr': gr, 'col1': np.random.choice(200, 24000)}) anyOfThese = np.array([50, 60]) #randomly chosen t = time() out = df[df.groupby('gr')['col1'].transform(lambda x: np.any(np.in1d(np.array(x), anyOfThese))).astype(bool)].gr.unique() print(round(time() - t,2)) >>> 1.87

2条回答

网友

1楼 · 编辑于 2024-10-08 20:19:01

对于较大的数组，如果只有2个值，可以检查每个值是否相等，并使用|（or）条件：

%timeit df.loc[(df['col1'].values == 50) | (df['col1'].values == 60), 'gr'].unique()
%timeit df.loc[np.in1d(df['col1'], anyOfThese), 'gr'].unique()

1000 loops, best of 3: 1.07 ms per loop
1000 loops, best of 3: 1.13 ms per loop

在Numpy 1.11.3/Pandas 0.19.2/Python 3.6.0上测试。性能可能因设置而异。用于测试的代码：

gr = []
for i in range(120000): gr.extend([i] * 2)

np.random.seed(0)
df = pd.DataFrame({'gr': gr,
                   'col1': np.random.choice(200, 240000)})

anyOfThese = np.array([50, 60])

%timeit df.loc[(df['col1'].values == 50) | (df['col1'].values == 60), 'gr'].unique()
%timeit df.loc[np.in1d(df['col1'], anyOfThese), 'gr'].unique()

网友

2楼 · 编辑于 2024-10-08 20:19:01

将^{}与^{}过滤一起使用：

out = df.loc[df['col1'].isin(anyOfThese), 'gr'].unique()

或通过^{}检查成员身份：

out = df.loc[np.in1d(df['col1'], anyOfThese), 'gr'].unique()

时间安排：

np.random.seed(218)

gr = []
for i in range(12000): 
    gr.extend([i] * 2)
np.random.seed(0)
df = pd.DataFrame({'gr': gr,
                   'col1': np.random.choice(200, 24000)})
anyOfThese = np.array([50, 60]) #randomly chosen

a = df[df.groupby('gr')['col1'].transform(lambda x: np.any(np.in1d(np.array(x), anyOfThese))).astype(bool)].gr.unique()
out = df.loc[df['col1'].isin(anyOfThese), 'gr'].unique()
print ((a == out).all())
True

In [314]: %timeit df[df.groupby('gr')['col1'].transform(lambda x: np.any(np.in1d(np.array(x), anyOfThese))).astype(bool)].gr.unique()
2.9 s ± 79.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [315]: %timeit df.loc[df['col1'].isin(anyOfThese), 'gr'].unique()
746 µs ± 32.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [316]: %timeit df.loc[np.in1d(df['col1'], anyOfThese), 'gr'].unique()
325 µs ± 14.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

相关问题更多 >

编程相关推荐

热门问题

热门文章