获取m个值中的n个值错误的行

right_answer rater1 rater2 rater3 item 1 1 1 2 S01 1 1 2 2 S02 2 1 2 1 S03 2 2 1 2 S04

2条回答

网友

1楼 · 编辑于 2024-06-25 06:46:43

使用^{}过滤包含rater等列的数据框，然后使用^{}沿axis=0比较包含rater的列与right_answer列，然后使用^{}沿axis=1获取给出错误答案的raters数，然后使用^{}创建布尔掩码，最后使用此筛选数据框行mask：

mask = (
    df.filter(like='rater')
    .ne(df['right_answer'], axis=0).sum(axis=1).ge(2)
)

df = df[mask]

结果:

# print(df)

   right_answer  rater1  rater2  rater3 item
1             1       1       2       2  S02
2             2       1       2       1  S03

网友

2楼 · 编辑于 2024-06-25 06:46:43

为了提高速度，纯粹使用^{}：

diffs = np.not_equal(df.filter(like='rater'), df['right_answer'][:, None])
diffs = np.sum(diffs, axis=1) >= 2

df[diffs]

   right_answer  rater1  rater2  rater3 item
1             1       1       2       2  S02
2             2       1       2       1  S03

让我们计时吧

# create dataframe with 4 million rows
dfbig = pd.concat([df]*1000000, ignore_index=True)
dfbig.shape

# (4000000, 5)

def numpy_broadcasting(data):
    diffs = np.not_equal(data.filter(like='rater'), data['right_answer'][:, None])
    diffs = np.sum(diffs, axis=1) >= 2


def pandas_method(data):
    mask = (
    data.filter(like='rater')
    .ne(df['right_answer'], axis=0).sum(axis=1).ge(2)
    )

%%timeit
numpy_broadcasting(dfbig)
# 92.5 ms ± 789 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
pandas_method(dfbig)
# 296 ms ± 7.27 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

numpy broadcasting快了296 / 92.5 = 3.2倍

相关问题更多 >

编程相关推荐

热门问题

热门文章

获取m个值中的n个值错误的行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >