我有100 questions_id
和50 user_id
的DataFrame
个答案。每行代表一个特定用户的单个问题。这张桌子看起来像这样。你知道吗
user_id | question_id | timetaken | answer_1 | answer_2 |
1015 | 1 | 30 | A | C |
1015 | 2 | 45 | B | B |
1016 | 1 | 15 | A | A |
1016 | 2 | 55 | A | D |
我试图筛选出没有完成测试的用户。我这样做的思想过程是计算每个用户出现在表中的次数,如果user_id
1015出现在user_id
列中100次,我知道他们完成了100个问题。不幸的是,我不能使用question_id
进行过滤,因为问题是随机的,所以用户可以回答5个问题,其中一个问题可能有question_id = 100
。你知道吗
我以为这是我的solution,但无法计算user_id
的出现次数。你知道吗
使用^{} 和^{} ,非常简洁,并用于此目的。你知道吗
要获得更好的性能,请使用^{} 和^{} :
对计数更像} ,^{} 和^{} 用于返回与原始
100
次的仅筛选行使用^{Series
大小相同的DataFrame
:性能:取决于行数和组长度,因此在实际数据中进行最佳测试:
相关问题 更多 >
编程相关推荐