我有一个大约10000000行的大熊猫数据框。每一个代表一个特征向量。特征向量以自然组的形式出现,组标签位于名为group_id
的列中。我想随机抽取10%
行,但要与每个group_id
行的数目成比例。
例如,如果group_id's
是A, B, A, C, A, B
,那么我希望一半的采样行有group_id
A
,六分之二有group_id
B
,六分之一有group_id
C
。
我可以看到pandas函数sample,但我不确定如何使用它来实现这个目标。
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐