我有一个超过40000行的数据框,其中某一列表示组成员身份。共有八组。 我想要一个更小的数据帧,在这里我从每个组中抽取一个x数字
allthedata.groupby("groupvariable", group_keys=False).apply(lambda group_df: group_df.sample(100, random_state=784))
根据上面的代码,我每组抽取100例样本。然而,我想从第一组中抽取10个样本,从第二组中抽取40个样本,从第三组中抽取10个样本,等等。这与整个组的规模无关
有什么方法可以指定每个组的采样量吗
谢谢
在这种情况下,需要一个for循环:
多亏了Edoardo Guerriero和一些小改动,我解决了这个问题:
相关问题 更多 >
编程相关推荐