我希望使用sampleBy
获得基于列分布的样本。例如,在每个prod_name
组中,我想基于colour
列sampleBy("colour", fractions ={"blue":0.5, "yellow",0.1, green: 0.3}
做一个sampleBy
如何将这两种方法结合使用?非常感谢你的帮助
prod_name | colour | value | code
-------------------------------
A | blue |100 | Y
A | blue |200. | N
A | blue. |300. | Y
A | blue. |400. | Y
A | yellow. |500. | N
B | green. |600 | Y
B | green. |650 | Y
B | blue. |700 | N
C | red. |800. | Y
C | blue |900. | N
C | green |1000 | N
此方法有点棘手,但应正确执行其工作。
基本上,我们将构建一个新列,它是
prod_name
和colour
的串联,因此我们可以在该列上使用sampleBy
。我们将为找到的颜色创建一个具有重复值的新词典现在行数很少,所以结果可能会很奇怪。在更大的数据帧上尝试一下,应该可以
相关问题 更多 >
编程相关推荐