我有以下玩具df:
FilterSystemO2Concentration (Percentage) ProcessChamberHumidityAbsolute (g/m3) ProcessChamberPressure (mbar)
0 0.156 1 29.5 28.4 29.6 28.4
2 0.149 1.3 29.567 28.9
3 0.149 1 29.567 28.9
4 0.148 1.6 29.6 29.4
这只是一个样本。原来有1200多排。最好的方法是什么来保持它的统计特性?在
我在google上搜索了一段时间,我只发现了不平衡类的重采样算法。但这不是我想要的,我对平衡数据也不感兴趣,我只想以或多或少保留原始数据分布和统计特性的方式产生更多的样本。在
提前谢谢
使用
scipy.stats.rv_histogram(np.histogram(data)).isf(np.random.random(size=n))
将创建从数据分布(直方图)中随机选择的n个新样本。可以对每个列执行以下操作:示例:
相关问题 更多 >
编程相关推荐