基于现有数据生成随机数据

2024-06-26 10:52:45 发布

您现在位置:Python中文网/ 问答频道 /正文

python中是否有一种基于alreday现有数据分布生成随机数据的方法

以下是我的数据集的统计参数:

Data
count   209.000000
mean    1.280144
std     0.374602
min     0.880000
25%     1.060000
50%     1.150000
75%     1.400000
max     4.140000

因为它不是正态分布,所以不可能用np.random.normal进行。有什么想法吗

Distribution

多谢各位

编辑:执行KDE:

from sklearn.neighbors import KernelDensity
# Gaussian KDE
kde = KernelDensity(kernel='gaussian', bandwidth=0.525566).fit(data['y'].to_numpy().reshape(-1, 1))
sns.distplot(kde.sample(2400))

KDE


Tags: 数据方法data参数countminmeanmax
1条回答
网友
1楼 · 发布于 2024-06-26 10:52:45

一般来说,真实世界的数据并不像正态分布或威布尔分布那样完全遵循“良好”分布

与机器学习类似,从数据点分布进行采样通常有两个步骤:

  • 将数据模型与数据相匹配

  • 然后,借助随机性,基于该模型预测一个新的数据点

有几种方法可以从该估计中估计数据和样本的分布:

  • 核密度估计
  • 高斯混合模型
  • 直方图
  • 回归模型。
  • 其他机器学习模型

此外,诸如最大似然估计之类的方法使得能够将已知分布(例如正态分布)拟合到数据,但是估计的分布通常比核密度估计或其他机器学习模型更粗糙

另见我的章节“Random Numbers from a Distribution of Data Points

相关问题 更多 >