基于现有数据生成随机数据 - 问答 - Python中文网

基于现有数据生成随机数据

2024-06-26 10:52:45 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

python中是否有一种基于alreday现有数据分布生成随机数据的方法

以下是我的数据集的统计参数：

Data
count   209.000000
mean    1.280144
std     0.374602
min     0.880000
25%     1.060000
50%     1.150000
75%     1.400000
max     4.140000

因为它不是正态分布，所以不可能用np.random.normal进行。有什么想法吗

多谢各位

编辑：执行KDE：

from sklearn.neighbors import KernelDensity
# Gaussian KDE
kde = KernelDensity(kernel='gaussian', bandwidth=0.525566).fit(data['y'].to_numpy().reshape(-1, 1))
sns.distplot(kde.sample(2400))

Tags：数据方法 data 参数 count min mean max

1条回答

网友

1楼 · 发布于 2024-06-26 10:52:45

一般来说，真实世界的数据并不像正态分布或威布尔分布那样完全遵循“良好”分布

与机器学习类似，从数据点分布进行采样通常有两个步骤：

将数据模型与数据相匹配
然后，借助随机性，基于该模型预测一个新的数据点

有几种方法可以从该估计中估计数据和样本的分布：

核密度估计
高斯混合模型
直方图
~~回归模型。~~
其他机器学习模型

此外，诸如最大似然估计之类的方法使得能够将已知分布（例如正态分布）拟合到数据，但是估计的分布通常比核密度估计或其他机器学习模型更粗糙

另见我的章节“Random Numbers from a Distribution of Data Points”

相关问题更多 >

编程相关推荐

热门问题

热门文章