使用Python基于现有数据集生成新数据

2024-10-01 13:39:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集,由21条独特的数据记录组成。为了通过增加每个类的样本数来测试某些算法(如kNN和SVM)的性能,我想测试每个类至少有20个或更多唯一记录的数据(预测浓度是不同的类)

我不想生成随机数据。我想使用我拥有的21条独特的数据记录作为基础数据集,并生成与现有数据类似的剩余数据

如何使用Python实现这一点

这是示例数据

Index  OD600AV  Cell Count  Predict Conc            
1     0.059625  800000        1
2     0.063125  442000        1
3     0.067375  544000        1 
4     0.060125  728000        2
5     0.062500  616000        2
6     0.063000  688000        2
7     0.061125  532000        3
8     0.059875  470000        3
9     0.059250  556000        3
10    0.060250  466000        4
11    0.056000  222000        4
12    0.056000  390000        4
13    0.055125  112000        5
14    0.049625  105000        5
15    0.050875  120000        5
16    0.047875  56000         6
17    0.058000  44000         6
18    0.048500  140000        6
19    0.052500  62000         7
20    0.061125  52000         7
21    0.047125  64000         7  

这个问题与Generate data by using existing dataset as the base dataset非常相似,它似乎是用我无法工作的R来回答的

谢谢


Tags: 数据算法示例indexcount记录cell性能