我有一个数据集,由21条独特的数据记录组成。为了通过增加每个类的样本数来测试某些算法(如kNN和SVM)的性能,我想测试每个类至少有20个或更多唯一记录的数据(预测浓度是不同的类)
我不想生成随机数据。我想使用我拥有的21条独特的数据记录作为基础数据集,并生成与现有数据类似的剩余数据
如何使用Python实现这一点
这是示例数据
Index OD600AV Cell Count Predict Conc
1 0.059625 800000 1
2 0.063125 442000 1
3 0.067375 544000 1
4 0.060125 728000 2
5 0.062500 616000 2
6 0.063000 688000 2
7 0.061125 532000 3
8 0.059875 470000 3
9 0.059250 556000 3
10 0.060250 466000 4
11 0.056000 222000 4
12 0.056000 390000 4
13 0.055125 112000 5
14 0.049625 105000 5
15 0.050875 120000 5
16 0.047875 56000 6
17 0.058000 44000 6
18 0.048500 140000 6
19 0.052500 62000 7
20 0.061125 52000 7
21 0.047125 64000 7
这个问题与Generate data by using existing dataset as the base dataset非常相似,它似乎是用我无法工作的R来回答的
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐