对于不同大小的训练数据,哪种是最好的scikitlearn机器学习算法?

2024-06-01 12:04:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这个数据集,我需要用它来训练(fit)到我的machine learning算法中:

data= [
    {'timestamp': '1406025645732', 'datatype': 'mass', 'fat': '0.348',  'lean': '0.06'}, 

    {'timestamp': '1406025645776', 'datatype': 'body', 'value': 122.0, 'location': 'nose'}, 

    {'timestamp': '1406025645793', 'datatype': 'mass', 'fat': '0.32', 'lean': '0.04'}, 
    {'timestamp': '1406025645810', 'datatype': 'mass', 'fat': '0.308', 'lean': '0.1'}, 

    {'timestamp': '1406027645916', 'datatype': 'body', 'value': 6.0, 'location': 'eye'}, 

    {'timestamp': '1406025645949', 'datatype': 'mass', 'fat': '0.312', 'lean': '0.052'}, 
    {'timestamp': '1406025645966', 'datatype': 'mass', 'fat': '0.32', 'lean': '0.032'}, 
    {'timestamp': '1406025645983', 'datatype': 'mass', 'fat': '0.28', 'lean': '0.06'},

    {'timestamp': '1406025646000', 'datatype': 'gender', 'value': '0.3096', 'size': '7.0'}
]

我有一个包含3种数据类型的数据示例:

  • body
  • mass
  • gender

每个数据类型的样本数是随机的(,有时我可以有10个mass和1个{}的样本。或者我可以有300个mass和20个{})样本。在

不管怎样,我想有一个训练集与这种不一致的数据。在

这可能吗?

对于这一点,什么是最好的scikit学习训练算法?

  • 逻辑回归?在
  • 天真的贝斯?在
  • k-最近邻居?在
  • 分类和回归树?在
  • 支持向量机?在

这里有一些示例代码,但我不知道下一步实现这一点的路径。在

请告诉我应该遵循哪一步,或是一些教程,我可以学习和粘贴在这里的解决方案。在

^{pr2}$

非常感谢。在


Tags: 数据算法示例valuebodylocationgenderfat
1条回答
网友
1楼 · 发布于 2024-06-01 12:04:57

当数据集可以作为线性拟合时,应用逻辑回归图表。自从你的数据集包含多个特性,你可以继续使用KNN,决策树,朴素贝叶斯。KNN虽然简单,但在计算上是穷尽的。 决策树[CART]是一个更好的选择,因为算法将理解不同于KNN的数据。如果你熟悉支持向量机的概念,你可以尝试一下,但它需要深入理解。在

相关问题 更多 >