格式化词频并与其他数据机器结合学习python问题的回答

格式化词频并与其他数据机器结合学习python

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我是机器学习算法的新手。我广泛阅读了scikit learn网站和其他的SO帖子，这些帖子引导我使用RandomForestClassifier和LinearSVC构建了我的第一个机器学习算法。在 我在写病历。患者每次住院都与并发症（出血、感染、心脏病发作等）对应的代码相关（或不相关） 利用这些注释，通过Countvectorizer和tfiddtransformer进行拟合和变换，可以准确地预测大部分代码。不过，我想在我的培训数据集中增加更多的数据：住院时间、手术次数、手术名称、ICU住院时间等等。。。在 在分析完web之后，我最终将所有的连续/二进制/缩放值添加到我的词频数组中。在 例如：<code>[0,0,0.34,0,0.45,0, 2, 45]</code>（最后2个数字是添加的数据，而前两个数字匹配countvectorizer和tfdif.fit_变换（列车组） 然而，这似乎是一个庞大的数据组合的方式。在 我试图设置我的数据如下：<code>[[0,0,0.34,0,0.45,0],[2],[45]]</code>，但它不起作用。在 我在网上搜索，但没有真正的线索，尽管我可能不是第一个面对这个问题的人…：p 谢谢你的帮助 编辑： 谢谢你详细而有价值的回答。我真的很感激。然而，0-1的确切范围是什么：它是{predict_proba}值（<a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict" rel="nofollow noreferrer">http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict</a>）吗？。我明白分数就是预测模型的准确性。那么当你根据每个变量得出所有的预测值时，你会平均所有预测值吗？最后，我要处理多个输出，我想这不是问题，因为我可以得到每个输出的预测（btw predict_proba（X）给我一个像[array（[[0,1.]]）、array（[[0.2,0.8]]）…]这样的数组，使用随机森林树分类器。我想其中一个数字是输出的概率，但我还没有研究过这个！）在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

格式化词频并与其他数据机器结合学习python

1 个回答

相关Python问题