格式化词频并与其他数据机器结合学习python

2条回答

网友

1楼 · 编辑于 2024-06-25 05:49:13

你的第一个解决方案就是在列表中添加内容，这是正确的解决方案。但是，你应该想想这意味着什么。如果你有100个单词并添加了两个附加功能，那么每个特定的单词将获得与添加的功能相同的“权重”-即，你添加的功能在模型中不会得到很强的处理。另外，您的意思是最后一个特征的值为45，是第四个特征值（0.45）的100倍。在

解决这个问题的一个常见方法是使用集合模型。与其将这些特性添加到单词列表中并进行预测，不如先使用单词构建一个预测模型。这一预测将在0-1范围内，并将捕捉到文章的“情绪”。然后，缩放其他变量（minmax scaler、normal distribution等）。最后，将单词的分数与最后两个标度变量结合起来，在一个列表上运行另一个预测，比如[.86，.2，.65]。这样，你就把所有的单词都转换成了一个情感得分，你可以用它作为一个特征。在

希望有帮助。在

根据以上更新编辑

是的，在这个例子中，你可以使用predict_proba，但是如果一切都正确缩放，并且你使用1/0作为类的目标，那么就不需要predict_proba。我们的想法是从单词中提取预测，并将其与其他变量结合起来。你不求预测的平均值，而是根据预测值做出预测！这就是所谓的集成学习。训练另一个模型，以你的预测输出为特征。下面是你需要做的事情的流程图。

网友

2楼 · 编辑于 2024-06-25 05:49:13

谢谢你的时间和你详细的回答。我想我明白了。简而言之：

根据单词进行预测，并针对训练集（t1）的每一包单词，抽出一个“情绪”
使用“情感”和“其他”值为每个训练集行创建一个新数组->新训练集（t2）
根据t2进行预测。在
对测试应用前面的步骤。在

还有一个问题！在

什么是“情感”价值？！对于每一包单词，我有一个稀疏矩阵（countvectorizer+tf_idf）。那么你如何计算情绪呢？在测试的其余部分中，是否再次运行测试的每一行？你的情绪是clf.预测（十）价值？在

相关问题更多 >

编程相关推荐

热门问题

热门文章