擅长:python、mysql、java
<p>你的第一个解决方案就是在列表中添加内容,这是正确的解决方案。但是,你应该想想这意味着什么。如果你有100个单词并添加了两个附加功能,那么每个特定的单词将获得与添加的功能相同的“权重”-即,你添加的功能在模型中不会得到很强的处理。另外,您的意思是最后一个特征的值为45,是第四个特征值(0.45)的100倍。在</p>
<p>解决这个问题的一个常见方法是使用集合模型。与其将这些特性添加到单词列表中并进行预测,不如先使用单词构建一个预测模型。这一预测将在0-1范围内,并将捕捉到文章的“情绪”。然后,缩放其他变量(minmax scaler、normal distribution等)。最后,将单词的分数与最后两个标度变量结合起来,在一个列表上运行另一个预测,比如[.86,.2,.65]。这样,你就把所有的单词都转换成了一个情感得分,你可以用它作为一个特征。在</p>
<p>希望有帮助。在</p>
<p><strong>根据以上更新编辑</strong></p>
<p>是的,在这个例子中,你可以使用predict_proba,但是如果一切都正确缩放,并且你使用1/0作为类的目标,那么就不需要predict_proba。我们的想法是从单词中提取预测,并将其与其他变量结合起来。你不求预测的平均值,而是根据预测值做出预测!这就是所谓的集成学习。训练另一个模型,以你的预测输出为特征。下面是你需要做的事情的流程图。<a href="https://i.stack.imgur.com/LHkRF.jpg" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/LHkRF.jpg" alt="enter image description here"/></a></p>