我有一组推文数据,每条推文都有一个平均置信度分数。
例如
Tweet
{}{}
too much thoughts inside his headdd we can t even imagine
{}{}
His ass need to stay up
{}{}
First time I heard his name in camp, he seems amazing
{}{}
平均置信度是多个监督模型预测的特定实例属于正类的置信度的平均值
标准偏差是特定情况下信心与平均信心的标准偏差
如果把它看作是一个回归任务,那么如何处理多标签数据
编辑
![Data set](https://i.stack.imgur.com/D2WfT.png)
Tags:
我还没完全理解你的问题,所以我想最好的答案是:)
基本上,分数(在你的例子中
average
)单独用于情绪分析,对好的坏的句子(数据)进行分类,选择一个产生最佳分类结果的阈值,比如0.6
我建议看看这个简单的方法是否足以满足您的需求
如果您想使用更多变量(信息)进行分类,例如“average
and
std”,您可以使用另一种分类模型(如逻辑回归,决策树,支持向量机等)如果您想使用某种回归方法,我建议使用logistic regression(这是非常简单的)
因为您当前的模型只包含两个变量
average
和std
asvm,所以可能会得到更好的结果(基本上,它将数据投影到更高的维度上并在那里进行分类)请记住,所有方法(可能除了决策树等)都会输出另一个分数,比如从
0
到1
之间的分类概率,因此最后必须应用阈值相关问题 更多 >
编程相关推荐