我正在进行Kaggle电影情感分析,我发现电影评论已经用Standford解析器进行了解析。 在研究数据集时,我发现相同的语句给出了不同的设置-
their parents , wise folks that they are , 2
their parents , wise folks that they are 3
Genuinely unnerving . 3
Genuinely unnerving 1
其中英语是解析的数据,数字属于情感。 现在如果你检查一下这行,逗号和一个点是不同的,其余的是相同的,但都属于不同的情感,这给我分类带来了很多麻烦。在
在文本分类中,我应该怎么做才能避免这样的问题,如果我忽略了重复,使用已经添加的情感,我的分类就大错特错了,那么应该如何解决这种情况呢。在
我假设您使用的是一袋单词,逗号和点是您的特性之一(您的
X
矩阵中的一列)。在一个理想的算法应该知道这些特征是否相关。例如,在Logistic回归的情况下,你的算法会给相应的列分配一个非常小的权重,因此该列中的
^{pr2}$1
或0
不会改变预测结果。所以你会有这样的东西:在你的情况下,他们似乎有一些小的影响。这真的是个问题吗?你发现了一些特殊情况,如果它看起来是错误的,但是通过查看数据,算法发现有点的句子比没有点的句子更负。也许你应该相信,从统计学上讲,一个点可以改变一个句子的意思。在
它也可能发生,你有坏的训练数据或一个坏的过度拟合模型。如果你真的认为有什么不对劲,那么你可以把这些知识强加在模型上,通过表现句子使它们无法区分,例如忽略一些标点符号。在
我认为一次去掉所有的标点符号是错误的,例如一个}类句子的模型变得混乱。在本例中,您可以将您的句子表示为双元组,这样模型就可以分别加权单个
!
可以代表非常积极的情绪,如果你把它从你的句子中去掉,你将隐藏有价值的信息。但可能恰恰相反,!
在大多数情况下是负的,因此在训练后它得到了很高的负权重,这使得预测{!
和(yes, !)
组合的效果。在所以在简历中,你应该试着用不同的模型和方法来表达你的数据,看看什么是有效的。在
相关问题 更多 >
编程相关推荐