Stanford NLP解析器对Kaggle Movie revi中使用的同一语句给出了不同的结果(情感)

2024-05-03 04:38:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在进行Kaggle电影情感分析,我发现电影评论已经用Standford解析器进行了解析。 在研究数据集时,我发现相同的语句给出了不同的设置-

their parents , wise folks that they are ,  2
their parents , wise folks that they are    3

Genuinely unnerving .   3
Genuinely unnerving 1

其中英语是解析的数据,数字属于情感。 现在如果你检查一下这行,逗号和一个点是不同的,其余的是相同的,但都属于不同的情感,这给我分类带来了很多麻烦。在

在文本分类中,我应该怎么做才能避免这样的问题,如果我忽略了重复,使用已经添加的情感,我的分类就大错特错了,那么应该如何解决这种情况呢。在


Tags: 数据that电影评论分类are情感their
1条回答
网友
1楼 · 发布于 2024-05-03 04:38:40

我假设您使用的是一袋单词,逗号和点是您的特性之一(您的X矩阵中的一列)。在

+            -+     -+     -+  +
|    Document/Features    | Genuinely | unnerving | .  |
+            -+     -+     -+  +
|  Genuinely unnerving .  |         1 |         1 | 1  |
|  Genuinely unnerving    |         1 |         1 | 0  |
+            -+     -+     -+  +

一个理想的算法应该知道这些特征是否相关。例如,在Logistic回归的情况下,你的算法会给相应的列分配一个非常小的权重,因此该列中的10不会改变预测结果。所以你会有这样的东西:

^{pr2}$

在你的情况下,他们似乎有一些小的影响。这真的是个问题吗?你发现了一些特殊情况,如果它看起来是错误的,但是通过查看数据,算法发现有点的句子比没有点的句子更负。也许你应该相信,从统计学上讲,一个点可以改变一个句子的意思。在

它也可能发生,你有坏的训练数据或一个坏的过度拟合模型。如果你真的认为有什么不对劲,那么你可以把这些知识强加在模型上,通过表现句子使它们无法区分,例如忽略一些标点符号。在

我认为一次去掉所有的标点符号是错误的,例如一个!可以代表非常积极的情绪,如果你把它从你的句子中去掉,你将隐藏有价值的信息。但可能恰恰相反,!在大多数情况下是负的,因此在训练后它得到了很高的负权重,这使得预测{}类句子的模型变得混乱。在本例中,您可以将您的句子表示为双元组,这样模型就可以分别加权单个!(yes, !)组合的效果。在

所以在简历中,你应该试着用不同的模型和方法来表达你的数据,看看什么是有效的。在

相关问题 更多 >