Stanford NLP解析器对Kaggle Movie revi中使用的同一语句给出了不同的结果（情感）

1条回答

网友

1楼 · 发布于 2024-05-03 04:38:40

我假设您使用的是一袋单词，逗号和点是您的特性之一（您的X矩阵中的一列）。在

+            -+     -+     -+  +
|    Document/Features    | Genuinely | unnerving | .  |
+            -+     -+     -+  +
|  Genuinely unnerving .  |         1 |         1 | 1  |
|  Genuinely unnerving    |         1 |         1 | 0  |
+            -+     -+     -+  +

一个理想的算法应该知道这些特征是否相关。例如，在Logistic回归的情况下，你的算法会给相应的列分配一个非常小的权重，因此该列中的1或0不会改变预测结果。所以你会有这样的东西：

^{pr2}$

在你的情况下，他们似乎有一些小的影响。这真的是个问题吗？你发现了一些特殊情况，如果它看起来是错误的，但是通过查看数据，算法发现有点的句子比没有点的句子更负。也许你应该相信，从统计学上讲，一个点可以改变一个句子的意思。在

它也可能发生，你有坏的训练数据或一个坏的过度拟合模型。如果你真的认为有什么不对劲，那么你可以把这些知识强加在模型上，通过表现句子使它们无法区分，例如忽略一些标点符号。在

我认为一次去掉所有的标点符号是错误的，例如一个!可以代表非常积极的情绪，如果你把它从你的句子中去掉，你将隐藏有价值的信息。但可能恰恰相反，!在大多数情况下是负的，因此在训练后它得到了很高的负权重，这使得预测{}类句子的模型变得混乱。在本例中，您可以将您的句子表示为双元组，这样模型就可以分别加权单个!和(yes, !)组合的效果。在

所以在简历中，你应该试着用不同的模型和方法来表达你的数据，看看什么是有效的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章