在词汇词典上训练用于情感分析的数据集时，精确度非常低

2024-09-27 21:29:23 发布

男 | 程序猿一只，喜欢编程写python代码。

我下载了一个.txt文件，其中包含1000个单词，每个单词都有一个标签，标明正数或负数价值观价值越低，它代表的情感就越丰富。它看起来像：-

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

我将第一列命名为word，将第二列命名为column。我正在用以下方法训练它：

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

现在的问题是，由于每个单词只出现一次，所以在未训练部分预测单词的标签是完全没有意义的，因为未训练部分的单词与训练部分的单词没有关系部分。所以呢，正如所料，我变得非常low accuracy。所以，如何使用预定义的词汇词典进行情感分析？你知道吗

Tags：文件 test txt df train 标签单词命名

0条回答

目前没有回答

在词汇词典上训练用于情感分析的数据集时，精确度非常低

相关问题更多 >

编程相关推荐

热门问题

热门文章

在词汇词典上训练用于情感分析的数据集时，精确度非常低

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >