在词汇词典上训练用于情感分析的数据集时,精确度非常低

2024-09-27 21:29:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我下载了一个.txt文件,其中包含1000个单词,每个单词都有一个标签,标明正数或负数价值观价值越低,它代表的情感就越丰富。 它看起来像:-

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

我将第一列命名为word,将第二列命名为column。 我正在用以下方法训练它:

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

现在的问题是,由于每个单词只出现一次,所以在未训练部分预测单词的标签是完全没有意义的,因为未训练部分的单词与训练部分的单词没有关系部分。所以呢,正如所料,我变得非常low accuracy。所以,如何使用预定义的词汇词典进行情感分析?你知道吗


Tags: 文件testtxtdftrain标签单词命名

热门问题