我下载了一个.txt文件,其中包含1000个单词,每个单词都有一个标签,标明正数或负数价值观价值越低,它代表的情感就越丰富。 它看起来像:-
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
我将第一列命名为word
,将第二列命名为column
。
我正在用以下方法训练它:
vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)
现在的问题是,由于每个单词只出现一次,所以在未训练部分预测单词的标签是完全没有意义的,因为未训练部分的单词与训练部分的单词没有关系部分。所以呢,正如所料,我变得非常low accuracy
。所以,如何使用预定义的词汇词典进行情感分析?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐