scikitlearn机器学习算法的实现

test_file = 'RawTweetdataset/SmallSample.csv' #test_file = 'RawTweetDataset/Dataset.csv' sample_tweets = 'SampleTweets/FlumeData2.txt' csv_file = csv.DictReader(open(test_file, 'rb'), delimiter=',', quotechar='"') tweetsDict = {} for line in csv_file: tweetsDict.update({(line['SentimentText'],line['Sentiment'])}) tweets = [] labels = [] shortenedText = "" for (text, sentiment) in tweetsDict.items(): text = HTMLParser.HTMLParser().unescape(text.decode("cp1252", "ignore")) exclude = set(string.punctuation) for punct in string.punctuation: text = text.replace(punct,"") cleanedText = [e.lower() for e in text.split() if not e.startswith(('http', '@'))] shortenedText = [e.strip() for e in cleanedText if e not in exclude] text = ' '.join(ch for ch in shortenedText if ch not in exclude) tweets.append(text.encode("utf-8", "ignore")) labels.append(sentiment) vectorizer = TfidfVectorizer(input='content') X = vectorizer.fit_transform(tweets) y = labels classifier = MultinomialNB().fit(X, y) X_test = vectorizer.fit_transform(sample_tweets) y_pred = classifier.predict(X_test)

all_files = glob.glob (tweet location) for filename in all_files: with open(filename, 'r') as file: for line file.readlines(): X_test = vectorizer.transform([line]) y_pred = classifier.predict(X_test) print line print y_pred

2条回答

网友

1楼 · 编辑于 2024-09-29 21:55:22

问题在于：

X_test = vectorizer.fit_transform(sample_tweets)

fit_transform旨在对训练集而不是测试集调用。在测试集上，调用transform。在

另外，sample_tweets是一个文件名。在将其传递给矢量器之前，您应该打开它并阅读其中的tweets。如果你这样做了，那么你最终应该能够做一些

^{pr2}$

网友

2楼 · 编辑于 2024-09-29 21:55:22

要在TextBlob中执行此操作（如注释中所述），您可以这样做

from text.blob import TextBlob

tweets = ['This is tweet one, and I am happy.', 'This is tweet two and I am sad']

for tweet in tweets:
    blob = TextBlob(tweet)
    print blob.sentiment #Will return (Polarity, Subjectivity)

相关问题更多 >

编程相关推荐

热门问题

热门文章