如何使用Kmeans进行分类

2条回答

网友

1楼 · 编辑于 2024-05-18 02:53:06

K-means算法适用于数字数据，因此处理文本时的关键步骤是将文本转换为可用于聚类的数字表示

有许多方法可以将文本表示为数字（从简单的字数到复杂的算法），选择取决于您的时间和经验

简单步骤如下：

文本预处理（去除坏字符）
文本矢量化（将文本转换为数字）
分类（你的K-均值步骤）

我建议阅读一篇教程，因为在聚类之前有很多步骤会对结果产生很大的影响，例如文本清理和向量化，这些步骤可以更好地深入进行

如果你想快点完成的话

from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer

sentences =  ["I didn't enjoyed the film", "the weather is nice", "The food was great last night", "our dog if very friendly"]
vectorizer = TfidfVectorizer(stop_words='english',
                             use_idf=True)

X = vectorizer.fit_transform(sentences)
km = KMeans(n_clusters=2)
km.fit(X)
print(list(zip(sentences, km.labels_)))

这会聚集在一起，但由于单词数量较少，它可能不会显示任何有趣的内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Kmeans进行分类

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >