我想像scikit学习示例silhouette_analysis那样计算剪影得分。在
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(use_idf=True)
sampleText = []
sampleText.append("Some text for document clustering")
tfidf_matrix = tfidf_vectorizer.fit_transform(sampleText)
如何转换tfidf_矩阵以执行以下操作:
^{pr2}$
tf-idf是多维的,必须减少到二维。这可以通过将tf-idf减少到方差最大的两个特性来实现。我用PCA来减少tf idf。完整的例子:
相关问题 更多 >
编程相关推荐