擅长:python、mysql、java
<p>通过<a href="https://stackoverflow.com/a/41982675/249341">Brian O'Donnell</a>来跟踪答案,一旦计算出与<a href="https://radimrehurek.com/gensim/models/word2vec.html" rel="nofollow noreferrer">word2vec</a>(或<a href="https://github.com/facebookresearch/fastText" rel="nofollow noreferrer">FastText</a>或<a href="https://github.com/maciejkula/glove-python" rel="nofollow noreferrer">GLoVE</a>,…)的语义相似性,就可以使用<a href="http://scikit-learn.org/stable/modules/clustering.html" rel="nofollow noreferrer">^{<cd1>}</a>对矩阵进行聚类。我发现对于小矩阵,谱聚类给出了最好的结果。</p>
<p>值得注意的是,单词向量通常嵌入在高维球体上。带有欧氏距离矩阵的K-means无法捕捉到这一点,并且可能会导致非近邻词的相似性较差。</p>