python中的单词聚类列表

网友

1楼 · 编辑于 2024-05-02 14:14:09

如果你想根据单词的“语义相似性”（即它们的意思相似性）来对单词进行分类，那么看看Word2Vec和GloVe。Gensim有一个Word2Vec的实现。Radim Rehurek的这个网页"Word2Vec Tutorial"提供了一个使用Word2Vec来确定类似单词的教程。

网友

2楼 · 编辑于 2024-05-02 14:14:09

除了已经说过的关于相似性得分的内容之外，在集群应用程序中找到k通常还需要scree plots（也称为“肘曲线”）的帮助。在这些图中，通常可以测量y轴上的簇之间的分散度，以及x轴上的簇数量。在scree图中找到曲线的最小值（二阶导数）可以更客观地衡量簇的“唯一性”

网友

3楼 · 编辑于 2024-05-02 14:14:09

通过Brian O'Donnell来跟踪答案，一旦计算出与word2vec（或FastText或GLoVE，…）的语义相似性，就可以使用^{}对矩阵进行聚类。我发现对于小矩阵，谱聚类给出了最好的结果。

值得注意的是，单词向量通常嵌入在高维球体上。带有欧氏距离矩阵的K-means无法捕捉到这一点，并且可能会导致非近邻词的相似性较差。