擅长:python、mysql、java
<p>由于各种原因,标准的k-means算法并不直接适用于分类数据。分类数据的样本空间是离散的,没有自然起源。在这样的空间上,欧几里德距离函数,或者说曼哈顿距离函数,并没有真正的意义。红色、黄色、橙色、蓝色和绿色之间的“距离”是多少?你可能想考虑使用一种叫做“余弦相似性”的技术。余弦相似性是一种度量标准,用于度量多个文本字符串,甚至整个文档的相似程度,而不考虑其大小。从数学上讲,它测量在多维空间中投影的两个向量之间的夹角的余弦。余弦相似性是有利的,因为即使两个相似的文档之间的距离远达欧几里德距离(由于文档的大小),它们仍然可能朝向更近的方向。角度越小,余弦相似性越高</p>
<p>这里有几个链接可以帮助你</p>
<p><a href="https://www.machinelearningplus.com/nlp/cosine-similarity/" rel="nofollow noreferrer">https://www.machinelearningplus.com/nlp/cosine-similarity/</a></p>
<p><a href="https://sites.temple.edu/tudsc/2017/03/30/measuring-similarity-between-texts-in-python/" rel="nofollow noreferrer">https://sites.temple.edu/tudsc/2017/03/30/measuring-similarity-between-texts-in-python/</a></p>