擅长:python、mysql、java
<p>对于聚类,你需要某种距离测量。我建议使用汉明距离(见<a href="https://en.wikipedia.org/wiki/Hamming_distance" rel="nofollow">https://en.wikipedia.org/wiki/Hamming_distance</a>)。我认为用它来衡量两个词之间的相似性是很常见的。在</p>
<p>编辑:</p>
<p>对于你的例子来说这意味着</p>
<p>心脏病发作
心力衰竭=>距离7</p>
<p>心脏病发作
心碎=>距离6</p>
<p>心力衰竭
心碎=>距离7</p>
<p>心碎
香蕉=>距离12</p>