擅长:python、mysql、java
<p>对文本进行聚类是很困难的,而且大多数方法都不能很好地工作。聚类单个单词本质上需要大量的背景知识。在</p>
<p>如果你有较长的文本,你可以用它们的共同点来衡量相似性。在</p>
<p>但对于单个词来说,这种方法并不奏效。在</p>
<p>考虑:</p>
<ul>
<li>苹果</li>
<li>香蕉</li>
<li>橙色</li>
<li>梨</li>
<li>豌豆</li>
</ul>
<p>对于一个懂得很多的人来说,苹果和梨应该是最相似的两个。对于只有这3到6字节的字符串数据的计算机来说,pear和pea是最相似的单词。在</p>
<p>你看:语言是关于背景知识和联想的。如果一台计算机不能同时将“苹果”和“梨”与“生长在树上的水果联系起来,通常是绿色的,内部是白色的,中间是黑色的种子,顶部是一个手掌大小的果实”,那么计算机就无法识别它们的共同点,因此无法将它们聚集在一起。在</p>