<p><strong>首先,</strong>操作系统有点混淆了相关性和相似性,区别很好,但值得注意。在</p>
<p><strong>语义相关性</strong>使用任何类型的关系来衡量两个概念之间的关联程度;算法:</p>
<ul>
<li>词汇链(Hirst和St Onge,1998)</li>
<li>自适应/扩展感知重叠算法(Banerjee和Pedersen,2002/2003)</li>
<li>矢量化意义重叠(Patwardhan,2003)</li>
</ul>
<p><strong>语义相似度</strong>只考虑IS-A关系(即上下义关系);算法:</p>
<ul>
<li>Wu-Palmer测度(Wu和Palmer 1994)</li>
<li>Resnik测量(Resnik 1995)</li>
<li>蒋康拉斯测度(Jiang and Conrath 1997)</li>
<li>Leacock-Chodorow测量(Leacock和Chodorow 1998)</li>
<li>林测量(林1998)</li>
</ul>
<p>Resnik、Jiang Conrath和Lin测度基于<strong>信息内容</strong>。一个语法集的信息内容是——记录该语法集中所有单词的所有概率(根据语料库频率计算)的总和(Resnik,1995)。在</p>
<p>Wu-Palmer和Leacock-Chodorow是基于路径长度的,两个概念/语法集之间的相似度分别是它们之间最短路径上的节点数。在</p>
<p>上面给出的列表是取之不尽的,但是从历史上看,我们可以看到,使用相似性度量有点过时,因为关联性算法考虑了更多的关系,理论上应该给比较概念更多的消歧能力。在</p>
<hr/>
<p><strong>其次,</strong>效率定义不明确。是速度还是精度?语义相关性/相似性将应用于哪个任务?在</p>
<p>如果任务是词义消歧(WSD),那么最好参考Warin(2004)的论文:<a href="http://goo.gl/6wWums" rel="nofollow noreferrer">http://goo.gl/6wWums</a>。或者更新的调查是Navigli(2009)<a href="http://dl.acm.org/citation.cfm?id=1459355" rel="nofollow noreferrer">http://dl.acm.org/citation.cfm?id=1459355</a></p>
<p>如果涉及到WSD,还有更复杂的工具/技术,请参考<a href="https://stackoverflow.com/questions/4613773/anyone-know-of-some-good-word-sense-disambiguation-software">Anyone know of some good Word Sense Disambiguation software?</a></p>
<hr/>
<p><strong>参考文献</strong></p>
<p>Satanjeev Banerjee和Ted Pedersen。2002一种基于WordNet的词义消歧自适应Lesk算法。《第三届计算语言学与智能文本处理国际会议论文集》(CICLing’02),Alexander F.Gelbukh(编辑)。Springer Verlag,伦敦,英国,英国,136-145。在</p>
<p>Satanjeev Banerjee和Ted Pedersen。2003扩展光泽度重叠作为语义相关性的度量。第十八届国际人工智能联席会议记录,第805-810页,阿卡普尔科。在</p>
<p>Graeme Hirst和David St Onge,1998年。词汇链作为语境的表征,用于检测和纠正不良反应,第13章,
第305-332页。麻省理工学院出版社,剑桥,马萨诸塞州。在</p>
<p>西达斯·帕特瓦尔汉。2003结合词典和语料库信息-
语义关联性的上下文向量量度。大学硕士论文
明尼苏达州。在</p>
<p>(懒得列出所有引文,请搜索此答案并适当附加)</p>