亲和力传播聚类中的最小匹配剪枝

2024-09-29 17:23:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在对一个类似公司名称的列表进行聚类(例如,返回“Google Inc.”作为“Google Switzerland AG”、“Google Ventures Ltd.”、“Google France SA”等的示例),并决定使用Jaccard similarity作为成对相似性度量进行亲和性传播,迄今为止效果良好。你知道吗

不过,问题是,关联传播返回“全面的”(不确定这是否是正确的术语)集群;每个数据点都与一个示例相关联。这导致一些不太接近的匹配与一个范例相关联(例如,即使“Apple”与任何其他公司名称不接近,“Apple”仍将与一个范例相对应。你知道吗

从视觉上看,我想要完成的类似于排除本例中最远的数据点:

enter link description here

最好的办法是什么?我是否应该重新运行每个示例/示例集中的Jaccard相似性,并排除不好的匹配?你知道吗


Tags: 数据名称示例apple列表google公司聚类

热门问题