用python计算200k弦的levenshtein距离

2024-06-26 03:32:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我有20万以上的名字和姓氏记录的MongoDB数据库。你知道吗

如何优化添加新记录的过程,如果在插入之前我想计算所有200k+记录的levinstein距离,并且仅在其高于垃圾桶时进行插入以避免冲突(这意味着,由于一些翻译错误,新记录的名称和姓氏可能会略有不同,但仍然是同一个人)。你知道吗

关于人的数据是从不同的来源获取的,所以我希望同一个人的信息不要被复制和分散在数据库中。你知道吗


Tags: 数据名称信息数据库距离过程mongodb错误