PySpark中的地址规范化与匹配

2024-09-29 21:23:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用PySpark中的两个大型数据库,我必须通过属性组合将它们连接起来:其中一个是地址。我不能使用地理编码,因为数据太大,无法使用免费的地理编码工具,所以我要做的是基于地址的相似性度量(以及两个数据集的其他属性之间的相等性)进行连接。这里我的第一个问题是您的建议,因为现在我关注的是levenshtein距离(可以在spark SQL中使用),我不知道在更多单词的上下文中性能如何。总是关于levenshtein,是最好删除单词之间的所有空格还是保留它们

第二,我必须准备加入的地址,我想将它们规范化(街道->;街,大道->;大道,折叠前…),所以我想知道您是否知道我可以使用的这些转换的在线列表(不仅仅是用英文写的地址)


Tags: 工具数据gt数据库编码属性度量地址

热门问题