因此,我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在,如果我将这些数据合并到任何东西中,我认为这不会是一个太大的挑战,但我被要求对相互关联的设施进行分组,以便进行另一次分析。
例如:
ABCM
ABCM公司
ABCM公司
ABCM公司
我已经删除了所有多余的空格,非字母数字的,并对所有内容进行了升级。只要想办法在90%的准确度内,我就能做到这一点。在同一个变量中,最重要的部分就是让我失望的部分。我有一些其他的细节,比如所有权、状态、zip等等。如果有帮助的话,我会使用STATA、SAS和Python
Tags:
欢迎来到SO
从广义上讲,字符串匹配是一种痛苦,无论您使用的是什么软件,在大多数情况下都需要人工干预才能产生令人满意的结果
在Stata中,您可能需要尝试
matchit
(ssc install matchit
)进行模糊字符串合并。我将不详细介绍(我建议您查看帮助文件,它的概述非常好),但该命令返回与多个相似项匹配的每个字符串-其中“相似”取决于所选的方法,您可以为保留或丢弃的相似性级别指定阈值尽管有了以上所有的选择,最后一步还是取决于你:我的个人经验告诉我,无论你有多严格,你最终都会遇到一些“误报”,你必须自己解决
祝你好运
相关问题 更多 >
编程相关推荐