数据清理:在可变公司名称内分组

2024-10-04 05:23:49 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在,如果我将这些数据合并到任何东西中,我认为这不会是一个太大的挑战,但我被要求对相互关联的设施进行分组,以便进行另一次分析。 例如: ABCM ABCM公司 ABCM公司 ABCM公司

我已经删除了所有多余的空格,非字母数字的,并对所有内容进行了升级。只要想办法在90%的准确度内,我就能做到这一点。在同一个变量中,最重要的部分就是让我失望的部分。我有一些其他的细节,比如所有权、状态、zip等等。如果有帮助的话,我会使用STATA、SAS和Python


Tags: 数据内容状态字母公司数字zip细节
1条回答
网友
1楼 · 发布于 2024-10-04 05:23:49

欢迎来到SO

从广义上讲,字符串匹配是一种痛苦,无论您使用的是什么软件,在大多数情况下都需要人工干预才能产生令人满意的结果

在Stata中,您可能需要尝试matchitssc install matchit)进行模糊字符串合并。我将不详细介绍(我建议您查看帮助文件,它的概述非常好),但该命令返回与多个相似项匹配的每个字符串-其中“相似”取决于所选的方法,您可以为保留或丢弃的相似性级别指定阈值

尽管有了以上所有的选择,最后一步还是取决于你:我的个人经验告诉我,无论你有多严格,你最终都会遇到一些“误报”,你必须自己解决

祝你好运

相关问题 更多 >