数据清理：在可变公司名称内分组 - 问答 - Python中文网

数据清理：在可变公司名称内分组

2024-10-04 05:23:49 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

因此，我们正在对连锁经营的养老院进行一些研究。我们有一份9000多家养老院的企业所有权清单。现在，如果我将这些数据合并到任何东西中，我认为这不会是一个太大的挑战，但我被要求对相互关联的设施进行分组，以便进行另一次分析。例如： ABCM ABCM公司 ABCM公司 ABCM公司

我已经删除了所有多余的空格，非字母数字的，并对所有内容进行了升级。只要想办法在90%的准确度内，我就能做到这一点。在同一个变量中，最重要的部分就是让我失望的部分。我有一些其他的细节，比如所有权、状态、zip等等。如果有帮助的话，我会使用STATA、SAS和Python

Tags：数据内容状态字母公司数字 zip 细节

1条回答

网友

1楼 · 发布于 2024-10-04 05:23:49

欢迎来到SO

从广义上讲，字符串匹配是一种痛苦，无论您使用的是什么软件，在大多数情况下都需要人工干预才能产生令人满意的结果

在Stata中，您可能需要尝试matchit（ssc install matchit）进行模糊字符串合并。我将不详细介绍（我建议您查看帮助文件，它的概述非常好），但该命令返回与多个相似项匹配的每个字符串-其中“相似”取决于所选的方法，您可以为保留或丢弃的相似性级别指定阈值

尽管有了以上所有的选择，最后一步还是取决于你：我的个人经验告诉我，无论你有多严格，你最终都会遇到一些“误报”，你必须自己解决

祝你好运

相关问题更多 >

编程相关推荐

热门问题

热门文章