使用levenahtein将大文件群集到3组

0 - *Bras5emax Estates, L.T.D. :* Bras5emax Estates, L.T.D. 1 - *BOZEMAN Enterprises :* BBAZEMAX ESTATES, LTD , BOZEMAN Ent. , BOZEMAN Enterprises , BOZERMAN ENTERPRISES , BRAZEMAX ESTATYS, LTD , Bozeman Enterprises 2 - *PC Adelman :* John Smith , Michele LTD , Nadelman, Jr , PC Adelman 3 - *Gramkai, Inc. :* Gramkai Books , Gramkai, Inc. , Gramkat Estates, Inc., Gramkat, Inc.

0 - *Gramkai Books , Gramkai, Inc. , Gramkat Estates, Inc., Gramkat, Inc. :* 1 - *BBAZEMAX ESTATES, LTD , BOZEMAN Enterprises , BOZERMAN ENTERPRISES , BRAZEMAX ESTATYS, LTD , Bozeman Enterprises , Bras5emax Estates, L.T.D. :* 2 - *BOZEMAN Ent. , John Smith , Michele LTD , Nadelman, Jr , PC Adelman :*

import numpy as np import sklearn.cluster import distance f = open("names.txt", "r") words = f.readlines() words = np.asarray(words) #So that indexing with a list will work lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words]) affprop = sklearn.cluster.KMeans(n_clusters=3) affprop.fit(lev_similarity) for cluster_id in np.unique(affprop.labels_): print(cluster_id) cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)]) cluster_str = ", ".join(cluster) print(" - *%s:*" % ( cluster_str))

1条回答

网友

1楼 · 发布于 2024-06-27 09:18:16

可以通过几种方式改进给定文本名称（企业）的聚类

介绍一些文本清理和领域知识，例如删除圆点、常见企业停止字和降低字符：

words = [re.sub(r"(,|\.|ltd|l\.t\.d|inc|estates|enterprises|ent|estatys)","", w.lower()).strip() for w in words]

使用distance.levenshtein的“标准化”版本，以便可以有意义地比较距离，例如：

distance.nlevenshtein("abc", "acd", method=1)  # shortest alignment
distance.nlevenshtein("abc", "acd", method=2)  # longest alignment

尝试另一种距离度量：sorensen或jaccard，它们已经标准化

下面是完整的代码示例：

words = \
["Gramkai Books",
"Gramkai, Inc.",
"Gramkat Estates, Inc.",
"Gramkat, Inc.",
"BBAZEMAX ESTATES, LTD",
"BOZEMAN Enterprises",
"BOZERMAN ENTERPRISES",
"BRAZEMAX ESTATYS, LTD",
"Bozeman Enterprises",
"Bras5emax Estates, L.T.D.",
"BOZEMAN Ent.",
"John Smith",
"Michele LTD",
"Nadelman, Jr",
"PC Adelman"]

import re
import sklearn
from sklearn import cluster
words = [re.sub(r"(,|\.|ltd|l\.t\.d|inc|estates|enterprises|ent|estatys)","", w.lower()).strip() for w in words]
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.nlevenshtein(w1,w2,method = 1) for w1 in words] for w2 in words])
affprop = sklearn.cluster.KMeans(n_clusters=3)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    print(cluster_id)
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)
    print(" - *%s:*" % ( cluster_str))

结果:

0
 - *john smith, michele, nadelman jr, pc adelman:*
1
 - *bbazemax, bozeman, bozerman, bras5emax, brazemax:*
2
 - *gramkai, gramkai books, gramkat:*

最后，您可能需要将更改的名称与原始名称连接起来

相关问题更多 >

编程相关推荐

热门问题

热门文章