在python中聚类相似的单词，然后将聚类映射成数字问题的回答

在python中聚类相似的单词，然后将聚类映射成数字

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我熟悉k-均值聚类数据点，但不熟悉文本。。所以我有一列cvs格式的单词（有些行只有一个单词，有些行有更多等等），我想把那些有相似单词或更多单词的列进行聚类，然后将这些簇映射到数字作为索引，这些索引号需要作为第二列添加。我知道python中有scipy包和word2vec，但这是我第一次处理集群文本。。有什么办法吗？？任何代码示例都将不胜感激 在编辑：什么我想要的不是意思上相似的词，我要的是相似的一样的确切的文字，例如：我们有三个词在不同的三行：心脏病发作，心力衰竭，心碎。。例如。。我希望这些行在一个簇中，因为它们有一个共同的词“心脏。。。顺便说一句，所有的行都是以某种方式相互连接的，所以我真正想要的是把准确的单词聚集在一起 <pre><code>from csv import DictReader import sets ### converting my cvs file into list!! with open("export.csv") as f: my_list = [row["BASE_NAME"] for row in DictReader(f)] #print(my_list) ## having every word in the cvs file Set = list() for item in my_list: MySet = list(set(item.split(' '))) Set.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(MySet) #print(Set) cleanlist = [] [cleanlist.append(x) for x in Set if x not in cleanlist] print(cleanlist[1]) #print(cleanlist) ###my_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456'] #for item in my_list: for i in xrange(len(cleanlist)): # matching = [s for s in my_list if cleanlist[i] in s] # matching = [x for x in my_list if cleanlist[i] in x] matching = any( cleanlist[[i]] in item for item in my_list) print(matching) </code></pre> 我的列表示例是<code>['Carbon Monoxide (Blood)', 'Carbon Monoxide Poisoning', 'Carbonic anhydrase inhibitor administered']</code> cleanlist的示例是<code>[['Antibody', 'Cardiolipin'], ['Cardiomegaly'], ['Cardiomyopathy'], ['Cardiopulmonary', 'Resuscitation', '(CPR)'], ['Diet', 'Cardiovascular'], ['Disease', 'Cardiovascular']]</code> 解决了[现在我有问题了，我的cleanlist不是每个索引只包含一个项，这使得匹配比较困难，如何解决这个问题？？]在 ？？？？另外，我想为每次比较创建一个列表，因此对于每个干净列表的比较，我想创建一个列表，其中包含它们之间相似的单词，，，有什么帮助吗？？在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在python中聚类相似的单词，然后将聚类映射成数字

1 个回答

相关Python问题