擅长:python、mysql、java
<p>您需要为文档提供一些标识符。在查询中包含<code>_id</code>字段可能是个好主意,这样您就有了一个唯一的文档标识符。然后可以创建<code>ids</code>和{<cd3>}的并行列表。在</p>
<pre><code>docs = collection.find({}, {'tag_data': 1, '_id': 1})
ids = [doc['_id'] for doc in docs]
tags = [doc['tag_data'] for doc in docs]
</code></pre>
<p>然后对标记数据调用cluster函数。在</p>
^{pr2}$
<p>并且<code>zip</code>结果返回<code>ids</code>。在</p>
<pre><code>doc_clusters = zip(ids, clusters)
</code></pre>
<p>从这里开始,您已经构建了<code>(_id, cluster)</code>的元组,这样就可以更新mongo文档上的集群标签。在</p>