擅长:python、mysql、java
<p>这是无监督学习中的一个难题。它通常被称为主题建模。可以从运行LDA(潜在Dirichlet分配)算法开始。我建议使用<code>gensim</code>包来实现这一点。不要对所有的数据都运行它,一开始就取2-5万个文档。在您有了初始分类器之后,在数百万个文档中,您只选择了那些被分类为属于某个类且概率高于某个阈值的文档。再训练一下LDA。这会给你更好的分离类。重新分类你的数据。在</p>
<p>LDA算法以“软”的方式对文档进行分类,因此每个文档都有一定的概率属于您的100个类中的每一个。但通常,那些同时属于多个类的概率很高的类被严重分类。在</p>
<p>你可以做到这一切,而不涉及人类的标签。在</p>