擅长:python、mysql、java
<p>分类器本身不记录要素名称,只看到数字数组。但是,如果使用<code>Vectorizer</code>/<code>CountVectorizer</code>/<code>TfidfVectorizer</code>/<code>DictVectorizer</code>,<em>和</em>提取特征,则使用线性模型(例如<code>LinearSVC</code>或Naive Bayes),则可以应用<a href="http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html" rel="noreferrer">document classification example</a>使用的相同技巧。示例(<em>未测试的</em>可能包含一个或两个错误):</p>
<pre><code>def print_top10(vectorizer, clf, class_labels):
"""Prints features with the highest coefficient values, per class"""
feature_names = vectorizer.get_feature_names()
for i, class_label in enumerate(class_labels):
top10 = np.argsort(clf.coef_[i])[-10:]
print("%s: %s" % (class_label,
" ".join(feature_names[j] for j in top10)))
</code></pre>
<p>这是用于多类分类的;对于二进制情况,我认为应该只使用<code>clf.coef_[0]</code>。您可能需要对<code>class_labels</code>进行排序。</p>