在sklearn中使用DictVectorizer后如何获得分类特征的重要性

# process numeric and categorical variables separately lsNumericColumns = [] lsCategoricalColumns = [] for col in dfTrainingSet.columns: if (dfTrainingSet[col].dtype == np.object): lsCategoricalColumns.append(col) else: lsNumericColumns.append(col) # numeric columns dfNumVariables = dfTrainingSet.loc[:, lsNumericColumns] dfNumVariables.fillna(0, inplace=True) arrNumVariables = dfNumVariables.as_matrix() # categorical columns dfCateVariables = dfTrainingSet.loc[:,lsCategoricalColumns] dfCateVariables.fillna('NA', inplace=True) vectorizer = DictVectorizer(sparse=False) arrCateFeatures = vectorizer.fit_transform(dfCateVariables.T.to_dict().values()) # setup training set arrX = np.concatenate((arrNumVariables,arrCateFeatures), axis=1) arrY = dfData['Y'].values

1条回答

网友

1楼 · 发布于 2024-10-01 22:25:39

您可以通过

zip(vectorizer.get_feature_names(), gbr.feature_importances_)

这给出了一个（feature，importance）对的列表，其中features的形式是'name=value'，而对于最初的数字特征，特征的形式是'name=value'。保证get_feature_names输出中的出现顺序与transform或{}输出中的顺序匹配。在

老实说，我不确定原始范畴的特征重要性；我会尝试取平均值，而不是求和。在

相关问题更多 >

编程相关推荐

热门问题

热门文章