由于维度不同，无法在scikitlearn中使用FeatureUnion

实施

我的FeatureUnion是按以下方式构建的：

features = FeatureUnion([ ('f1', Pipeline([ ('get', GetItemTransformer('f1')), ('transform', vectorizer_f1) ])), ('f2', Pipeline([ ('get', GetItemTransformer('f2')), ('transform', vectorizer_f1) ])) ])

GetItemTransformer用于从同一结构中获取数据的不同部分。这个想法在scikit学习问题跟踪器中描述了here。在

结构本身存储为{'f1': data_f1, 'f2': data_f2}，其中data_f1是不同长度的不同列表。在

2条回答

网友

1楼 · 编辑于 2024-10-01 11:30:46

以下是对我有效的方法：

class ArrayCaster(BaseEstimator, TransformerMixin):
  def fit(self, x, y=None):
    return self

  def transform(self, data):
    print data.shape
    print np.transpose(np.matrix(data)).shape
    return np.transpose(np.matrix(data))

FeatureUnion([('text', Pipeline([
            ('selector', ItemSelector(key='text')),
            ('vect', CountVectorizer(ngram_range=(1,1), binary=True, min_df=3)),
            ('tfidf', TfidfTransformer())
          ])
        ),

        ('other data', Pipeline([
            ('selector', ItemSelector(key='has_foriegn_char')),
            ('caster', ArrayCaster())
          ])
        )])

网友

2楼 · 编辑于 2024-10-01 11:30:46

我不知道这是否适用于你的问题，但我们在稍微不同的情况下遇到了同样的错误，就解决了。在

我们的f1条目是15个数值的列表，我们需要对f2执行tf idf。这就产生了关于不兼容行维度的相同错误。在

在调试器中运行它之后，我们发现在hstack()调用FeatureUnion:(2569,)和(2659, 706)时，矩阵的形状有细微的不同。在

如果我们将f1转换为2D numpy数组，则形状更改为(2659, 15)，并且hstack调用起作用。在

演员阵容是这样的：f1 = np.array(list(f1))。在

实施

问题

相关问题更多 >

编程相关推荐

热门问题

热门文章