如何在scikitlearn中使用字符串内核？

2条回答

网友

1楼 · 编辑于 2024-10-01 15:44:40

这是scikit learn中一个很难消除的限制。你可以试试this workaround。只使用一个特征来表示特征向量中的字符串，这实际上只是字符串表的一个索引。在

>>> data = ["foo", "bar", "baz"]
>>> X = np.arange(len(data)).reshape(-1, 1)
>>> X
array([[0],
       [1],
       [2]])

重新定义字符串内核函数以处理此表示：

^{pr2}$

{cd1>下一步就是对新样本进行分类，然后添加新的样本。在

>>> data.extend(["bla", "fool"])
>>> clf.predict([[3], [4]])
array(['yes', 'no'], 
      dtype='|S3')

（可以通过对伪特性进行更多的解释来解决这个问题，例如，查看i >= len(X_train)的不同表。但还是很麻烦。）

这是一种难看的方法，但它是有效的（对于集群来说它稍微不那么难看，因为在那里数据集在fit之后没有改变）。我代表scikit learn开发人员说，欢迎提供一个修补程序来适当地修复此问题。在

网友

2楼 · 编辑于 2024-10-01 15:44:40

我认为shogun库可以是解决方案，也是免费和开源的，我建议回顾一下这个例子：https://github.com/shogun-toolbox/shogun/tree/develop/src/shogun/kernel/string