什么是X和y列车？

1条回答

网友

1楼 · 发布于 2024-05-17 06:31:36

根据文件（见here）：

X对应于形状的浮点特征矩阵(n_samples, n_features)（又名。训练集的设计矩阵）
y是形状(n_samples,)的浮动目标向量（标签向量）。在您的例子中，标签0可以对应于垃圾邮件示例，而1则对应于ham示例

The question is now about how to get a float feature matrix from text data.

一个常见的方案是使用tf idf矢量化（关于这个here的更多信息），它在^{}中可用。

向量化可以通过sklearn的^{}API与logistic回归链接。

代码大致如下

from itertools import chain

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

import numpy as np

# prepare string data
with open('spam.txt', 'r') as f:
   spam = f.readlines()

with open('ham.txt', 'r') as f:
   ham = f.readlines()

text_train = list(chain(spam, ham))

# prepare labels
labels_train = np.concatenate((np.zeros(len(spam)),np.ones(len(ham))))

# build pipeline
vectorizer = TfidfVectorizer()
regressor = LogisticRegression()

pipeline = Pipeline([('vectorizer', vectorizer), ('regressor', regressor)])

# fit pipeline
pipeline.fit(text_train, labels_train)

# test predict
test = ["Is this spam or ham?"]
pipeline.predict(test) # value in [0,1]

相关问题更多 >

编程相关推荐

热门问题

热门文章

什么是X和y列车？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >