如何预测训练数据集之外的数据

import re import numpy as np import pandas as pd from sklearn.naive_bayes import MultinomialNB from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import CountVectorizer from sklearn.preprocessing import LabelEncoder from sklearn.metrics import accuracy_score def normalize_text(s): s = s.lower() s = re.sub('\s\W',' ',s) s = re.sub('\W\s',' ',s) s = re.sub('\s+',' ',s) return(s) df['TEXT'] = [normalize_text(s) for s in df['Full_Address']] vectorizer = CountVectorizer() x = vectorizer.fit_transform(df['TEXT']) encoder = LabelEncoder() y = encoder.fit_transform(df['CountryName']) x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2) nb = MultinomialNB() nb.fit(x_train, y_train) y_predicted = nb.predict(x_test) accuracy_score(y_test, y_predicted)

nb.predict('1100 112th Ave NE #400, Bellevue, WA 98004, United States') ValueError: Expected 2D array, got scalar array instead: array=1100 112th Ave NE #400, Bellevue, WA 98004, United States. Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

nb.predict([['1100 112th Ave NE #400, Bellevue, WA 98004, United States']]) ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 82043 is different from 1)

2条回答

网友

1楼 · 编辑于 2024-10-02 04:20:48

使用：

nb.predict([['1100 112th Ave NE #400, Bellevue, WA 98004, United States']])

predict方法需要一个数组

网友

2楼 · 编辑于 2024-10-02 04:20:48

要进行预测，您需要通过所有预处理步骤传递数据，以训练模型：

single_address = '1100 112th Ave NE #400, Bellevue, WA 98004, United States'
normalized_address = normalize_text(single_address)
vectorized_address = vectorizer.transform([normalized_address])
#expected output
nb.predict(vectorized_address)

注意：改进代码的两种方法：

normalize_text步骤实际上并不必要，因为它所做的一切都将被CountVectorizer的标记器regextoken_pattern='(?u)\\b\\w\\w+\\b'和lowercase=True捕获
将所有预处理保持在sklearnPipeline中。这样，您的代码将更干净，更不容易出错（而且您肯定会避免像以前那样的错误）

工作[canonical？]模板如何实现：

from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline

X = 30*['1100 112th Ave NE #400, Bellevue, WA 98004, United States']
y = 10*['US','France','Germany']

le = LabelEncoder()
y = le.fit_transform(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

vectorizer = CountVectorizer()
mnb = MultinomialNB()

ppl = Pipeline(steps=[('vectorizer',vectorizer),('mnb',mnb)])

ppl.fit(X_train, y_train)
single_address = '1100 112th Ave NE #400, Bellevue, WA 98004, United States'
ppl.predict([single_address])

拥有Pipeline的额外好处是，您可以通过GridSearchCV传递它，以便通过交叉验证选择最佳参数

相关问题更多 >

编程相关推荐

热门问题

热门文章