使用SGD分类器部分拟合方法的增量/在线学习

vectorizer = CountVectorizer() tfidf_transformer = TfidfTransformer() X_train = vectorizer.fit_transform(datafile_train.loc[:,'description']) X_train_tfidf = tfidf_transformer.fit_transform(X_train) clf = linear_model.SGDClassifier(penalty='l2',loss='hinge') prd=clf.partial_fit(X_train_tfidf, datafile_train.loc[:,'taxonomy_id'],classes=np.unique(datafile_train.loc[:,'taxonomy_id']))

vectorizer = CountVectorizer() tfidf_transformer = TfidfTransformer() X_train1 = vectorizer.fit_transform(datafile_train1.loc[:,'description']) X_train_tfidf1 = tfidf_transformer.fit_transform(X_train1) prd1=clfp.partial_fit(X_train_tfidf1, datafile_train1.loc[:,'taxonomy_id']) # here clfp is previously trained data which is unpickled

hashing = HashingVectorizer() X_train_hashing=hashing.fit_transform(datafile_train.loc[:,'description']) clf = linear_model.SGDClassifier(penalty='l2',loss='hinge') prd=clf.partial_fit(X_train_hashing, datafile_train.loc[:,'taxonomy_id'],classes=np.unique(datafile_train.loc[:,'taxonomy_id'])) def store(prd): import pickle filename = "inc" f = open(filename, 'wb') pickle.dump(prd, f) f.close() store(prd) def train_data(): import pickle f = open('inc', 'rb') classifier = pickle.load(f) f.close() return classifier clfp=train_data()

X_train_hashing1=hashing.transform(datafile_train1.loc[:,'description']) prd1=clfp.partial_fit(X_train_hashing1, datafile_train1.loc[:,'taxonomy_id']) def store(prd1): import pickle timestr = time.strftime("%Y%m%d-%H%M%S") filename = "Train-" + timestr +".pickle" f = open(filename, 'wb') pickle.dump(prd1, f) f.close() store(prd1)

1条回答

网友

1楼 · 发布于 2024-09-29 23:26:26

我不认为节省的模型大小应该增加太多或根本没有。在

模型不存储发送到partial_fit()的全部新数据，只根据该数据更新其属性。这些属性一旦根据它们的类型（float32, float64等）分配了一些存储空间，那么不管它们的值是多少，它们都将占用大量空间。在

在SGD分类器中会改变的显著属性是：-在

coef_ : array, shape (1, n_features) if n_classes == 2 else (n_classes, n_features) Weights assigned to the features.
intercept_ : array, shape (1,) if n_classes == 2 else (n_classes,) Constants in decision function.

因此，当您初始化模型时，它们要么未分配，要么全部初始化为0。一旦您将第一个数据传递给partial_fit()，这些值将根据试图最小化预测损失的数据进行更新。在

当您传递新数据时，这些值将再次更新，但它们仍占用指定给其类型的相同存储空间（float32, float64等）。在

所以这就是保存的模型没有改变尺寸的原因。在

相关问题更多 >

编程相关推荐

热门问题

热门文章