用python为文本分类管道生成PMML

from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from sklearn.linear_model import SGDClassifier from sklearn2pmml import PMMLPipeline categories = [ 'alt.atheism', 'talk.religion.misc', ] print("Loading 20 newsgroups dataset for categories:") print(categories) data = fetch_20newsgroups(subset='train', categories=categories) print("%d documents" % len(data.filenames)) print("%d categories" % len(data.target_names)) Textpipeline = PMMLPipeline([ ('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', SGDClassifier()), ]) Textpipeline.fit(data.data, data.target) from sklearn2pmml import sklearn2pmml sklearn2pmml(Textpipeline, "TextMiningClassifier.pmml", with_repr = True)

1条回答

网友

1楼 · 发布于 2024-05-19 20:54:31

您需要使用PMML兼容的文本标记化函数。默认实现是类sklearn2pmml.feature_extraction.text.Splitter：

from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn2pmml.feature_extraction.text import Splitter
vectorizer = TfidfVectorizer(analyzer = "word", token_pattern = None, tokenizer = Splitter())

更多的细节和参考可以在JPMML邮件列表中找到：https://groups.google.com/forum/#!topic/jpmml/wi-0rxzUn1o

相关问题更多 >

编程相关推荐

热门问题

热门文章