spaCy和scikitlearn vectoriz

import spacy from sklearn.feature_extraction.text import TfidfVectorizer class LemmaTokenizer(object): def __init__(self): self.spacynlp = spacy.load('en') def __call__(self, doc): nlpdoc = self.spacynlp(doc) nlpdoc = [token.lemma_ for token in nlpdoc if (len(token.lemma_) > 1) or (token.lemma_.isalnum()) ] return nlpdoc vect = TfidfVectorizer(tokenizer=LemmaTokenizer()) vect.fit(['Apples and oranges are tasty.']) print(vect.vocabulary_) ### prints {'apple': 1, 'and': 0, 'tasty': 4, 'be': 2, 'orange': 3}

spacynlp = spacy.load('en') class LemmaTokenizer(object): def __call__(self, doc): nlpdoc = spacynlp(doc) nlpdoc = [token.lemma_ for token in nlpdoc if (len(token.lemma_) > 1) or (token.lemma_.isalnum()) ] return nlpdoc

1条回答

网友

1楼 · 发布于 2024-10-04 03:23:59

为网格中的每个参数设置运行Spacy是在浪费时间。内存开销也非常大。您应该通过Spacy运行所有数据一次并将其保存到磁盘上，然后使用一个简化的向量器来读入经过词组化处理的数据。看看tokenizer、analyser和{}参数。有很多关于堆栈溢出的例子展示了如何构建一个自定义向量器。在

相关问题更多 >

编程相关推荐

热门问题

热门文章