如何将字符串中的ngram和词频转换为向量，以建立SVN模型。

1条回答

网友

1楼 · 发布于 2024-05-19 01:44:38

好吧，我第一次尝试回答堆栈溢出问题。。。在

你的问题有点含糊，所以我会尽我所能回答它。这听起来像是在问如何在构建SVN模型之前准备好文本，特别是如何对文本输入进行词法化，计算词频，以及从给定的字符串创建n个单词。在

import nltk
from collections import Counter
from nltk import ngrams
from nltk.stem import WordNetLemmatizer


# lowercase, remove punctuation, and lemmatize string
def word_generator(str):
    wnl = WordNetLemmatizer()
    clean = nltk.word_tokenize(str)
    words = [wnl.lemmatize(word.lower()) for word in clean if word.isalpha()]
    for word in words:
        yield word


# create list of freqs
def freq_count(str):
    voc_freq = Counter()
    for word in word_generator(str):
        voc_freq[word] += 1
    trimmed = sorted(voc_freq.items(), reverse=True, key=lambda x: x[1])
    return trimmed


# create n-grams
def make_ngrams(str, n):
    grams = ngrams([word for word in word_generator(str)], n)
    return list(grams)

示例4克输出：

^{pr2}$

然后你可以做任何你想做的事情，比如创建向量。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将字符串中的ngram和词频转换为向量，以建立SVN模型。

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >