在pythonnltk中使用自己的语料库进行分类

>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader >>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt') >>> len(reader.categories()) 234

1条回答

网友

1楼 · 发布于 2024-06-01 06:12:01

假设您想要一个朴素的Bayes分类器，它具有单词包功能：

from nltk import FreqDist
from nltk.classify.naivebayes import NaiveBayesClassifier

def make_training_data(rdr):
    for c in rdr.categories():
        for f in rdr.fileids(c):
            yield FreqDist(rdr.words(fileids=[f])), c

clf = NaiveBayesClassifier.train(list(make_training_data(reader)))

得到的clf的classify方法可以用于任何FreqDist的单词。在

（但请注意：从你的cap_pattern看来，你的语料库中每个文件都有一个样本和一个类别。请检查一下这是否真的是你想要的。）

编程相关推荐

Frida Java windows的逆向工程
Java术语中的对象初始化
java在何处放置maven参数化junit输入xml文件
java如何在Swift中创建以日期为键、布尔值为值的字典/地图？
java Velocity动态属性访问
java Maven站点我如何找到它们？
java JavaFX按钮在显示阶段时显示为选中状态
文件io字符串方法java赋值
java为SOAP头生成证书
java Android更改EditText的setError弹出消息的背景色

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pythonnltk中使用自己的语料库进行分类

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >