为什么在培训gensim doc2时使用TaggedBrownCorpus

2024-10-03 15:21:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前使用的自定义语料库,挥舞着标记的文件

class ClassifyCorpus(object):
    def __iter__(self):
        with open(train_data) as fp:
            for line in fp:
                splt = line.split(':')
                id = splt[0]
                text = splt[1].replace('\n', '')
                yield TaggedDocument(text.split(), [id])

查看Brown语料库的源代码,可以看到它只是从目录中读取,并为我处理文档的标记

我测试了一下,没有看到训练速度的提高


Tags: 文件text标记selfidobjectdefline
1条回答
网友
1楼 · 发布于 2024-10-03 15:21:53

你不应该使用TaggedBrownCorpus。它只是一个演示类,用于读取gensim中包含的用于单元测试和简介教程的特定小演示数据集

它以一种合理的方式处理磁盘上的数据格式,但是任何其他有效的方式将数据放入一个类似TaggedDocument的可重复的iterable序列中都是一样好的

因此,如果有帮助的话,可以随意将其用作模型,但不要将其视为需求或“最佳实践”

相关问题 更多 >