为什么在培训gensim doc2时使用TaggedBrownCorpus

class ClassifyCorpus(object): def __iter__(self): with open(train_data) as fp: for line in fp: splt = line.split(':') id = splt[0] text = splt[1].replace('\n', '') yield TaggedDocument(text.split(), [id])

1条回答

网友

1楼 · 发布于 2024-10-03 15:21:53

你不应该使用TaggedBrownCorpus。它只是一个演示类，用于读取gensim中包含的用于单元测试和简介教程的特定小演示数据集

它以一种合理的方式处理磁盘上的数据格式，但是任何其他有效的方式将数据放入一个类似TaggedDocument的可重复的iterable序列中都是一样好的

因此，如果有帮助的话，可以随意将其用作模型，但不要将其视为需求或“最佳实践”

编程相关推荐

试图从数组返回的列表中删除时出现java UnsupportedOperationException。asList
JAVA搜索列表字段
Java将布尔[]转换为十进制
为什么这个循环会在Java中反转字符串
Arraylist索引计算java
java如何在不知道值的情况下选择selenium中的复选框
Java如何在for循环中使用getter？
java不希望下载和检索XML
java读取csv文件，并在值本身中指定分隔符
java如何使字符串在循环中第二次不可用？

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么在培训gensim doc2时使用TaggedBrownCorpus

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >