2024-09-30 22:22:31 发布
网友
我有一个包含博客帖子的元组,看起来像这样:
[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].
现在我需要从中获得每个类别中最常见的单词,但是我无法在不丢失类别的情况下标记单词。 对元组进行标记的标准方法失败了,我使用了nltk中的解析器和.split()方法,但这两种方法都不适用于元组。 有人能帮忙吗?你知道吗
假设有一个函数tokenize,在给定字符串时返回标记:
tokenize
for cat, text in tuples: tokenized = tokenize(text) # now do whatever you want with the category and the tokenized text
假设有一个函数
tokenize
,在给定字符串时返回标记:相关问题 更多 >
编程相关推荐