分析tup中的文本

2024-09-30 22:22:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含博客帖子的元组,看起来像这样:

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].

现在我需要从中获得每个类别中最常见的单词,但是我无法在不丢失类别的情况下标记单词。 对元组进行标记的标准方法失败了,我使用了nltk中的解析器和.split()方法,但这两种方法都不适用于元组。 有人能帮忙吗?你知道吗


Tags: 方法标记解析器标准情况类别单词帖子
1条回答
网友
1楼 · 发布于 2024-09-30 22:22:31

假设有一个函数tokenize,在给定字符串时返回标记:

for cat, text in tuples:
    tokenized = tokenize(text)
    # now do whatever you want with the category and the tokenized text

相关问题 更多 >