分析tup中的文本

2024-09-30 22:22:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个包含博客帖子的元组，看起来像这样：

[('category1', 'blablablabla'), ('Category2', 'bla bla bla'), ('category1', 'blabla')].

现在我需要从中获得每个类别中最常见的单词，但是我无法在不丢失类别的情况下标记单词。对元组进行标记的标准方法失败了，我使用了nltk中的解析器和.split（）方法，但这两种方法都不适用于元组。有人能帮忙吗？你知道吗

Tags：方法标记解析器标准情况类别单词帖子

1条回答

网友

1楼 · 发布于 2024-09-30 22:22:31

假设有一个函数tokenize，在给定字符串时返回标记：

for cat, text in tuples:
    tokenized = tokenize(text)
    # now do whatever you want with the category and the tokenized text