删除非二元或三元(Yake)的关键字

2024-10-08 18:23:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Yake(另一个关键字提取器)从数据帧中提取关键字。 我只想提取bigram和trigram,但是Yake只允许设置最大ngram大小,而不允许设置最小大小。你将如何移除它们

示例df.head(0):

正文: “是的,是的,我咕哝着说,语言的转变现在已经悬而未决了。”

关键词: “[('oui',0.04491197687864554), (“语言过渡”,0.09700399286574239), ('mumbled',0.1583169277998726)]”

我想从关键字栏中删除oui、MUMMED和他们的分数

谢谢你抽出时间


Tags: 数据语言示例df关键字head关键词分数
2条回答

如果您的问题是关键字列表包含一些花押字,您可以简单地执行一个过滤器,忽略没有空格的单词并创建一个新列表。我给你举个例子:

keywords_without_unigrams = []
for kw in keywords:
    if(' ' in kw[0]):
        keywords_without_unigrams.append(kw)
 

for kw in keywords_without_unigrams:
    print(kw)

如果需要处理Yake的Monogram大小写,只需将输出通过一个过滤器,该过滤器仅在该元组的第一个元素中有空格或该元素的str.split()导致多个子元素时,才会将n-gram添加到结果列表中。如果您正在使用一个函数并将其应用于数据帧,请将此步骤包括在该函数中

相关问题 更多 >

    热门问题