我正在使用Yake(另一个关键字提取器)从数据帧中提取关键字。
我只想提取bigram和trigram,但是Yake只允许设置最大ngram大小,而不允许设置最小大小。你将如何移除它们
示例df.head(0):
正文:
“是的,是的,我咕哝着说,语言的转变现在已经悬而未决了。”
关键词:
“[('oui',0.04491197687864554),
(“语言过渡”,0.09700399286574239),
('mumbled',0.1583169277998726)]”
我想从关键字栏中删除oui、MUMMED和他们的分数
谢谢你抽出时间
Tags:
如果您的问题是关键字列表包含一些花押字,您可以简单地执行一个过滤器,忽略没有空格的单词并创建一个新列表。我给你举个例子:
如果需要处理Yake的Monogram大小写,只需将输出通过一个过滤器,该过滤器仅在该元组的第一个元素中有空格或该元素的str.split()导致多个子元素时,才会将n-gram添加到结果列表中。如果您正在使用一个函数并将其应用于数据帧,请将此步骤包括在该函数中
相关问题 更多 >
编程相关推荐