从重新搜索索引中获取单词列表，按最常出现的单词排序

>>> from redisearch import Client, TextField >>> c = Client('common_words') >>> c.create_index((TextField('body'),)) b'OK' >>> c.add_document('ibiza', body='kevin paul dad') b'OK' >>> c.add_document('england', body='kevin dad') b'OK' >>> c.add_document('bank', body='kevin robber') b'OK'

>>> c.search('kevin') Result{3 total, docs: [Document {'id': 'bank', 'payload': None, 'body': 'kevin robber'}, Document {'id': 'england', 'payload': None, 'body': 'kevin dad'}, Document {'id': 'ibiza', 'payload': None, 'body': 'kevin paul dad'} ]}

1条回答

网友

1楼 · 发布于 2024-09-21 05:45:15

当前唯一的方法是使用聚合（https://oss.redislabs.com/redisearch/Aggregations.html）。你可以要求所有的结果，然后加载你感兴趣的字段，将句子除以'，'并计算每个短语出现的次数。查询将如下所示：

127.0.0.1:6379> FT.AGGREGATE idx * LOAD 1 @test APPLY "split(@test, ' ')" as s 
GROUPBY 1 @s REDUCE count 0 as count
1) (integer) 4
2) 1) s
   2) "paul"
   3) count
   4) "1"
3) 1) s
   2) "kevin"
   3) count
   4) "3"
4) 1) s
   2) "dad"
   3) count
   4) "2"
5) 1) s
   2) "robber"
   3) count
   4) "1"

注意：聚合的目的是聚合结果集。存在限制结果集大小的配置变量。一旦达到此限制，搜索查询将不会返回所有结果，聚合阶段也不会处理所有结果。可以配置其中一些变量来增加这些限制（例如MAXEXPANSIONS），但是如果您打算处理数百万个结果，您最终将达到这些限制（而且您的查询将需要很长时间才能完成）。正确的方法是使用比“*”更具体的查询来减少结果集，然后使用聚合在较小的结果集上执行额外的计算。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章