我有两组索引,索引A和索引B。我需要在B.*中创建一个父子结构。B_*已经包含父文档,A_*包含子文档。因此,从本质上讲,我需要将子文档从A_*复制到B_*中,中间有一些逻辑,根据作为唯一键的几个字段的匹配,将子文档匹配到父文档。你知道吗
一个*包含大约40个索引,文档计数在1亿到2.5亿之间。每个索引在100-500GB之间。包含16个索引,每个索引有1500万个文档,每个文档大小为20GB。你知道吗
我尝试通过python脚本来实现这一点,主要逻辑如下:
doc_chunk = helpers.scan(self.es, index=some_index_from_A, size=4000, scroll='5m')
actions = self.doc_iterator(doc_chunk)
deque(helpers.parallel_bulk(self.es, actions, chunk_size=1000, thread_count=4))
函数doc_iterator滚动遍历助手.扫描并且,基于给定子文档中某些字段的值,确定该文档父级的id。对于每一个文档,它都会生成索引操作,将子文档索引到B.*中相应的父文档下。你知道吗
我尝试了几种不同的方法来创建这个父子索引,但似乎没有任何效果:
更多细节:
我需要想办法在尽可能少的几天内完成父子索引。任何提示,以解决我的上述尝试的问题将有所帮助,新的想法也欢迎。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐