如何在每个Spark执行器中加载无法pickle的数据？

global trie def get_match(text): # 1. Load trie if needed global trie try: trie except NameError: from noaho import NoAho trie = NoAho() trie.add(key_text='ms windows', payload='Windows 2000') trie.add(key_text='ms windows 2000', payload='Windows 2000') trie.add(key_text='windows 2k', payload='Windows 2000') ... # 2. Find an actual match to get they payload back return trie.findall_long(text)

1条回答

网友

1楼 · 发布于 2024-10-02 00:41:43

您可以尝试使用单例模块来加载和初始化trie。基本上，您只需要一个单独的模块，其中包含以下内容：

trie_loader.py

from noaho import NoAho

def load():
    trie = NoAho()
    trie.add('ms windows', 'Windows 2000')
    trie.add('ms windows 2000', 'Windows 2000')
    trie.add('windows 2k', 'Windows 2000')
    return trie

trie  = load()

并使用标准Spark工具分发：

^{pr2}$

这应该在每次启动Python进程执行器时加载所需的数据，而不是在访问数据时加载它。我不确定它是否能帮上忙，但值得一试。在

相关问题更多 >

编程相关推荐

热门问题

热门文章