用(i)python脚本从jupyter内核获取输出

2024-10-05 15:23:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在一个ipython会话中打开几个内核,在这些内核上运行代码,然后收集结果。但我不知道如何收集结果,甚至无法查看stdout/stderr。我怎么能做这些事?在

到目前为止我得到了什么

我用如下代码管理了前两个步骤(打开内核并在其上运行代码):

from jupyter_client import MultiKernelManager
kernelmanager = MultiKernelManager()
remote_id = kernelmanager.start_kernel('python3')
remote_kernel = kernelmanager.get_kernel(remote_id)
remote = remote_kernel.client()
sent_msg_id = remote.execute('2+2')

[我欢迎任何关于如何改进这一点或如何关闭这些内核和客户端的建议。]

这里,python3可以是我设置的任何内核的名称(可以在命令行中用jupyter-kernelspec list列出)。我似乎可以运行任何合理的代码来代替'2+2'。例如,我可以写一个文件,而这个文件真的被创建了。在

现在的问题是如何得到结果。我能得到一些似乎与

^{pr2}$

这是一本这样的字典:

{'buffers': [],
 'content': {'execution_count': 2,
  'payload': [],
  'status': 'ok',
  'user_expressions': {}},
 'header': {'date': datetime.datetime(2015, 10, 19, 14, 34, 34, 378577),
  'msg_id': '98e216b4-3251-4085-8eb1-bfceedbae3b0',
  'msg_type': 'execute_reply',
  'session': 'ca4d615d-82b7-487f-88ff-7076c2bdd109',
  'username': 'me',
  'version': '5.0'},
 'metadata': {'dependencies_met': True,
  'engine': '868de9dd-054b-4630-99b7-0face61915a6',
  'started': '2015-10-19T14:34:34.265718',
  'status': 'ok'},
 'msg_id': '98e216b4-3251-4085-8eb1-bfceedbae3b0',
 'msg_type': 'execute_reply',
 'parent_header': {'date': datetime.datetime(2015, 10, 19, 14, 34, 34, 264508),
  'msg_id': '2674c61a-c79a-48a6-b88a-1f2e8da68a80',
  'msg_type': 'execute_request',
  'session': '767ae562-38d6-41a3-a9dc-6faf37d83222',
  'username': 'me',
  'version': '5.0'}}

这在Messaging in Jupyter中有记录。没有被记录的是如何实际使用它——例如,我使用哪些函数,何时何地可以找到消息,等等。我已经看到了this question及其答案,其中包含有用的相关信息,但并不能完全帮助我找到答案。而且this answer也没有得到任何有用的输出。在

因此,例如,我也尝试使用上面的结果中给出的msg_id来获取msg,但它只是挂起了。我已经尝试了我能想到的一切,但是不知道如何从内核中获取任何东西。我该怎么做?我可以用某种字符串从内核传输回数据吗?我能看看它的stdout和stderr吗?在

背景

我正在编写一个ipython魔术来在远程内核上运行代码片段。[编辑:这个现在已经存在并且可以使用here.]我的想法是在我的笔记本电脑上有一个笔记本,通过一个像这样的小魔法细胞从几个远程服务器收集数据:

%%remote_exec -kernels server1,server2
2+2
! hostname

我使用^{}轻松自动地连接到那些远程内核。这似乎运行得很好;我的魔法命令运行得很好,打开这些远程内核并运行代码。现在,我想从遥控器中获取一些数据,并将其发送回我的笔记本电脑——大概是通过某种方式将其序列化。目前,我认为^{}和{a7}非常适合这一部分;我只需要从一个内核到另一个内核获取这些函数创建和使用的字节。我宁愿不使用实际的文件进行酸洗,尽管这可能是可以接受的。在

编辑:

看起来像这样的怪物是有可能的:

remote.get_shell_msg(remote.execute('import pickle'))
sent_msg_id = remote.execute('a=2+2', user_expressions={'output':'pickle.dumps({"a":a})'})
reply = remote.get_shell_msg(sent_msg_id)
output_bytes = reply['content']['user_expressions']['output']['data']['text/plain']
variable_dict = pickle.loads(eval(output_bytes))

现在,variable_dict['a']就是4。但是请注意,output_bytes是一个代表这些字节的字符串,因此它必须是evaled的。这看起来很荒谬(而且仍然没有显示我如何获得stdout)。有更好的方法吗?我怎么得到stdout?在

编辑2:

尽管我对上面的方法不满意,但我已经成功地用它编写了一个名为^{}的小模块,托管在github上,如上所述。这个模块给了我一些ipython魔力,我可以用它在一个或多个其他内核上远程运行代码。这是一个或多或少自动化的过程,我肯定很满意——除了对下面发生的事情的喋喋不休的了解。在


Tags: 代码idoutputexecutegetdatetime远程remote
2条回答

我的问题可能还不够清楚,但我的主要用例是在多台远程机器(使用大量并行代码计算数据的集群)上运行一些代码,这样我就可以在远程存储的大型数据集上运行相当简单的命令,只需最少的配置。为此,ipyparallel不起作用。我基本上要重写代码才能使用它。相反,我的模块^{}非常完美,允许我简单地添加集群的名称和工作目录,但在其他方面使用与本地使用的代码完全相同的代码。在

你好像在重新发明轮子。你不想自己管理内核。使用类似于ipyparallel的东西,它是制造的来产生许多内核并分散/收集数据(基本上你是在重新发明它的工作方式)。您可能还对dask感兴趣并阅读one introduction from the author。IPyparallel和dask的作者们正在共同努力,使2个项目能够很好地相互配合。 不要管理内核,而是使用ipyparallel。在

相关问题 更多 >