如何在使用IPython笔记本时管理复杂性?

2024-09-28 19:24:27 发布

您现在位置:Python中文网/ 问答频道 /正文

假设您使用的是一个大型数据集,分布在一堆CSV文件上。你打开一个IPython笔记本,浏览一些东西,做一些转换,重新排序和清理数据。你知道吗

然后你开始用这些数据做一些实验,创建更多的笔记本,最后发现自己堆满了一堆不同的笔记本,里面埋着数据转换管道。你知道吗

如何以这样的方式组织数据探索/转换/从it过程中学习:

  • 复杂性不吹,渐增
  • 保持代码库的可管理性和可导航性
  • 能够重现和调整数据转换管道吗?你知道吗

Tags: 文件csv数据代码管道排序过程ipython
1条回答
网友
1楼 · 发布于 2024-09-28 19:24:27

好吧,在处理大量数据时,我时不时会遇到这个问题。复杂性是我学会的生活方式,有时很难保持简单。你知道吗

我认为对我有很大帮助的是把所有的东西都放在一个GIT存储库中,如果你管理得好并且经常提交写得好的消息,你就可以很容易地跟踪数据的转换。你知道吗

每次我做一些测试时,我都创建一个新的分支并对其进行操作。如果没有进展,我就回到我的主分支,继续从那里工作,但我所做的工作仍然可以作为参考,如果我需要的话。你知道吗

如果它带来了一些有用的东西,我就把它合并到我的主分支中,继续进行新的测试,根据需要创建新的分支。你知道吗

我不认为它能回答你所有的问题,也不知道你是否已经在笔记本中使用了某种版本控制,但这对我有很大帮助,我真的建议你在使用jupyter笔记本时使用它。你知道吗

相关问题 更多 >