PyTables处理的数据比内存大很多倍问题的回答

PyTables处理的数据比内存大很多倍

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图理解PyTables如何管理大于内存大小的数据。以下是PyTables（<a href="https://github.com/PyTables/PyTables/blob/develop/tables/file.py#L498" rel="nofollow">link to GitHub</a>）代码中的注释： <pre><code># Nodes referenced by a variable are kept in `_aliveNodes`. # When they are no longer referenced, they move themselves # to `_deadNodes`, where they are kept until they are referenced again # or they are preempted from it by other unreferenced nodes. </code></pre> 也可以在<a href="https://github.com/PyTables/PyTables/blob/develop/tables/file.py#L1024" rel="nofollow">_getNode</a>方法中找到有用的注释。 PyTables似乎有非常智能的IO缓冲系统，据我所知，它将用户引用的数据存储在快速RAM中作为“aliveNodes”，将之前和当前未引用的数据保存为“deadNodes”，以便在需要时快速“恢复”它，并且如果请求的密钥不存在于dead或alive类别中，则从磁盘读取数据。在 我需要一些专业知识来了解PyTables在处理比可用内存更大的数据时是如何处理这种情况的。我的具体问题： <ol> <li>死点/验证节点系统如何工作（普通图片）？在</li> <li>如果正确的话，aliveNodes/deadNodes都代表存储在RAM中的数据，那么它们之间的关键区别是什么？在</li> <li>缓冲RAM的限制可以手动调整吗？在注释下面，是从<code>params['NODE_CACHE_SLOTS']</code>读取值的代码。它能被用户指定吗？例如，如果我想为其他需要内存的应用程序保留一些RAM？在</li> <li>在什么情况下，PyTables在处理大量数据时会崩溃或显著减速数据的数量？在我的情况下，记忆可以超过100倍，在这种情况下，常见的陷阱是什么？在</li> <li>PyTables在大小、数据结构以及对被认为是“正确”的数据进行操作以获得最佳性能方面的用途是什么？在</li> <li><a href="http://pytables.github.com/usersguide/libref/structured_storage.html#tables.tableExtension.Row.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>" rel="nofollow">Docs suggests</a>在每个基本<code>.append()</code>循环后使用<code>.flush()</code>。这个周期到底能持续多久？我执行了一个小的基准测试，比较了SQLite和PyTables如何处理从大的CSV文件创建一个大表的键值对。当我在主循环中使用<code>.flush()</code>时，PyTables获得了巨大的加速。那么-正确吗，先<code>.append()</code>相对较大的数据块，然后使用<code>.flush()</code>？在</li> </ol>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

PyTables处理的数据比内存大很多倍

1 个回答

相关Python问题