在Python。威尔NoSql解决？

网友

1楼 · 编辑于 2024-06-01 07:08:24

如果这只是一个一次性的进程，那么您可能只需要设置一个具有超过1G内存的EC2节点，然后在那里运行python脚本。500万个条目并不多，一个Python字典应该可以处理它。我认为在这种情况下你不需要Hadoop。在

您还可以尝试通过多次运行重新排序项目来优化脚本，而不是使用迭代器在5个同步文件上运行，这样您就不必同时将所有内容保存在内存中。在

网友

2楼 · 编辑于 2024-06-01 07:08:24

如果CSV已经按id排序，则可以使用merge-join algorithm。它允许您迭代单行，所以您不必将所有内容都保存在内存中。在

不过，将该算法扩展到多个tables/CSV文件将是一个更大的挑战。（但可能比学习Hadoop之类的新东西更快）

网友

3楼 · 编辑于 2024-06-01 07:08:24

据我所知，你想合并来自5个输入文件的500000个项目。如果在一台机器上执行此操作，则可能需要较长时间来处理1g数据。所以我建议检查一下使用Hadoop的可能性。Hadoop是一个批处理工具。通常Hadoop程序是用Java编写的，但也可以用Python编写。在

我建议检查使用Hadoop在集群中处理数据的可行性。您可以使用HBase（列数据存储）来存储数据。这是一个想法，看看它是否适用于你的问题。在

如果这没有帮助，请提供一些有关您正在尝试解决的问题的详细信息。或者你可以用数据存储技术来解决任何问题。但是你需要找出哪一个解决问题最好（在时间或资源方面），以及你是否愿意使用/学习一个新的工具/db。在