擅长:python、mysql、java
<p>对于那些可能跟随的人:我最近发现了SnappyData。在</p>
<p>SnappyData还相当年轻,还有一些学习曲线,但它承诺要做的是创建一个持久的可变SQL集合,可以在多个Spark作业之间共享,并且可以作为RDD和DataFrame进行本机访问。它有一个作业服务器,您可以将并发作业转储到该服务器上。在</p>
<p>它本质上是GemFire内存数据库与位于同一个JVM中的Spark集群的组合,因此(当我能够很好地管理它时)我可以在没有单机瓶颈的情况下完成大型任务,也可以在另一个Spark程序在同一数据上运行时进行实时数据操作。在</p>
<p>我知道这是我自己的答案,但我可能不会把它标记为<em>答案,直到我变得足够成熟,对它如何解决我的问题有了自己的看法。在</p>