擅长:python、mysql、java
<p>我只给我的“短”2美分。正式文件完全可以让你开始。您可能需要指定这不起作用的原因,也就是说,内存是否用完了(也许您只需要增加“驱动程序”的内存),或者是否存在导致示例无法工作的特定错误。如果你能提供这个例子,那就更好了。在</p>
<p>以下是我的一些观点/经历。通常,不总是这样,但大多数情况下,分区中有多个列。您不必总是将所有数据加载到一个表中,您可以或多或少地将处理(大部分时间)保持在单个分区内。由于数据是在一个分区内排序的,所以这通常进行得相当快。没有出现任何重大问题。在</p>
<p>如果你不想让卡桑德拉的整个商店都去做你的处理,你真的有很多解决办法。基本上那就是quora材料。以下是一些比较常见的:</p>
<ol>
<li>立即在应用程序中进行处理-可能需要某种实例间通信框架,比如更好的akka集群的hazelcast这真是一个广泛的话题</li>
<li>spark streaming——只需在微批处理中立即进行处理,并刷新结果以读取到某个持久层——可能是cassandra</li>
<li>ApacheFlink-使用适当的流式处理方案,定期将进程状态刷新到cassandra</li>
<li>将数据存储到cassandra中,以它应该被读取的方式-这种方法是最有建议的(只是很难说你提供的信息)</li>
<li>名单可能会越来越多。。。cassandra中的用户定义函数,如果任务更简单,则聚合函数。在</li>
</ol>
<p>提供一些关于用例的细节也是个好主意。我在这里所说的或多或少是相当笼统和含糊的,但是再把这些都放在评论中是没有意义的。</p>