火花和卡桑德拉穿越Python

2条回答

网友

1楼 · 编辑于 2024-10-04 09:25:42

你试过文档中的例子了吗。在

 spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load().show()

网友

2楼 · 编辑于 2024-10-04 09:25:42

我只给我的“短”2美分。正式文件完全可以让你开始。您可能需要指定这不起作用的原因，也就是说，内存是否用完了（也许您只需要增加“驱动程序”的内存），或者是否存在导致示例无法工作的特定错误。如果你能提供这个例子，那就更好了。在

以下是我的一些观点/经历。通常，不总是这样，但大多数情况下，分区中有多个列。您不必总是将所有数据加载到一个表中，您可以或多或少地将处理（大部分时间）保持在单个分区内。由于数据是在一个分区内排序的，所以这通常进行得相当快。没有出现任何重大问题。在

如果你不想让卡桑德拉的整个商店都去做你的处理，你真的有很多解决办法。基本上那就是quora材料。以下是一些比较常见的：

提供一些关于用例的细节也是个好主意。我在这里所说的或多或少是相当笼统和含糊的，但是再把这些都放在评论中是没有意义的。