如何使用pysp在cassandra数据上创建RDD对象

2024-10-01 17:39:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是cassandra2.0.3,我希望使用pyspark(apachesparkpythonapi)从cassandra数据创建RDD对象。在

请注意:我不想从pysparkapi导入CQL,然后再进行CQL查询,而是希望创建一个RDD,在该RDD上进行一些转换。在

我知道这可以在Scala中实现,但我无法从pyspark中找到如何做到这一点。在

如果有人能指导我的话,我真的很感激。在


Tags: 数据对象pyspark指导cassandrarddscalacql
2条回答

可能与你不再相关,但我在寻找同样的东西,却找不到我满意的东西。所以我做了一些工作:https://github.com/TargetHolding/pyspark-cassandra。在投入生产前需要进行大量的测试,但我认为集成工作非常好。在

我不确定你是否看过这个例子 https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_inputformat.py 我读过卡桑德拉的书时也用了类似的模式

相关问题 更多 >

    热门问题