我尝试使用Pyspark(Python+Spark)将数据存储到acumulo中。现在我正在使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递到SparkContext来将数据写入Accumulo。我想知道有没有更好的办法。我已经看到了Cassandra和HBase输出格式的示例,并想知道是否可以对acumulo执行类似的操作。Cassandra和HBase似乎在使用saveAsNewAPIHadoopdataset(conf、keyConv、valueConv)函数并传递一个config dict、一个keyconverter和一个valueconverter。对于Accumulo要传递给saveAsNewAPIHadoopDataset()的对应值,有人知道吗?在
猜猜看,我不知道它是怎么工作的,你需要这样的东西
为了获得完整的属性列表,我将运行一个普通的MapReduce示例(http://accumulo.apache.org/1.7/examples/mapred.html)并查看配置值。在
相关问题 更多 >
编程相关推荐