无法序列化类org.apache.hadoop.io.DoubleWritableMongoDB Hadoop连接器+Spark+Python

config = {"mongo.input.uri": "mongodb://localhost:27017/marketdata.minbars"} inputFormatClassName = "com.mongodb.hadoop.MongoInputFormat" keyClassName = "org.apache.hadoop.io.Text" valueClassName = "org.apache.hadoop.io.MapWritable" minBarRawRDD = sc.newAPIHadoopRDD(inputFormatClassName, keyClassName, valueClassName, None, None, config) minBarRDD = minBarRawRDD.values() import calendar, time, math dateFormatString = '%Y-%m-%d %H:%M' groupedBars = minBarRDD.sortBy(lambda doc: str(doc["Timestamp"])).groupBy(lambda doc: (doc["Symbol"], math.floor(calendar.timegm(time.strptime(doc["Timestamp"], dateFormatString)) / (5*60)))) def ohlc(grouping): # some config["mongo.output.uri"] = "mongodb://localhost:27017/marketdata.fiveminutebars" outputFormatClassName = "com.mongodb.hadoop.MongoOutputFormat" # resultRDD.saveAsNewAPIHadoopFile("file:///placeholder", outputFormatClassName, None, None, None, None, config)

1条回答

网友

1楼 · 发布于 2024-10-01 17:26:07

通过在提交哈希上使用pymongo_spark，affad1b7上使用pymongo_spark。在

我将文件复制到我的项目中，并在python主脚本上添加了3行代码：

import pymongo_spark
pymongo_spark.activate()
...
# at the end of the script
resultRDD.saveToMongoDB(config["mongo.output.uri"])

您可以在github commit上看到完整的差异

https://github.com/danielsan/mongodb-analytics-examples/commit/f287620874038b2a491b50f48505c106299293fb

相关问题更多 >

编程相关推荐

热门问题

热门文章