使用带有sp的Jupyter笔记本时内存不足

i=0 count = 0 var_name = [] schema = StructType([]) df1 = sqlContext.createDataFrame(sc.emptyRDD(), schema) df1_ocurrences = sqlContext.createDataFrame(sc.emptyRDD(), schema) df1_count = sqlContext.createDataFrame(sc.emptyRDD(), schema) df1_merged = sqlContext.createDataFrame(sc.emptyRDD(), schema) df1_complete = sqlContext.createDataFrame(sc.emptyRDD(), schema) FINAL = sqlContext.createDataFrame(sc.emptyRDD(), schema) for file in os.listdir('/resources/data/test_variables/'): df1 = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("/resources/data/test_variables/"+file) #SKIP SERIES WITH ONLY 0s count = df1.groupBy().sum("Bit_value") if count.select("sum(Bit_value)").collect()[0][0] == 0: continue # i+=1 # AGGREGATION df1 = df1.withColumn("Interval", ((df1.Timestamp.cast("long") / 1).cast("long") * 1).cast("timestamp")) # COUNT 1s df1_ocurrences = df1.groupBy("Interval").sum("Bit_value").sort("Interval") df1_ocurrences = df1_ocurrences.withColumnRenamed("sum(Bit_value)", "Sum_df1") # COUNT TOTAL df1_count = df1.groupBy("Interval").count().sort("Interval") df1_count = df1_count.withColumnRenamed("count", "Total_df1") # MERGING df1_merged = df1_ocurrences.join(df1_count, ["Interval"]).sort("Interval") var_name = file.split(".") df1_complete = df1_merged.withColumn(var_name[0], df1_merged.Sum_df1 / df1_merged.Total_df1) df1_complete = df1_complete.drop('Sum_df1') df1_complete = df1_complete.drop('Total_df1') #FINAL DATAFRAME if i == 1: FINAL = df1_complete else: FINAL = FINAL.join(df1_complete, ["Interval"]).sort("Interval")

1条回答

网友

1楼 · 发布于 2024-10-05 10:18:47

花费在GC上的时间太长，释放的内存太少：https://developer.ibm.com/hadoop/2016/02/16/beginners-guide-apache-spark-troubleshooting/ 除了上述文章中的建议，在jypter中对我有用的是：

spark = SparkSession.builder \
    .appName("GBT Model") \
    .config("spark.executor.memory", "2000mb") \
    .master("local[*]") \
    .config("spark.executor.cores", "4") \
    .config("spark.yarn.executor.memoryOverhead",200) \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

注意火花纱线执行器.memoryOverhead设置为执行器内存的10%。在

相关问题更多 >

编程相关推荐

热门问题

热门文章