如何使用增量DeltaLake表提高合并操作的性能？

spark.sql(f""" CREATE OR REPLACE TABLE {TABLE_NAME} ( ID INT, FECHA_LOCAL TIMESTAMP, FECHA_UTC TIMESTAMP, TIPO STRING, VALUE DOUBLE, YEAR INT, MONTH INT, DAY INT ) USING DELTA PARTITIONED BY (YEAR , MONTH , DAY, TIPO) LOCATION '{location}' """)

spark.sql(f""" MERGE INTO {BASE_TABLE_NAME} USING {INCREMENTAL_TABLE_NAME} ON --partitioned cols {BASE_TABLE_NAME}.YEAR = {INCREMENTAL_TABLE_NAME}.YEAR AND {BASE_TABLE_NAME}.MONTH = {INCREMENTAL_TABLE_NAME}.MONTH AND {BASE_TABLE_NAME}.DAY = {INCREMENTAL_TABLE_NAME}.DAY AND {BASE_TABLE_NAME}.TIPO = {INCREMENTAL_TABLE_NAME}.TIPO AND {BASE_TABLE_NAME}.FECHA_LOCAL= {INCREMENTAL_TABLE_NAME}.FECHA_LOCALAND {BASE_TABLE_NAME}.ID= {INCREMENTAL_TABLE_NAME}.ID WHEN MATCHED THEN UPDATE SET {BASE_TABLE_NAME}.VALUE= {INCREMENTAL_TABLE_NAME}.VALUE, {BASE_TABLE_NAME}.TIPO= {INCREMENTAL_TABLE_NAME}.TIPO WHEN NOT MATCHED THEN INSERT * """)

mode = 'spark: // spark-master: 7077' # mode = 'local [*]' spark = (SparkSession.builder.master (mode) .appName ("SparkApp") .config ('spark.cores.max', '45') .config ('spark.executor.cores', '5') .config ('spark.executor.memory', '11g') .config ('spark.driver.memory', '120g') .config ("spark.sql.shuffle.partitions", f "200") # 200 only for 200GB delta table reads .config ("spark.storage.memoryFraction", f "0.8") # DeltaLake configs .config ("spark.jars.packages", "io.delta:delta-core_2.12:0.7.0") .config ("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") .config ("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") # Delta optimization .config ("spark.databricks.delta.optimizeWrite.enabled", "true") .config ("spark.databricks.delta.retentionDurationCheck.enabled", "false") .getOrCreate () )

1条回答

网友

1楼 · 发布于 2024-09-28 15:12:38

好吧，我选择分享这个答案，这样你可以利用一些技巧

Delta建议使用所有分区列，这样，由于“修剪”的效果，最终的数据搜索更少

因此，有必要确定合并可以更新数据的所有情况对增量数据进行查询以生成此类型的字典：

filter_columns = spark.sql (f "" "
SELECT
    YEAR,
    MONTH,
    DAY,
    COLLECT_LIST (DISTINCT TYPE) AS TYPES
Incremental FROM
GROUP BY YEAR, MONTH, DAY
ORDER BY 1, 2, 3
"" ") .toPandas ()

使用此df，可以生成合并必须更新/插入的条件：

[！[df按年、月、日、类型分组]1]1

然后它生成一个名为“final_cond”的字符串，如下所示：

dic = filter_columns.groupby (['YEAR', 'MONTH', 'DAY']) ['TYPE']. apply (lambda grp: list (grp.value_counts (). index)). to_dict ()
final_cond = ''
index = 0
for key, value in dic.items ():
    cond = ''
    year = key [0]
    month = key [1]
    day = key [2]
    variables = ','. join (["'" + str (x) + "'" for x in value [0]])
    or_cond = '' if index + 1 == len (dic) else '\ nOR \ n'
    
    cond = f "" "({BASE_TABLE_NAME} .YEAR == {year} AND {BASE_TABLE_NAME} .MONTH == {month} AND {BASE_TABLE_NAME} .DAY == {day} AND {BASE_TABLE_NAME}. TYPE IN ({variables} )) "" "
      
    final_cond = final_cond + cond + f '{or_cond}'
    index + = 1
    #break
    
print (final_cond)

[！[字符串条件]2]

最后，我们将这些条件添加到合并中：

...
WHEN MATCHED AND ({final_cond}) THEN
...

这个简单的“过滤器”减少了大型操作的合并时间

相关问题更多 >

编程相关推荐

热门问题

热门文章