用于数据处理的低端GPU与中端CPU

import dask.dataframe as dd # read raw data, repartition, convert to parquet for both file raw_reff = dd.read_csv('data/a.csv') raw_reff = raw_reff.map_partitions(lambda df: df.assign(PartGroup=df['Hier1']+df['Hier2'])) raw_reff = raw_reff.set_index('PartGroup') raw_reff.to_parquet("data/raw_a.parquet") cost_reff = dd.read_csv('data/b.csv') cost_reff = cost_reff.map_partitions(lambda df: df.assign(PartGroup=df['Hier1']+df['Hier2'])) cost_reff = cost_reff.set_index('PartGroup') cost_reff.to_parquet("data/raw_b.parquet") # create reference ratio ratio_reff = dd.read_parquet("data/raw_a.parquet").reset_index() #to push down ram usage, instead of dask groupby im using groupby on each partition. Should be ok since its already partitioned above on each group ratio_reff = ratio_reff.map_partitions(lambda df: df.groupby(['PartGroup'])['value'].sum().reset_index()) ratio_reff = ratio_reff.set_index('PartGroup') ratio_reff = ratio_reff.map_partitions(lambda df: df.rename(columns={'value':'value_on_group'})) ratio_reff.to_parquet("data/reff_a.parquet")

raw_data = dd.read_parquet("data/raw_a.parquet").reset_index() reff_data = dd.read_parquet("data/reff_a.parquet").reset_index() ratio_data = raw_data.merge(reff_data, on=['PartGroup'], how='left') ratio_data['RATIO'] = ratio_data['value'].fillna(0)/ratio_data['value_on_group'].fillna(0) ratio_data = ratio_data[['PartGroup','Hier3','RATIO']] ratio_data = ratio_data.set_index('PartGroup') ratio_data.to_parquet("data/ratio_a.parquet")

reff_stg = dd.read_parquet("data/ratio_a.parquet").reset_index() cost_stg = dd.read_parquet("data/raw_b.parquet").reset_index() final_stg = reff_stg.merge(cost_stg, on=['PartGroup'], how='left') final_stg['allocated_cost'] = final_stg['RATIO']*final_stg['cost'] final_stg = final_stg.set_index('PartGroup') final_stg.to_parquet("data/result_pass1.parquet")

1条回答

网友

1楼 · 发布于 2024-09-30 01:29:57

@同上，不幸的是，这无法用您当前的硬件完成。您的K620具有开普勒架构GPU，并且低于激流的最低要求。你需要一张帕斯卡卡或更好的卡才能跑急流。好消息是，如果购买与RAPIDS兼容的视频卡不是可行的选择，那么有许多便宜的云资源调配选项。老实说，你要做的是，我想要一点额外的GPU处理速度，并建议使用多GPU设置

对于比GPU RAM更大的数据集，可以使用dask_cudf来处理数据集。我们的文档和笔记本中有几个例子。请注意，dask.compute（）之后的结果数据集需要能够适应GPU RAM

https://rapidsai.github.io/projects/cudf/en/0.12.0/10min.html#10-Minutes-to-cuDF-and-Dask-cuDF

https://rapidsai.github.io/projects/cudf/en/0.12.0/dask-cudf.html#multi-gpu-with-dask-cudf

一旦你能建立起一个可工作的、快速兼容的多GPU并使用dask_cudf，你就应该在加速的同时得到一个非常值得的结果，特别是对于这种规模的数据探索

希望这有帮助

相关问题更多 >

编程相关推荐

热门问题

热门文章