当标题值随时间变化时,数百个AWS计费数据CSV文件的数据可视化

2024-09-27 21:22:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在开发一个数据可视化仪表板在Tableau与数以百计的CSV文件在AWS S3桶,每天都会产生新的文件。 为了实现这一点并加快进程,我将文件加载到AWS Redshift DB中。CSV文件有新的列,有时以前存在的列不会出现在传入的文件中。为了处理这个问题,我修改了我的代码来读取和比较标题,如果有新的标题出现,它将改变表,添加新的列。你知道吗

然而,我面临的问题是:

  1. CSV文件头的值会随着时间的推移而变化,即如果列的当前值是'cost',则在下个月'cost'列可能不存在,但它会按值'Blended Cost'映射到一个新列。你知道吗
  2. 只有当标题位置与表中的列位置匹配时,复制Redshift命令才起作用。但是,对于这样的动态文件,匹配列位置是不可行的。我正在探索Dynamo DB选项来解决这个问题。你知道吗

处理这种情况最好的方法是什么?如有任何推荐,我们将不胜感激。你知道吗


Tags: 文件csv数据代码aws标题redshiftdb

热门问题