我有一个从dynamoDB导出数据到S3的粘合工作。你知道吗
但我没有启用任何胶水作业书签。现在,当我在Athena中运行一个查询时,我看到S3中有重复的数据条目。你知道吗
无重复项:
select count(distinct(createdat)) from layer2sessions;
Result : 130
带副本:
SELECT id, COUNT(id)
FROM layer2sessions
GROUP BY id
HAVING COUNT(id) > 1;
Result :
1 3c502774-85dd-4659-b9e9-57548 332
2 c3cc0893-a7fb-40fd-8642-8864f 498
3 42862b3b-0db2-4408-ac31-019a5 332
4 505ea15d-dd8c-44b1-86b5-7defe 2278
我怎样才能纠正这个问题?我可以从S3中删除副本吗?或者用胶水做书签呢?这有用吗?或者我可以从另一个给出不同行的Athena查询在Athena中创建一个表吗?我该如何阻止胶水作业的进一步重新运行向S3添加更多的副本呢?有人知道答案吗?你知道吗
您可以轻松地从雅典娜的现有表创建新表。 您可以根据需要更改所提到的格式
athena_ctas_support
athena-create-table-as
相关问题 更多 >
编程相关推荐