如何从S3 bucket中删除由Glue Job填充的重复值

2024-05-22 09:37:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个从dynamoDB导出数据到S3的粘合工作。你知道吗

但我没有启用任何胶水作业书签。现在,当我在Athena中运行一个查询时,我看到S3中有重复的数据条目。你知道吗

无重复项:

select count(distinct(createdat)) from layer2sessions;
Result : 130

带副本:

SELECT id, COUNT(id) 
FROM layer2sessions
GROUP BY id
HAVING COUNT(id) > 1; 
Result :

1   3c502774-85dd-4659-b9e9-57548   332
2   c3cc0893-a7fb-40fd-8642-8864f   498
3   42862b3b-0db2-4408-ac31-019a5   332
4   505ea15d-dd8c-44b1-86b5-7defe   2278

我怎样才能纠正这个问题?我可以从S3中删除副本吗?或者用胶水做书签呢?这有用吗?或者我可以从另一个给出不同行的Athena查询在Athena中创建一个表吗?我该如何阻止胶水作业的进一步重新运行向S3添加更多的副本呢?有人知道答案吗?你知道吗


Tags: 数据ids3count作业副本条目result
1条回答
网友
1楼 · 发布于 2024-05-22 09:37:16

您可以轻松地从雅典娜的现有表创建新表。 您可以根据需要更改所提到的格式

CREATE TABLE DB_NAME.table_name
WITH (
  format='TEXTFILE'
) AS
SELECT * FROM select distinct(createdat) from "DB"."layer2sessions";

athena_ctas_support

athena-create-table-as

相关问题 更多 >