如何从S3 bucket中删除由Glue Job填充的重复值

2024-05-22 09:37:16 发布

您现在位置：Python中文网/ 问答频道 /正文

4335

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个从dynamoDB导出数据到S3的粘合工作。你知道吗

但我没有启用任何胶水作业书签。现在，当我在Athena中运行一个查询时，我看到S3中有重复的数据条目。你知道吗

无重复项：

select count(distinct(createdat)) from layer2sessions;
Result : 130

带副本：

SELECT id, COUNT(id) 
FROM layer2sessions
GROUP BY id
HAVING COUNT(id) > 1; 
Result :

1   3c502774-85dd-4659-b9e9-57548   332
2   c3cc0893-a7fb-40fd-8642-8864f   498
3   42862b3b-0db2-4408-ac31-019a5   332
4   505ea15d-dd8c-44b1-86b5-7defe   2278

我怎样才能纠正这个问题？我可以从S3中删除副本吗？或者用胶水做书签呢？这有用吗？或者我可以从另一个给出不同行的Athena查询在Athena中创建一个表吗？我该如何阻止胶水作业的进一步重新运行向S3添加更多的副本呢？有人知道答案吗？你知道吗

Tags：数据 id s3 count 作业副本条目 result

1条回答

网友

1楼 · 发布于 2024-05-22 09:37:16

您可以轻松地从雅典娜的现有表创建新表。您可以根据需要更改所提到的格式

CREATE TABLE DB_NAME.table_name
WITH (
  format='TEXTFILE'
) AS
SELECT * FROM select distinct(createdat) from "DB"."layer2sessions";

athena_ctas_support

athena-create-table-as

如何从S3 bucket中删除由Glue Job填充的重复值

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从S3 bucket中删除由Glue Job填充的重复值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >