如何将一个巨大的数据集加载到googledatalab中

2024-10-05 10:02:25 发布

您现在位置：Python中文网/ 问答频道 /正文

7787

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用googlebigquery在googledatalab中查询一个大型数据集（c1m行，5.7GB）。查询运行了很长时间，最终似乎被执行了。当尝试将结果放入pandas表时，代码将永远运行

我尝试过使用内存更大的VM（而不是n1-standard-1，我尝试了n1-standard-2）。当我输入LIMIT 100时，代码会执行，但这并不好，因为我需要将数据聚合到一个timeseries中

first_query = bq.Query("SELECT GKGRECORDID, substr(CAST((DATE) AS 
STRING),0,8) as date, GCAM, V2Themes, TranslationInfo FROM `gdelt-
bq.gdeltv2.gkg_partitioned` WHERE _PARTITIONTIME BETWEEN TIMESTAMP('2019-
02-02') AND TIMESTAMP('2019-02-02')")

最终，我需要回到2015年，构建一个timeseries——这意味着我需要能够处理至少一个非常大的查询来聚合数据集

有没有办法在googledatalab中处理非常大的数据集？应该使用什么设置-即是否有特定的虚拟机可以做到这一点？注意，我需要实现一个大数TB的查询。如果能够在Jupyter笔记本环境中聚合数据，然后将其保存到适当的位置，那将非常有用。非常感谢

Tags：数据内存代码 pandas vm timestamp standard bq

0条回答

目前没有回答

如何将一个巨大的数据集加载到googledatalab中

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将一个巨大的数据集加载到googledatalab中

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >