如何将一个巨大的数据集加载到googledatalab中

2024-10-05 10:02:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用googlebigquery在googledatalab中查询一个大型数据集(c1m行,5.7GB)。 查询运行了很长时间,最终似乎被执行了。 当尝试将结果放入pandas表时,代码将永远运行

我尝试过使用内存更大的VM(而不是n1-standard-1,我尝试了n1-standard-2)。 当我输入LIMIT 100时,代码会执行,但这并不好,因为我需要将数据聚合到一个timeseries中

first_query = bq.Query("SELECT GKGRECORDID, substr(CAST((DATE) AS 
STRING),0,8) as date, GCAM, V2Themes, TranslationInfo FROM `gdelt-
bq.gdeltv2.gkg_partitioned` WHERE _PARTITIONTIME BETWEEN TIMESTAMP('2019-
02-02') AND TIMESTAMP('2019-02-02')")

最终,我需要回到2015年,构建一个timeseries——这意味着我需要能够处理至少一个非常大的查询来聚合数据集

有没有办法在googledatalab中处理非常大的数据集?应该使用什么设置-即是否有特定的虚拟机可以做到这一点? 注意,我需要实现一个大数TB的查询。如果能够在Jupyter笔记本环境中聚合数据,然后将其保存到适当的位置,那将非常有用。 非常感谢


Tags: 数据内存代码pandasvmtimestampstandardbq

热门问题