我正在尝试使用googlebigquery在googledatalab中查询一个大型数据集(c1m行,5.7GB)。 查询运行了很长时间,最终似乎被执行了。 当尝试将结果放入pandas表时,代码将永远运行
我尝试过使用内存更大的VM(而不是n1-standard-1,我尝试了n1-standard-2)。 当我输入LIMIT 100时,代码会执行,但这并不好,因为我需要将数据聚合到一个timeseries中
first_query = bq.Query("SELECT GKGRECORDID, substr(CAST((DATE) AS
STRING),0,8) as date, GCAM, V2Themes, TranslationInfo FROM `gdelt-
bq.gdeltv2.gkg_partitioned` WHERE _PARTITIONTIME BETWEEN TIMESTAMP('2019-
02-02') AND TIMESTAMP('2019-02-02')")
最终,我需要回到2015年,构建一个timeseries——这意味着我需要能够处理至少一个非常大的查询来聚合数据集
有没有办法在googledatalab中处理非常大的数据集?应该使用什么设置-即是否有特定的虚拟机可以做到这一点? 注意,我需要实现一个大数TB的查询。如果能够在Jupyter笔记本环境中聚合数据,然后将其保存到适当的位置,那将非常有用。 非常感谢
目前没有回答
相关问题 更多 >
编程相关推荐