使用python从bigquery获取数据时，linux服务器上出现内存错误？

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/Users/Desktop/big_query_test/soy-serenity-89ed73.json" client = bigquery.Client() # Perform a query. QUERY = “SELECT * FROM `soy-serenity-89ed73.events10`” query_job = client.query(QUERY) df = query_job.to_dataframe()

1条回答

网友

1楼 · 发布于 2024-09-28 03:12:36

我可以建议两种方法：

选项1
SELECT将数据分块存储，以减少每次迭代时从BigQuery接收的数据的大小。例如，您的表是分区，您可以执行以下操作：

WHERE _PARTITIONTIME = currentLoopDate

其中currentLoopDate将是python代码中的一个日期变量（类似的选项是使用ROW_NUMBER

选项2
通过使用BigQuery client library，您可以使用作业.插入API并将configuration.query.priority设置为批处理。你知道吗

# from google.cloud import bigquery
# client = bigquery.Client()

query = (
    'SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` '
    'WHERE state = "TX" '
    'LIMIT 100')
query_job = client.query(
    query,
    # Location must match that of the dataset(s) referenced in the query.
    location='US')  # API request - starts the query

for row in query_job:  # API request - fetches results
    # Row values can be accessed by field name or index
    assert row[0] == row.name == row['name']
    print(row)

有关更多详细信息，请参见link 获取jobId之后，使用Jobs.getQueryResults编写一个循环，通过设置API的maxResults参数来获取数据块

相关问题更多 >

编程相关推荐

热门问题

热门文章