将1100万行从Postgresql导入Pandas/Python

from io import StringIO import psycopg2 import psycopg2.sql as sql import pandas as pd import numpy as np import time connection = psycopg2.connect(user="abc", password="efg", host="123.amazonaws.com", port="5432", database="db") date='2020-03-01' columns= '"LastName","FirstName","DateOfBirth","PatientGender","Key"' postgreSQL_select_Query = 'select ' + columns + ' from "Table" where "CreatedDate"::date>=' + "'" + date + "'" + 'limit 11000000' x=pd.read_sql_query(postgreSQL_select_Query, connection, index_col=None, coerce_float=True, params=None, parse_dates=None, chunksize=10000)

# -*- coding: utf-8 -*- @author: ssullah """ from io import StringIO import psycopg2 import psycopg2.sql as sql import pandas as pd import numpy as np import time start = time.time() print("Started") #Retreiving records from DB def getdata(): try: start = time.time() print("Started") connection = psycopg2.connect(user="a" password="as", host="aws", port="5432", database="as") cur= connection.cursor() date='2020-03-01' columns= '"LastName","FirstName","DateOfBirth","PatientGender","Key"' postgreSQL_select_Query = 'select ' + columns + ' from "ALLADTS" where "CreatedDate"::date>=' + "'" + date + "'" + 'limit 11000000' cur = connection.cursor('cursor-name') # server side cursor cur.itersize = 10000 # how much records to buffer on a client cur.execute(postgreSQL_select_Query) mobile_records = cur.fetchall() #Column names as per schema, defined above col_names=["LastName","FirstName","DateOfBirth","PatientGender","Key"] # Create the dataframe, passing in the list of col_names extracted from the description records = pd.DataFrame(mobile_records,col_names) return records; except (Exception, psycopg2.Error) as error : print ("Error while fetching data from PostgreSQL", error) finally: #closing database connection. if(connection): cursor.close() connection.close() print("PostgreSQL connection is closed") records=getdata() end = time.time() print("The total time:", (end - start)/60, 'minutes')

1条回答

网友

1楼 · 发布于 2024-10-19 14:15:48

更新：

我没有用Python加载数据，而是决定用Python在postgresql中创建一个临时表，并将新文件从pandas加载到postgresql。一旦使用python中的查询填充了表，我就能够查询并获得所需的输出，并将最终结果返回到panda数据帧中

所有这些都需要1.4分钟，同样的查询需要30分钟才能在Pgadmin中运行，因此，通过利用Python，并使用Python编写的sql查询进行计算，我能够以指数方式加快过程，同时不必处理内存中的1100万条记录。谢谢你的建议

相关问题更多 >

编程相关推荐

热门问题

热门文章