通过从sqldb导入的pd Dataframe子集改进性能循环

index StartDelivery Production(intervall) Quantity VWAP 17 2017-01-03 01:00:00 2017-01-02 19:00:00 45 36,56666667 18 2017-01-03 01:00:00 2017-01-02 19:15:00 1,4 36,01428571 ... 69 2017-01-03 02:00:00 2017-01-02 22:15:00 8,7 34 70 2017-01-03 02:00:00 2017-01-02 23:45:00 5,3 33,63773585

import mysql.connector import numpy as np import pandas as pd import datetime conn=mysql.connector.connect(user='AriHeck',password='none',host='local',database='DataEvaluation', port=3308) df = pd.read_sql("select StartOfDelivery,EndOfDelivery,ProdDateTime,PriceEURpMW,QuantityMW, PriceEURpMW*QuantityMW as 'p*Q' from `Production`\ where timestampdiff(hour,StartOfDelivery,EndOfDelivery)=1 AND StartOfDelivery >= '2017-01-03 01:00:00' AND StartOfDelivery < '2017-01-03 03:00:00'", con=conn) #Delivery Time Loop dt=datetime.datetime.strptime('2017-01-03 01:00:00', "%Y-%m-%d %H:%M:%S") end_date=datetime.datetime.strptime('2017-01-05 00:00:00', "%Y-%m-%d %H:%M:%S") #Dummies loops incr_delivery_loop=datetime.timedelta(hours=1) incr_production_loop=datetime.timedelta(minutes=15) delta_start=datetime.timedelta(days=1) delta_end=datetime.timedelta(minutes=30) #Dummies Data a=1 delivery_array=[0]*a production_array=[0]*a time_remaining_array=[0]*a VWAP_array=np.zeros(a) quantity_array=np.zeros(a) #Start Delivery time loop while (dt <= end_date): #Production Time Loop: #Start Production: 1 Day before delivery 15:00 (3:00 PM), End Production 30 mins before delivery prod_time=(dt-delta_start).replace(hour=15) end_prod=dt-delta_end while (prod_time<=end_prod): quantity=df[(df['StartOfDelivery']==dt)& (df['ProdDateTime']>=prod_time) & (df['ProdDateTime']<(prod_time+incr_production_loop))].QuantityMW.sum() if (quantity==0): VWAP=0 else: #Calculate Volume Weighted Average Price pq_total=df[(df['StartOfDelivery']==dt)& (df['ProdDateTime']>=prod_time) & (df['ProdDateTime']<(prod_time+incr_production_loop))]['p*Q'].sum() VWAP=pq_total/quantity #Save values to arrays VWAP_array=np.append(VWAP_array,VWAP) quantity_array=np.append(quantity_array,quantity) delivery_array.append(dt) production_array.append(prod_time) #Increments prod_time=prod_time+incr_production_loop dt=dt+incr_delivery_loop #END LOOPS #Save to Dataframe WAP_dict={'TimeOfDelivery':delivery_array, 'ProductionDateTime':production_array, 'VWAP':VWAP_array, 'Quantity':quantity_array,} df_WAP=pd.DataFrame(WAP_dict) df_WAP=df_WAP[['TimeOfDelivery','ProductionDateTime','Quantity','VWAP']] #Output print(df_WAP.head(50))

1条回答

网友

1楼 · 发布于 2024-09-30 12:29:25

欢迎来到pythonProfiling您的代码将是一个很好的起点：）

也就是说，随着数据集的增长，每次调用：

df['some_column']==some_variable

越来越贵了。如果您在处理2天的数据时表现良好，但在扩展到6个月时表现下降，则可能是罪魁祸首

尝试通过在SQL查询的末尾添加order by StartOfDelivery对数据进行预排序。然后将数据帧拆分为一个数据帧列表，其中每个子帧只包含循环体内部所需的15分钟增量的记录

然后可以将该列表作为主循环进行迭代，而不是：

while (dt <= end_date):

这将删除所有的数据帧过滤，并使执行时间与数据集大小成线性（ish）

相关问题更多 >

编程相关推荐

热门问题

热门文章