什么是将行添加到DataFrame的最快和最有效的方法？

df = DataFrame() for startID in range(0, 100000, 1000): s1 = time.time() tempdf = DataFrame() url = f'https://******/products?startId={startID}&size=1000' r = requests.get(url, headers={'****-Token': 'xxxxxx', 'Merchant-Id': '****'}) jsonList = r.json() # datatype= list, contains= dict normalized = json_normalize(jsonList) # type(normal) = pandas.DataFrame print(startID / 1000) # status indicator for series in normalized.iterrows(): series = series[1] # iterrows returns tuple (index, series) offers = series['offers'] series = series.drop(columns='offers') length = len(offers) for offer in offers: n = json_normalize(offer).squeeze() # squeeze() casts DataFrame into Series concatinated = concat([series, n]).to_frame().transpose() tempdf = tempdf.append(concatinated, ignore_index=True) del normalized df = df.append(tempdf) f1 = time.time() print(f1 - s1, ' seconds') df.to_csv('out.csv')

1条回答

网友

1楼 · 发布于 2024-09-28 01:28:14

正如MohitMotwani所建议的，最快的方法是将数据收集到字典中，然后将所有数据加载到数据帧中。以下是一些速度测量示例：

import pandas as pd
import numpy as np
import time
import random

end_value = 10000

创建字典并最终加载到数据帧中的度量

^{pr2}$

执行时间=0.090153秒

在列表中追加数据和在数据帧中附加数据的措施：

start_time = time.time()
appended_data = []
for i in range(0, end_value, 1):
    data = pd.DataFrame(np.random.randint(0, 100, size=(1, 30)), columns=list('A'*30))
    appended_data.append(data)

appended_data = pd.concat(appended_data, axis=0)

end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))

执行时间=4.183921秒

附加数据帧的测量：

start_time = time.time()
df_final = pd.DataFrame()
for i in range(0, end_value, 1):
    df = pd.DataFrame(np.random.randint(0, 100, size=(1, 30)), columns=list('A'*30))
    df_final = df_final.append(df)

end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))

执行时间=11.085888秒

使用loc测量插入数据：

start_time = time.time()
df = pd.DataFrame(columns=list('A'*30))
for i in range(0, end_value, 1):
    df.loc[i] = list(np.random.randint(0, 100, size=30))


end_time = time.time()
print('Execution time = %.6f seconds' % (end_time-start_time))

执行时间=21.029176秒

相关问题更多 >

编程相关推荐

热门问题

热门文章