写入Pandas multindex数据帧的切片速度很慢

import numpy as np import pandas as pd n_paths = 1000 pathgrid=np.arange(1, n_paths + 1) dt = 0.25 T = 40 timegrid = np.arange(0, T + dt, dt) multiindex = pd.MultiIndex.from_product([pathgrid, timegrid], names=['Path', 'Timestep']) df=pd.DataFrame(index=multiindex,columns=['Values']) input = np.random.random_sample(n_paths) i=0 %timeit df.loc[(pathgrid,i),'Values'] = input 868 ms ± 8.09 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

1条回答

网友

1楼 · 发布于 2024-06-26 14:42:57

df.loc[(pathgrid,i),'Values'] = input

执行从input到len(input)中Timestep==0.0经过的行的相应值赋值。因此它是缓慢的

我建议使用函数一次性赋值：

import numpy as np
import pandas as pd


def assignValue(df, timestep, values):
    for path, new_df in df.groupby(level=0):
        new_df.loc[(path, timestep)] = values[path-1]


n_paths = 1000
pathgrid=np.arange(1, n_paths + 1)
dt = 0.25
T = 40

timegrid = np.arange(0, T + dt, dt)

multiindex = pd.MultiIndex.from_product(
    [pathgrid, timegrid], names=['Path', 'Timestep'])

df = pd.DataFrame(index=multiindex, columns=['Values'])

input = np.random.random_sample(n_paths)

i = 0
%timeit assignValue(df, 0.0, input)

从我的电脑上看，新代码需要315毫秒，而原来的代码需要1.49秒

更新：

原始代码不会更新原始dataframe对象。我使用for循环和.loc修改行，速度更快

import numpy as np
import pandas as pd


n_paths = 1000
dt = 0.25
T = 40

pathgrid=np.arange(1, n_paths + 1)
timegrid = np.arange(0, T + dt, dt)

multiindex = pd.MultiIndex.from_product(
    [pathgrid, timegrid],
    names=['Path', 'Timestep']
)

df = pd.DataFrame(index=multiindex, columns=['Values'])

inputs = np.random.random_sample(n_paths)
%timeit for i in range(1, n_paths+1): df.loc[(i, 0.0)] = inputs[i-1]

新代码现在需要80.1毫秒

相关问题更多 >

编程相关推荐

热门问题

热门文章