比逐行计算更有效的Pandas数据帧计算方法

import pandas as pd import scipy as sp import numpy.random as sprd def Gen_UniformDist(seed=5, size=1000000): """ Create a set of random numbers uniformly distributed between 0 and 1 """ sprd.seed(seed) return sprd.uniform(size=size) # Generate some test data dataSet = Gen_UniformDist() # Create an array of truncation vales truncValue_arr = sp.linspace(0., 0.9, 20) df_Output = pd.DataFrame(index=truncValue_arr, columns=['mean', 'NumObs']) for i, truncValue in enumerate(truncValue_arr): # Truncate the data using the truncation value truncated_DataSet = dataSet[ dataSet >= truncValue] # In my real code the function here is more complex max likelihood # rather than simple mean used for simplicity here mean = sp.mean(truncated_DataSet) numObs = len(truncated_DataSet) # Real code would calculate more than 2 values for each row df_Output.iloc[i] = [mean, numObs]

1条回答

网友

1楼 · 发布于 2024-09-30 20:32:15

您的算法有两个方面可以直接优化：

将for循环替换为列表理解。在
与重复的iloc调用不同，构建一个元组列表并直接提供给pd.DataFrame。在

下面是一些伪代码：

def return_values(data):
    return sp.mean(data), len(data.index)

L = [return_values(dataSet[dataSet >= truncValue]) for truncValue in truncValue_arr]

df = pd.DataFrame(data=L, index=truncValue_arr, columns=['mean', 'NumObs'])

可以通过重构每个循环中发生的dataSet >= truncValue进一步优化。考虑以下因素：

^{pr2}$

因此，您可以执行以下操作：

mask = np.array(dataset)[:, None] >= np.array(truncValue_arr)

L = [return_values(dataset.loc[mask[:, i]]) \
     for i, truncValue in enumerate(truncValue_arr)]

相关问题更多 >

编程相关推荐

热门问题

热门文章