如何加快大Pandas数据帧上的迭代函数？

def myModel(df): A_series = df['A'] B_series = df['B'] seriesLength = A_series.size # Make a new empty column in the dataframe to hold the predicted values df['predicted_series'] = np.nan # Make a new empty column to store whether or not # prediction matches predicted matches B df['wrong_prediction'] = np.nan prev_B = B_series[0] for x in range(1, seriesLength): prev_A = A_series[x-1] prev_B = B_series[x-1] #set the predicted value to equal B if A has two equal values in a row if A_series[x] == prev_A: if df['predicted_series'][x] > 0: df['predicted_series'][x] = df[predicted_series'][x-1] else: df['predicted_series'][x] = B_series[x-1]

3条回答

网友

1楼 · 编辑于 2024-09-24 02:18:37

df.loc[df.A.diff() == 0, 'predicted_series'] = df.B

这将消除for循环，并在A等于前一个A时将预测的_系列设置为B的值

编辑：

根据您的注释，将predicted_series的初始化更改为全部NAN，然后前填充值：

^{pr2}$

对于最快的修改速度，艾汉斯的答案是最好的：

df['predicted_series'] = np.where(df.A.shift() == df.A, df.B, df['predicted_series'].shift())

这将为您提供您的前向填充值，并比我最初的建议运行得更快

网友

2楼 · 编辑于 2024-09-24 02:18:37

类似这样的方法应该可以像您所描述的那样工作：

df['predicted_series'] = np.where(A_series.shift() == A_series, B_series, df['predicted_series'])

网友

3楼 · 编辑于 2024-09-24 02:18:37

解决方案

df.loc[df.A == df.A.shift()] = df.B.shift()

解决方案

相关问题更多 >

编程相关推荐

热门问题

热门文章