优化Python代码。优化Pandas应用。麻木比纯Python慢

def FillTarget(self, df): backup = df.copy() target = list(set(df['ACTL_CNTRS_BY_DAY'])) df = df[~df['ACTL_CNTRS_BY_DAY'].isnull()] tmp = df[df['ACTL_CNTRS_BY_DAY'].isin(target)] tmp = tmp[['APPT_SCHD_ARVL_D', 'ACTL_CNTRS_BY_DAY']] tmp.drop_duplicates(subset='APPT_SCHD_ARVL_D', inplace=True) t1 = dt.datetime.now() backup['ACTL_CNTRS_BY_DAY'] = backup.apply(self.ImputeTargetAcrossSameDate,args=(tmp, ), axis=1) # backup['ACTL_CNTRS_BY_DAY'] = self.compute_(tmp, backup) t2 = dt.datetime.now() print("Time for the bottleneck is ", (t2-t1).microseconds) print("step f") return backup

@numba.jit def compute_(self, df1, df2): n = len(df2) result = np.empty(n, dtype='float64') for i in range(n): d = df2.iloc[i] result[i] = self.apply_ImputeTargetAcrossSameDate_method(df1['APPT_SCHD_ARVL_D'].values, df1['ACTL_CNTRS_BY_DAY'].values, d['APPT_SCHD_ARVL_D'], d['ACTL_CNTRS_BY_DAY']) return result

@numba.jit def apply_ImputeTargetAcrossSameDate_method(self, df1col1, df1col2, df2col1, df2col2): dd = np.datetime64(df2col1) idx1 = np.where(df1col1 == dd)[0] if idx1.size == 0: idx1 = idx1 else: idx1 = idx1[0] val = df1col2[idx1] if val.size == 0: r = 0 else: r = val return r

APPT_SCHD_ARVL_D ACTL_CNTRS_BY_DAY 919 2020-11-17 NaN 917 2020-11-17 NaN 916 2020-11-17 NaN 915 2020-11-17 NaN 918 2020-11-17 NaN 905 2014-06-01 NaN 911 2014-06-01 NaN 913 2014-06-01 NaN 912 2014-06-01 NaN 910 2014-06-01 NaN 914 2014-06-01 NaN 908 2014-06-01 NaN 906 2014-06-01 NaN 909 2014-06-01 NaN 907 2014-06-01 NaN 898 2014-05-29 NaN 892 2014-05-29 NaN 893 2014-05-29 NaN 894 2014-05-29 NaN 895 2014-05-29 NaN

APPT_SCHD_ARVL_D ACTL_CNTRS_BY_DAY 919 2020-11-17 0.0 917 2020-11-17 0.0 916 2020-11-17 0.0 915 2020-11-17 0.0 918 2020-11-17 0.0 905 2014-06-01 0.0 911 2014-06-01 0.0 913 2014-06-01 0.0 912 2014-06-01 0.0 910 2014-06-01 0.0 914 2014-06-01 0.0 908 2014-06-01 0.0 906 2014-06-01 0.0 909 2014-06-01 0.0 907 2014-06-01 0.0 898 2014-05-29 0.0 892 2014-05-29 0.0 893 2014-05-29 0.0 894 2014-05-29 0.0 895 2014-05-29 0.0

1条回答

网友

1楼 · 发布于 2024-10-03 06:22:37

这是一个有点仓促的解决方案，因为我现在就要离开到周末了，但它奏效了。在

输入数据帧：

index    APPT_SCHD_ARVL_D  ACTL_CNTRS_BY_DAY
919       2020-11-17                NaN
917       2020-11-17                NaN
916       2020-11-17                NaN
915       2020-11-17                NaN
918       2020-11-17                NaN
905       2014-06-01                NaN
911       2014-06-01                NaN
913       2014-06-01                NaN
912       2014-06-01                NaN
910       2014-06-01                NaN
914       2014-06-01                NaN
908       2014-06-01                NaN
906       2014-06-01                NaN
909       2014-06-01                NaN
907       2014-06-01                NaN
898       2014-05-29                NaN
892       2014-05-29                NaN
893       2014-05-29                NaN
894       2014-05-29                10
895       2014-05-29                NaN
898       2014-05-29                NaN

代码：

^{pr2}$

基本上不需要apply一个函数。我在这里做的是：

获取值不为null的所有唯一日期。->；tt
只创建非空值的数据帧。->；vv
迭代所有行并测试每行中的日期是否存在于tt中。在
如果为true，则从vv获取值，其中df中的日期相同，并将其分配给df。在
然后用0.0填充所有其他空值。在

迭代行不是一件很快的事情，但我希望它比旧代码更快。如果我有更多的时间，我会想出一个没有迭代的解决方案，也许在周一。在

编辑：使用pd.merge()而不进行迭代的解决方案：

dg = df[pd.notnull(df.ACTL_CNTRS_BY_DAY)].groupby("APPT_SCHD_ARVL_D").first()["ACTL_CNTRS_BY_DAY"].to_frame().reset_index()
df = pd.merge(df,dg,on="APPT_SCHD_ARVL_D",how='outer').rename(columns={"ACTL_CNTRS_BY_DAY_y":"ACTL_CNTRS_BY_DAY"}).drop("ACTL_CNTRS_BY_DAY_x",axis=1).fillna(0.0)

您的数据意味着ACTL_CNTRS_BY_DAY中最多只有一个值不是空的，所以我使用groupby中的first()来选取唯一存在的值。在

相关问题更多 >

编程相关推荐

热门问题

热门文章