Python：Splitapplycombine，当函数应用于第二个组时变长出错？

data_nasdaq_top_100_preprocessed_mi_res = sentisignal.split_apply_combine(data_nasdaq_top_100_preprocessed_merge, 'SYMBOL', sentisignal.information_surplus, 10, 'PCA_SENTIMENT', 'PCA_FINANCE', -1, True)

def information_surplus(df, time_shift, varx, vary, bins, exante): print df.SYMBOL.unique(), "exante ", exante output = [] if exante: shift_range = range(0, -(time_shift+1), -1) else: shift_range = range(0, time_shift+1) print "len(df.index)", len(df.index) for i in shift_range: if abs(i) > len(df.index): break shift_x = df[varx].shift(i) print "shift_x length", len(shift_x) if exante: end_index = (len(shift_x.index) - 1 - abs(i)) x = shift_x.ix[1:end_index] y = df[vary].ix[1:end_index] print "len(x.index)", len(x.index), "len(x)", len(x), "end_index", end_index else: print "exec" x = shift_x.ix[1+abs(i):] y = df[vary].ix[1+abs(i):] mi = calc_mutual_information(x, y, bins) if i == 0: mi_origin = mi if mi_origin == 0: inf_surp_pct = 0 else: inf_surp_pct = (mi - mi_origin) / mi_origin * 100 output.append({'SHIFT': i, 'MUTUAL_INFORMATION': mi, 'INFORMATION_SURPLUS_DIFF': mi - mi_origin, 'INFORMATION_SURPLUS_PCT': inf_surp_pct}) output_frame = pd.DataFrame(output) return output_frame

def calc_mutual_information(x, y, bins): print "len(x)", len(x) try: if bins == -1: bins = doane_bin(x) if bins == np.inf: bins = sturges_bin(x) except ValueError: bins = 10.0 # print "bins", bins try: c_xy = np.histogram2d(x, y, bins)[0] mi = metrics.mutual_info_score(None, None, contingency=c_xy) print "success" except Exception,e: print "error with mi calc", str(e) mi = 0 return mi

1条回答

网友

1楼 · 发布于 2024-10-04 11:35:34

这起作用了：

更新没有.ix的剩余信息，我已经更新了问题标题，试图反映这一点，并将很高兴接受一个解释的答案！你知道吗

更新的方法：

def information_surplus(df, time_shift, varx, vary, bins, exante):
print df.SYMBOL.unique(), "exante ", exante

output = []

if exante:
    shift_range = range(0, -(time_shift+1), -1)
else:
    shift_range = range(0, time_shift+1)

# print "len(df.index)", len(df.index)

for i in shift_range:
    if abs(i) > len(df.index):
        break

    shift_x = df[varx].shift(i)
    # print "shift_x length", len(shift_x)

    mi = 0.0

    if exante:
        end_index = (len(shift_x.index) - 1 - abs(i))
        x = shift_x[1:end_index]
        y = df[vary][1:end_index]
        # print "len(x.index)", len(x.index), "len(x)", len(x), "end_index", end_index
    else:
        # print "exec"
        x = shift_x.ix[1+abs(i):]
        y = df[vary].ix[1+abs(i):]

    mi = calc_mutual_information(x, y, bins)

    if i == 0:
        mi_origin = mi

    if mi_origin == 0: 
        inf_surp_pct = 0
    else:
        inf_surp_pct = (mi - mi_origin) / mi_origin * 100

    output.append({'SHIFT': i, 'MUTUAL_INFORMATION': mi, 'INFORMATION_SURPLUS_DIFF': mi - mi_origin, 'INFORMATION_SURPLUS_PCT': inf_surp_pct})

output_frame = pd.DataFrame(output)
return output_frame

相关问题更多 >

编程相关推荐

热门问题

热门文章