Python:KeyError:0函数，该函数从通过循环访问的数据帧子集创建列表

~/anaconda3/envs/thesis/lib/python3.5/site-packages/pandas/core/series.py in __getitem__(self, key) 621 key = com._apply_if_callable(key, self) 622 try: --> 623 result = self.index.get_value(self, key) 624 625 if not is_scalar(result): ~/anaconda3/envs/thesis/lib/python3.5/site-packages/pandas/core/indexes/base.py in get_value(self, series, key) 2558 try: 2559 return self._engine.get_value(s, k, -> 2560 tz=getattr(series.dtype, 'tz', None)) 2561 except KeyError as e1: 2562 if len(self) > 0 and self.inferred_type in ['integer', 'boolean']: pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() KeyError: 0

df_test = pd.DataFrame(np.random.randint(low=0, high=10, size=(5, 5)), columns=['a', 'b', 'c', 'd', 'e'], index = ['20100101', '20100102', '20100103', '20100104', '20100105'] dfs = [] N = 3 for x in np.arange(len(df_test)+1)[N:]: df1 = df_test.iloc[np.arange(x - N, x)] test_list = myfunc(df1) # it takes in df1, makes some computation and returns a # list of 2-element tuples, i.e. [('a', 'b'), ('d', 'e')]

def pairs_match(df, p): df_norm = df.assign(**df.drop('datetime', 1).pipe(lambda d: d.div(d.shift().bfill()).cumprod())) df_norm = df_norm.replace([np.inf, -np.inf], np.nan) df_norm.fillna(method = 'ffill', inplace = True) df_norm.fillna(method = 'bfill', inplace = True) ticker = df_norm.columns.values.tolist() ticker.pop(0) ticker_list = pd.DataFrame({'ticker': ticker}) # to be implemented: if length of list list <2, then skip the entire run! all_pairs = list(itertools.permutations(ticker_list.ticker, 2)) squared = [] presel_pairs = [] for i in all_pairs: squared.append(ssd(df_norm[i[0]].head(n = train_win), df_norm[i[1]].head(n = train_win))) # ssd(x,y) function from above tbl_dist = pd.DataFrame({'Pair' : all_pairs, 'SSD' : squared}) ssd_perctl = p ssd_thresh = stats.scoreatpercentile(tbl_dist['SSD'], ssd_perctl) presel_pairs = tbl_dist[tbl_dist['SSD'] <= ssd_thresh] presel_pairs_list = presel_pairs['Pair'] presel_pairs_list = presel_pairs_list.reset_index(drop = True) return presel_pairs_list

2条回答

网友

1楼 · 编辑于 2024-10-02 20:30:43

试着分别打印x[i]和y[i]，这样就可以知道这两个选项中的哪一个会导致keyerror。也请张贴的功能，因为没有它，我们不知道发生了什么。你知道吗

网友

2楼 · 编辑于 2024-10-02 20:30:43

正如我们所想，问题确实出在cumsum update函数上。我将函数重写如下：

def ssd(x, y):

    spread_diff_sq = np.subtract(x, y) **2
    spread_diff_sq_cum = spread_diff_sq.cumsum()
    spread_cumdiff = spread_diff_sq_cum.iloc[-1]

    return spread_cumdiff

这并不是问题的根源，但是它避免了循环。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章