在另一个数据框中使用值创建新的dask数据框列会导致"块大小未知"的问题

import pandas as pd import numpy as np import dask.dataframe as dd holdings=pd.DataFrame({'cusip': ['abcd', 'efgh', 'ijkl'], 'date': ['1/1/2000', '1/1/2005', '1/1/2010']}) ratings=pd.DataFrame({'cusip':['abcd','efgh','efgh'],'date':['1/1/2001','1/1/2004','1/1/2006'],'rating':['A','AAA','B']} dd.from_pandas(df1, npartitions=2)

def get_rating_index(row): if row['cusip'] in ratings['cusip'].values: temp=ratings[ratings['cusip']==row['cusip']] avail_ratings=temp[temp['date'].apply(lambda x: x<row['date'])] if avail_ratings.shape[0]>0: final=avail_ratings[avail_ratings['date']==max(avail_ratings['date'].values)] return final.index[0] else: return -1 else: return -1 holdings['ratings_match'] = holdings.apply(get_rating_index,meta='int', axis=1)

1条回答

网友

1楼 · 发布于 2024-06-28 19:23:19

这还不是一个完整的答案，但可能会让您开始：

holdings.apply(get_rating_index, meta='int', axis=1)

很有可能你真的想要map或{}在这里。它们可以让你以更直接的方式从熊猫身上进行概括，而且通常效率更高。在

实际上，您正在运行的函数，get_rating_index感觉非常像一个单独的map或where操作，尽管很难判断其目的是什么。另一方面，temp=ratings[ratings['cusip']==row['cusip']]看起来像一个groupby操作。在

相关问题更多 >

编程相关推荐

热门问题

热门文章