将dataframe列中的每个值都更改为函数返回的值

def getPreferredTerm(stresc): # NOTE" obsData is a dataframe containing legacy terms in a # column called 'STRESC' and preferred terms in a column # named 'PTERM' so this function takes a legacy term as input # and returns a preferred term try: df = obsData.loc[(obsData['STRESC'] == stresc)].iloc[0]['P_TERM'] pterm = df except Exception as e: pterm = 'UNMAPPED' return pterm

1条回答

网友

1楼 · 发布于 2024-09-19 23:45:50

使用^{}将函数应用于序列中的每个元素：

df['P_TERM'] = df['P_TERM'].apply(getPreferredTerm)

请注意，这样的计算不会矢量化，也不会到位。Pandas将执行一个循环，将函数应用于序列中的每个值。结果序列随后被分配回数据帧。你知道吗

如果要使用字典映射值，可以使用pd.Series.map。此操作由熊猫优化。你知道吗

d = {'STAINED': 'DISCOLORED'}
df['P_TERM'] = df['P_TERM'].map(d).fillna(df['P_TERM'])

另一种方法是使用pd.Series.replace，但请参见note on performance。你知道吗

更新需求的矢量化方法：

s = obsData.drop_duplicates(subset=['STRESC']).set_index('STRESC')['P_TERM']
df['P_TERM'] = df['P_TERM'].map(s).fillna('UNMAPPED')

相关问题更多 >

编程相关推荐

热门问题

热门文章