如果与列表匹配，则重新移位Nan值列数据帧

[in] : df [Out]: column1 column2 column3 0 aba abab 800.0 900.0 1 aaa acc 900.0 60.0 2 bba jka 809.0 400.0 3 fff yy 521.0 490.0 4 hkm asa j 290.0 321.0 5 daa rr oo 88.0 Nan 6 jtuy ww ddw Nan 600.0 8 bkam ftf Nan Nan 9 fgqefc Nan Nan 10 daas we fg Nan Nan 11 judv mm mk Nan Nan 12 hus gg hhh Nan Nan

column1 column2 column3 0 aba abab 800.0 900.0 1 aaa acc 900.0 60.0 2 bba jka Nan Nan 3 fff yy 809.0 400.0 4 hkm asa j Nan Nan 5 daa rr oo 521.0 490.0 6 jtuy ww ddw 290.0 321.0 8 bkam ftf 88.0 Nan 9 fgqefc Nan 600.0 10 daas we fg Nan Nan 11 judv mm mk Nan Nan 12 hus gg hhh Nan Nan

1条回答

网友

1楼 · 发布于 2024-10-01 07:38:20

以下是一个可能不是最佳的建议：

步骤1：为^{做准备：

match = df['column1'].str.fullmatch('|'.join(entry for entry in my_list))
df['shift'] = match.cumsum()
df['index'] = df.index
df.set_index('column1', drop=True, inplace=True)

结果（df）如下所示：

            column2 column3  shift  index
column1                                  
aba abab      800.0   900.0      0      0
aaa acc       900.0    60.0      0      1
bba jka       809.0   400.0      1      2
fff yy        521.0   490.0      1      3
hkm asa j     290.0   321.0      2      4
daa rr oo      88.0     NaN      2      5
...

步骤2：通过apply和NaN通过掩码match进行“移位”：

df = df.apply(lambda row: df.shift(int(row.at['shift'])).iloc[int(row.at['index'])],
              axis='columns')
df[list(match)] = np.nan

步骤3：清理：

df.drop(['shift', 'index'], axis='columns', inplace=True)
df.reset_index(inplace=True)

结果有望如预期的那样：

        column1 column2 column3
0      aba abab   800.0   900.0
1       aaa acc   900.0    60.0
2       bba jka     NaN     NaN
3        fff yy   809.0   400.0
4     hkm asa j     NaN     NaN
5     daa rr oo   521.0   490.0
6   jtuy ww ddw   290.0   321.0
7      bkam ftf    88.0     NaN
8        fgqefc     NaN   600.0
9    daas we fg     NaN     NaN
10   judv mm mk     NaN     NaN
11   hus gg hhh     NaN     NaN

但是我不喜欢在apply中使用df.shift。问题是第一行中的可能匹配将导致没有shift的错误结果。这里有一个版本可以避免这个问题，并且在apply中更直接：

# Preparation
df = pd.concat(
        [pd.DataFrame({col: ['NOT IN LIST' if i == 0 else np.nan]
                       for i, col in enumerate(df.columns)}), df],
        axis='index', 
        ignore_index=True
    )
match = df['column1'].str.fullmatch('|'.join(entry for entry in my_list))
df['shift'] = df.index - match.cumsum()
df.set_index('column1', drop=True, inplace=True)

# Shifting etc.
df = df.apply(lambda row: df.iloc[int(row.at['shift'])], axis='columns')
df[list(match)] = np.nan

# Clean up
df.drop('NOT IN LIST', axis='index', inplace=True)
df.drop('shift', axis='columns', inplace=True)
df.reset_index(inplace=True)

（这里的假设是字符串'NOT IN LIST'不在my_list中。很可能空字符串''也是一个不错的选择。）

相关问题更多 >

编程相关推荐

热门问题

热门文章