通过从Pandas数据框的不同列中选择一个元素来创建一个系列

In [171]: pred[:10] Out[171]: 0 1 2 Timestamp 2010-12-21 00:00:00 0 0 1 2010-12-20 00:00:00 1 1 1 2010-12-17 00:00:00 1 1 1 2010-12-16 00:00:00 0 0 1 2010-12-15 00:00:00 1 1 1 2010-12-14 00:00:00 1 1 1 2010-12-13 00:00:00 0 0 1 2010-12-10 00:00:00 1 1 1 2010-12-09 00:00:00 1 1 1 2010-12-08 00:00:00 0 0 1

In [172]: useProb[:10] Out[172]: Timestamp 2010-12-21 00:00:00 1 2010-12-20 00:00:00 2 2010-12-17 00:00:00 1 2010-12-16 00:00:00 2 2010-12-15 00:00:00 2 2010-12-14 00:00:00 2 2010-12-13 00:00:00 0 2010-12-10 00:00:00 2 2010-12-09 00:00:00 2 2010-12-08 00:00:00 0

In [172]: usePred[:10] Out[172]: Timestamp 2010-12-21 00:00:00 0 2010-12-20 00:00:00 1 2010-12-17 00:00:00 1 2010-12-16 00:00:00 1 2010-12-15 00:00:00 1 2010-12-14 00:00:00 1 2010-12-13 00:00:00 0 2010-12-10 00:00:00 1 2010-12-09 00:00:00 1 2010-12-08 00:00:00 0

2条回答

网友

1楼 · 编辑于 2024-05-19 03:20:20

一种解决方案可以是使用get dummies（应用时，应该更有效）：

In [11]: (pd.get_dummies(useProb) * pred).sum(axis=1)
Out[11]:
Timestamp
2010-12-21 00:00:00    0
2010-12-20 00:00:00    1
2010-12-17 00:00:00    1
2010-12-16 00:00:00    1
2010-12-15 00:00:00    1
2010-12-14 00:00:00    1
2010-12-13 00:00:00    0
2010-12-10 00:00:00    1
2010-12-09 00:00:00    1
2010-12-08 00:00:00    0
dtype: float64

你可以用一个申请表和几个地方：

In [21]: pred.apply(lambda row: row.loc[useProb.loc[row.name]], axis=1)
Out[21]:
Timestamp
2010-12-21 00:00:00    0
2010-12-20 00:00:00    1
2010-12-17 00:00:00    1
2010-12-16 00:00:00    1
2010-12-15 00:00:00    1
2010-12-14 00:00:00    1
2010-12-13 00:00:00    0
2010-12-10 00:00:00    1
2010-12-09 00:00:00    1
2010-12-08 00:00:00    0
dtype: int64

诀窍在于您可以通过name属性访问行索引。

网友

2楼 · 编辑于 2024-05-19 03:20:20

下面是使用DataFrame.lookup的另一种方法：

pred.lookup(row_labels=pred.index, 
            col_labels=pred.columns[useProb['0']])

这似乎正是您所需要的，只是必须注意提供标签的值。例如，如果pred.columns是字符串，而useProb['0']值是整数，那么我们可以使用

pred.columns[useProb['0']]

因此传递给col_labels参数的值是正确的标签值。

例如

import io
import pandas as pd
content = io.BytesIO('''\
Timestamp  0  1  2
2010-12-21 00:00:00  0  0  1
2010-12-20 00:00:00  1  1  1
2010-12-17 00:00:00  1  1  1
2010-12-16 00:00:00  0  0  1
2010-12-15 00:00:00  1  1  1
2010-12-14 00:00:00  1  1  1
2010-12-13 00:00:00  0  0  1
2010-12-10 00:00:00  1  1  1
2010-12-09 00:00:00  1  1  1
2010-12-08 00:00:00  0  0  1''')
pred = pd.read_table(content, sep='\s{2,}', parse_dates=True, index_col=[0])

content = io.BytesIO('''\
Timestamp  0
2010-12-21 00:00:00    1
2010-12-20 00:00:00    2
2010-12-17 00:00:00    1
2010-12-16 00:00:00    2
2010-12-15 00:00:00    2
2010-12-14 00:00:00    2
2010-12-13 00:00:00    0
2010-12-10 00:00:00    2
2010-12-09 00:00:00    2
2010-12-08 00:00:00    0''')
useProb = pd.read_table(content, sep='\s{2,}', parse_dates=True, index_col=[0])
print(pd.Series(pred.lookup(row_labels=pred.index, 
                col_labels=pred.columns[useProb['0']]),
                index=pred.index))

收益率

    Timestamp
2010-12-21    0
2010-12-20    1
2010-12-17    1
2010-12-16    1
2010-12-15    1
2010-12-14    1
2010-12-13    0
2010-12-10    1
2010-12-09    1
2010-12-08    0
dtype: int64

相关问题更多 >

编程相关推荐

热门问题

热门文章