pandas数据框中的两列求和

cluster date budget actual | budget - actual 0 a 2014-01-01 00:00:00 11000 10000 1000 1 a 2014-02-01 00:00:00 1200 1000 2 a 2014-03-01 00:00:00 200 100 3 b 2014-04-01 00:00:00 200 300 4 b 2014-05-01 00:00:00 400 450 5 c 2014-06-01 00:00:00 700 1000 6 c 2014-07-01 00:00:00 1200 1000 7 c 2014-08-01 00:00:00 200 100 8 c 2014-09-01 00:00:00 200 300

3条回答

网友

1楼 · 编辑于 2024-04-24 17:56:23

同样的想法也可以用lambda函数来实现。在这里，我从xlsx文件中读取数据。

import pandas as pd
df = pd.read_excel("data.xlsx", sheet_name = 4)
print df

输出：

  cluster Unnamed: 1      date  budget  actual
0       a 2014-01-01  00:00:00   11000   10000
1       a 2014-02-01  00:00:00    1200    1000
2       a 2014-03-01  00:00:00     200     100
3       b 2014-04-01  00:00:00     200     300
4       b 2014-05-01  00:00:00     400     450
5       c 2014-06-01  00:00:00     700    1000
6       c 2014-07-01  00:00:00    1200    1000
7       c 2014-08-01  00:00:00     200     100
8       c 2014-09-01  00:00:00     200     300

把两列加在第三列。

df['variance'] = df.apply(lambda x: x['budget'] + x['actual'], axis=1)
print df

输出：

  cluster Unnamed: 1      date  budget  actual  variance
0       a 2014-01-01  00:00:00   11000   10000     21000
1       a 2014-02-01  00:00:00    1200    1000      2200
2       a 2014-03-01  00:00:00     200     100       300
3       b 2014-04-01  00:00:00     200     300       500
4       b 2014-05-01  00:00:00     400     450       850
5       c 2014-06-01  00:00:00     700    1000      1700
6       c 2014-07-01  00:00:00    1200    1000      2200
7       c 2014-08-01  00:00:00     200     100       300
8       c 2014-09-01  00:00:00     200     300       500

网友

2楼 · 编辑于 2024-04-24 17:56:23

我认为您误解了一些python语法，下面有两个任务：

In [11]: a = b = 1

In [12]: a
Out[12]: 1

In [13]: b
Out[13]: 1

所以在你的代码中好像你在做：

sum = df['budget'] + df['actual']  # a Series
# and
df['variance'] = df['budget'] + df['actual']  # assigned to a column

后者为df创建一个新列：

In [21]: df
Out[21]:
  cluster                 date  budget  actual
0       a  2014-01-01 00:00:00   11000   10000
1       a  2014-02-01 00:00:00    1200    1000
2       a  2014-03-01 00:00:00     200     100
3       b  2014-04-01 00:00:00     200     300
4       b  2014-05-01 00:00:00     400     450
5       c  2014-06-01 00:00:00     700    1000
6       c  2014-07-01 00:00:00    1200    1000
7       c  2014-08-01 00:00:00     200     100
8       c  2014-09-01 00:00:00     200     300

In [22]: df['variance'] = df['budget'] + df['actual']

In [23]: df
Out[23]:
  cluster                 date  budget  actual  variance
0       a  2014-01-01 00:00:00   11000   10000     21000
1       a  2014-02-01 00:00:00    1200    1000      2200
2       a  2014-03-01 00:00:00     200     100       300
3       b  2014-04-01 00:00:00     200     300       500
4       b  2014-05-01 00:00:00     400     450       850
5       c  2014-06-01 00:00:00     700    1000      1700
6       c  2014-07-01 00:00:00    1200    1000      2200
7       c  2014-08-01 00:00:00     200     100       300
8       c  2014-09-01 00:00:00     200     300       500

作为旁白，不应该使用sum作为变量名来重写内置的sum函数。

网友

3楼 · 编辑于 2024-04-24 17:56:23

您还可以使用^{}函数：

 df.loc[:,'variance'] = df.loc[:,'budget'].add(df.loc[:,'actual'])

相关问题更多 >

编程相关推荐

热门问题

热门文章