缺少值的多数据帧应用程序

2024-09-29 02:18:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个数据帧

                 Value
Location Time          
Hawai    2000  1.764052
         2002  0.400157
Torino   2000  0.978738
         2002  2.240893
Paris    2000  1.867558
         2002 -0.977278
                       2000  2002
Country Unit Location            
US      USD  Hawai        2     8
IT      EUR  Torino       4    10
FR      EUR  Paris        6    12  

创建方式

np.random.seed(0)
tuples = list(zip(*[['Hawai', 'Hawai', 'Torino', 'Torino',
                     'Paris', 'Paris'],
                      [2000, 2002, 2000, 2002, 2000,2002]]))

idx = pd.MultiIndex.from_tuples(tuples, names=['Location', 'Time'])

df = pd.DataFrame(np.random.randn(6, 1), index=idx, columns=['Value'])



df2 = pd.DataFrame({'Country': [ 'US', 'IT', 'FR'],
                'Unit': [ 'USD', 'EUR', 'EUR'],
                  'Location': [ 'Hawai', 'Torino', 'Paris'],
                  '2000': [2, 4,6],
                    '2002': [8,10,12]
                   })
df2.set_index(['Country','Unit','Location'],inplace=True)

我想将df2中的每一列与df1中相应的值相乘
这个代码做得很好

df2.columns=df2.columns.astype(int)
s=df.Value.unstack(fill_value=1)
df2 = df2.mul(s)

并产生

              2000       2002
Country Unit Location                      
US      USD  Hawai      3.528105   3.201258
IT      EUR  Torino     3.914952  22.408932
FR      EUR  Paris     11.205348 -11.727335

现在我想处理这样一种情况,即df2缺少表示为“..”的值,所以将数值相乘并跳过其他值

    2000  2002
Country Unit Location           
US      USD  Hawai       2     8
IT      EUR  Torino     ..    10
FR      EUR  Paris       6    12  

运行上面的代码会产生错误TypeError:不能将sequence与类型为'float'的非int相乘
你知道如何达到这个效果吗

2000       2002
    Country Unit Location                      
    US      USD  Hawai      3.528105   3.201258
    IT      EUR  Torino     ..  22.408932
    FR      EUR  Paris     11.205348 -11.727335

Tags: valueunititlocationfreurcountrypd
1条回答
网友
1楼 · 发布于 2024-09-29 02:18:27

我认为这里更好的方法是用缺失值代替..,用errors='coerce'代替^{},所以除法非常好:

df2 = pd.DataFrame({'Country': [ 'US', 'IT', 'FR'],
                'Unit': [ 'USD', 'EUR', 'EUR'],
                  'Location': [ 'Hawai', 'Torino', 'Paris'],
                  '2000': [2, '..',6],
                    '2002': [8,10,12]
                   })
df2.set_index(['Country','Unit','Location'],inplace=True)

df2.columns=df2.columns.astype(int)
s= df.Value.unstack(fill_value=1)
df2 = df2.apply(lambda x: pd.to_numeric(x, errors='coerce')).mul(s)
print (df2)
                            2000       2002
Country Unit Location                      
US      USD  Hawai      3.528105   3.201258
IT      EUR  Torino          NaN  22.408932
FR      EUR  Paris     11.205348 -11.727335

如果只有非数值是..,另一种解决方案是使用replace

df2 = df2.replace('..', np.nan).mul(s)

相关问题 更多 >