pandas将dataframe与NaN（或“unknown”）合并以查找丢失的值

names = df({'names':['bob','frank','james','tim','ricardo','mike','mark','joan','joe'], 'position':['dev','dev','dev','sys','sys','sys','sup','sup','sup']}) info = df({'names':['joe','mark','tim','frank'], 'classification':['thief','thief','good','thief']})

names = df({'names':['bob','frank','bob','bob','bob''james','tim','ricardo','mike','mark','joan','joe'], 'position':['dev','dev','dev','dev','dev','dev''sys','sys','sys','sup','sup','sup']}) info = df({'names':['joe','mark','tim','frank','joe','bill'], 'classification':['thief','thief','good','thief','good','thief']}) what = pd.merge(names, info, how="outer") what.fillna("unknown")

3条回答

网友

1楼 · 编辑于 2024-10-06 12:00:09

我想你想做一个outer^{}：

In [60]:

pd.merge(names, info, how='outer')
Out[60]:
     names position classification
0      bob      dev            NaN
1    frank      dev          thief
2    james      dev            NaN
3      tim      sys           good
4  ricardo      sys            NaN
5     mike      sys            NaN
6     mark      sup          thief
7     joan      sup            NaN
8      joe      sup          thief

有一节显示了可以执行的合并类型：http://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging

网友

2楼 · 编辑于 2024-10-06 12:00:09

把它看作一个SQL连接操作。您需要一个left-outer连接[1]。

names = pd.DataFrame({'names':['bob','frank','james','tim','ricardo','mike','mark','joan','joe'],'position':['dev','dev','dev','sys','sys','sys','sup','sup','sup']})

info = pd.DataFrame({'names':['joe','mark','tim','frank'],'classification':['thief','thief','good','thief']})

由于有names而没有classification，因此left-outer连接将完成此工作。

a = pd.merge(names, info, how='left', on='names')

结果是。。。

>>> a
     names position classification
0      bob      dev            NaN
1    frank      dev          thief
2    james      dev            NaN
3      tim      sys           good
4  ricardo      sys            NaN
5     mike      sys            NaN
6     mark      sup          thief
7     joan      sup            NaN
8      joe      sup          thief

。。。这很好。如果同时查看这两个表，所有的NaN结果都是可以的。

干杯！

[1]-http://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging

网友

3楼 · 编辑于 2024-10-06 12:00:09

如果你还在寻找答案：

您所描述的“奇怪”的事情是由于代码中的一些小错误造成的。例如，第一个（出现“bobjames”和“devsys”）是因为在源数据帧中这两个值之间没有逗号。第二个原因是pandas不关心数据帧的名称，而是在合并时关心列的名称（有一个名为“names”的数据帧，但列也名为“names”）。否则，合并似乎正按您所期望的方式进行：

import pandas as pd
names = pd.DataFrame({'names':['bob','frank','bob','bob','bob', 'james','tim','ricardo','mike','mark','joan','joe'], 
                      'position':['dev','dev','dev','dev','dev','dev', 'sys','sys','sys','sup','sup','sup']})

info = pd.DataFrame({'names':['joe','mark','tim','frank','joe','bill'],
                     'classification':['thief','thief','good','thief','good','thief']})
what = pd.merge(names, info, how="outer")
what.fillna('unknown', inplace=True)

这将导致：

      names position classification
0       bob      dev        unknown
1       bob      dev        unknown
2       bob      dev        unknown
3       bob      dev        unknown
4     frank      dev          thief
5     james      dev        unknown
6       tim      sys           good
7   ricardo      sys        unknown
8      mike      sys        unknown
9      mark      sup          thief
10     joan      sup        unknown
11      joe      sup          thief
12      joe      sup           good
13     bill  unknown          thief

相关问题更多 >

编程相关推荐

热门问题

热门文章