我有两个不均匀的数据帧,除了一对不同的ID值外,所有变量都相同。你知道吗
例如,其中一个数据帧df1
如下所示:
Name Name ID State Gen ID Unit ID
Nikki 9 AZ 1-1 1
Nikki 9 AZ 1-2 2
Nikki 9 AZ 1-3 3
Mondip 101 NY 1A 1A
Mondip 101 NY 1B 1B
James 11 CA 12-1 12
James 11 CA 13-1 13
Sandra 88 NJ 1 1
.
.
.
另一个数据帧df2
如下所示:
Name Name ID State Unit ID
Monte 97 PA 4-1
Monte 97 PA 4-2
Nikki Ltd 9 AZ 1
Nikki Ltd 9 AZ 2
Mondip 101 NY 1A
Mondip 101 NY 1B
James 11 CA 12-1
James 11 CA 13-1
.
.
.
如您所见,Gen ID
列和Unit ID
列以某种方式连接在一起。有时df2
中的Unit ID
可以是Gen ID
或df1
中的Unit ID
。你知道吗
我想做的是创建一个新的数据帧或列表,其中的每一组Name
、Name ID
和State
与df1
和df2
不匹配。有时名称稍微匹配Nikki
和Nikki Ltd
,所以我需要使用Name ID
来处理这个问题。你知道吗
例如,新的数据帧输出df_missing
将是:
Name Name ID State Gen ID Unit ID
Monte 97 PA 4-1
Monte 97 PA 4-2
Sandra 88 NJ 1 1
有什么简单的方法吗?你知道吗
如果我们假设您可以识别足够接近的名称,那么第一步就是将“Nikki LTD”的实例替换为“Nikki”。一旦这样做了,就很容易识别出每个数据帧中不相互的名称。这些名字是
相关问题 更多 >
编程相关推荐