Pandas：合并两个具有重复行的数据帧

people = pd.read_csv('people.csv') orders = pd.read_csv('orders.csv') full = pd.merge( people, orders, left_on='FULL_NAME', right_on='CUSTOMER_FULL_NAME', ) result.to_csv("output.csv")

ID FULL_NAME EMPLOYER DIVISION ORDER # 7350 John Smith RiteAid Clinical Research 25 7351 John Smith RiteAid Clinical Research 25 7352 John Smith Costco Sales 7353 John Smith Costco Sales

1条回答

网友

1楼 · 发布于 2024-09-29 23:29:17

您可以使用merge中的subset=['CUSTOMER_FULL_NAME']上的^{}与how='left'一起保留{}中的所有行，例如：

full = pd.merge(
    people,
    orders.drop_duplicates(subset=['CUSTOMER_FULL_NAME'], keep='first'), #here the differance
    left_on='FULL_NAME',
    right_on='CUSTOMER_FULL_NAME',
    how='left' #and add the how='left'
)

因此orders.drop_duplicates(subset=['CUSTOMER_FULL_NAME'], keep='first')将只包含一次每个名称，并且在merge期间，匹配将只使用这个唯一的名称

编程相关推荐

使用SeleniumWebDriver（又称Selenium2.0）JAVA向下滚动鼠标
java获取与消费者组kafka关联的主题列表
java在现实生活中，您什么时候会使用堆栈而不是常规链表，或者使用常规队列而不是优先级队列？
java实际参数列表和形式参数列表的长度不同（但两种长度都是2？）
默认情况下，Lucene（java框架）是否根据术语计算文档的tfidf和余弦相似性？
java编辑XML样式表更改Android中的按钮
java在Eclipse4中从处理程序更新视图
java是节点列表、数组、列表还是其他什么？
java Hibernate查询问题
java Spark在并行化列表时引发ArrayIndexOutOfBoundsException

相关问题更多 >

编程相关推荐

热门问题

热门文章