图解pandas的数据合并merge

article/2025/10/6 0:55:26

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

在实际的业务需求中,我们的数据可能存在于不同的库表中。很多情况下,我们需要进行多表的连接查询来实现数据的提取,通过SQL的join,比如left join、left join、inner join等来实现。

在pandas中也有实现合并功能的函数,比如:concat、append、join、merge。本文中重点介绍的是merge函数,也是pandas中最为重要的一个实现数据合并的函数。

看完了你会放弃SQL吗?

Pandas连载文章

目前Pandas系列文章已经更新了13篇,文章都是以案例+图解的风格,欢迎访问阅读。有很多个人推荐的文章:

参数

官网学习地址:https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#

pd.merge(left,   # 待合并的2个数据框right, how='inner',  # ‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’on=None, # 连接的键,默认是相同的键left_on=None,  # 指定不同的连接字段:键不同,但是键的取值有相同的内容right_on=None, left_index=False,   # 根据索引来连接right_index=False, sort=False, # 是否排序suffixes=('_x', '_y'),   # 改变后缀copy=True, indicator=False,   # 显示字段来源validate=None)

参数的具体解释为:

  • left、right:待合并的数据帧

  • how:合并的方式,有5种:{‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, 默认是 ‘inner’

    1、 left:左连接,保留left的全部数据;right类似;类比于SQL的left join 或者right join

    2、outer:全连接功能,类似SQL的full outer join

    3、inner:交叉连接,类比于SQL的inner join

    4、cross:创建两个数据帧DataFrame的笛卡尔积,默认保留左边的顺序

  • on:连接的列属性;默认是两个DataFrame的相同字段

  • left_on/right_on:指定两个不同的键进行联结

  • left_index、right_index:通过索引进行合并

  • suffixes:指定我们自己想要的后缀

  • indictor:显示字段的来源

模拟数据

我们创建了4个DataFrame数据框;其中df1和df2、df3是具有相同的键userid;df4有类似的键userid1,取值也是ac,和df1或df2的userid取值有相同的部分。

import pandas as pd
import numpy as np

参数left、right

left、how就是需要连接的两个数据帧,一般有两种写法:

  • pd.merge(left,right),个人习惯
  • left.merge(right)

图解过程如下:

  • 两个数据框df1(left)、df2(right)有相同的字段userid
  • 默认是通过相同的字段(键)进行关联,取出键中相同的值(ac),而且每个键的记录要全部显示,比如a有多条记录

参数how

inner

inner称之为内连接。它会直接根据相同的列属性userid进行关联,取出属性下面相同的数据信息a、c

⚠️上面的图解过程就是默认的使用how=“inner”

outer

outer称之为外连接,在拼接的过程中会取两个数据框中键的并集进行拼接

  • 外连接,取出全部交集键的并集。例子中是user的并集
  • 如果某个键在某个数据框中不存在数据,则为NaN

图解过程如下:

  • 也是根据相同的字段来进行联结:userid
  • 保留两边的全部数据,所以abcde全部存在
  • 如果某边不存在键下面的某个值,则结果中用NaN补充。比如df1的userid中存在b,但是df3中不存在,则结果b对应的score为NaN,cd类似;e在df3中存在e的取值,但是df1中不存在,则age的值为NaN

left

以左边数据框中的键为基准;如果左边存在但是右边不存在,则右边用NaN表示

图解过程如下:

  • 和上面图解过程的结果差别在于,没有出现e;
  • 当how=“left”,只会保留df1(left)中userid下面的全部取值,不包含e

right

以右边数据框中的键的取值为基准;如果右边存在但是左边不存在,则左边用NaN表示

image-20210724095138183

图解过程如下:

  • 当how=“right”,只会保留df3(right)中userid的全部取值
  • 结果只保留了df3的userid下面的全部取值:a、e

cross

笛卡尔积:两个数据框中的数据交叉匹配,出现n1*n2的数据量

笛卡尔积的图解过程如下:

  • 出现的数据量是4*2,userid下面的数据交叉匹配
  • 在最终结果中相同的字段userid为了避免混淆,会带上默认的后缀_x、_y

参数on

如果待连接的两个数据框有相同的键,则默认使用该相同的键进行联结。

上面的所有图解例子的参数on默认都是使用相同的键进行联结,所以有时候可省略。

再看个例子:

还可以将left和right的位置进行互换:

上面的两个例子都是针对数据框只有具有相同的一个键,如果不止通过一个键进行联结,该如何处理?通过一个来自官网的例子来解释,我们先创建两个DataFrame:df5、df6

现在进行两个数据框的合并:

合并的图解过程如下:

  • 通过on参数指定两个连接的字段key1、key2
  • 只有当两个数据框中的key1和key2的取值完全相同的时候(交集),才会保留下来;比如都出现了key1=K0,key2=K0和key1=K1,key2=K0。

在看一个通过how="outer"进行连接的案例:

看看图解的过程:

  • 指定连接的两个键key1、key2
  • 使用how=“outer”,会保留两个数据框中的全部数据。某个数据框中不存在键的值,则取NaN

参数left_on、right_on

上面在连接合并的时候,两个数据框之前都是有相同的字段,比如userid或者key1和key2。但是如何两个数据框中没有相同的键,但是这些键中的取值有相同的部分,比如我们的df1、df3:

在这个时候我们就使用left_on和right_on参数,分别指定两边的连接的键:

如果我们不指定,系统就会报错,因为这两个数据框是没有相同的键,本身是无法连接的:

参数suffixes

如果连接之后结果有相同的字段出现,默认后缀是_x_、_y。这个参数就是改变我们默认的后缀。我们回顾下笛卡尔积的形成;

现在我们可以指定想要的后缀:

indicator

这个参数的作用是表明生成的一条记录是来自哪个DataFrame:both、left_only、right_only

如果带上参数会显示一个新字段_merge

不带上参数的话,默认是不会显示来源的,看默认的情况:

总结

merge函数真的是非常强大,在工作中也使用地很频繁,完全可以实现SQL中的join效果。希望本文的图解能够帮助读者理解这个合并函数的使用。同时pandas还有另外几个与合并相关的函数,比如:join、concat、append,会在下一篇文中统一讲解。


http://chatgpt.dhexx.cn/article/Y336Rjwa.shtml

相关文章

数据分析--数据合并

数据合并 在日常的数据处理中,经常需要将两张表拼接起来使用,在SQL中对应的操作是join,在Pandas中则是merge函数实现。 merge函数的作用是用来拼接两张表,那么拼接时自然就需要将用户信息--对应地进行拼接,所以进行拼…

数据的合并和拼接

文章目录 Merge方法1.1 内连接(交集)1.2 外连接(并集)1.3 左连接1.4 右连接1.5 基于多列的连接算法1.6 基于index的连接方法 2. join方法3. concat方法3.1 series类型的拼接方法3.2 dataframe类型的拼接方法 merge方法主要是基于两…

STATA数据合并与追加(一)Merge

文章目录 Why Merge?一、Description 简要描述二、Syntax 命令语法1.语法示例2.Options 参数选项Merge命令的options 参数表参数具体说明 3.Remarks and examples 具例说明3.1 Overview 概述部分(1)Merge 1:1 varlist......指定一对一匹配合并(2)Merge 1:m 和 Merge…

5.1 合并数据

5.1 合并数据 5.1.1 堆叠合并数据1、横向堆叠 concat()2、纵向堆叠 concat()和append() 5.1.2 主键合并数据 merge()和join()5.1.3 重叠合并数据 combine_first() 5.1.1 堆叠合并数据 堆叠就是简单地把两个表拼在一起,也被称作轴向连接、绑定或连接。依照连接轴的方…

极速系列03—python进行数据合并(concat/merge)

两个表中的数据,要根据关键字段,进行合并。 在Excel中可以使用vlookup的方式,在python中可以使用concat或者是merge的方法。 1、pd.concat pd.concat 函数 拼接的对象可以是series,还可以是dataframe拼接对象的个数不受限axis …

Pandas 合并数据集

在数据挖掘过程中,经常会有不同表格的数据需要进行合并操作。今天介绍通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。 1.merge merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要 应用场景是针对同一个主键存在两张包含不同…

「python」DataFrame数据合并

使用python读取数据,进行所谓表的合并是非常常见的。但是我在这里不是介绍如何合并不同类型的表格 介绍两个函数:pandas.merge和pandas.concat 1. merge merge可以翻译成是融合的意思,使用的时候注意参数的设置。 函数的参数: …

Pandas | 详解数据的合并和拼接

转自Pandas | 详解数据的合并和拼接 个人学习收藏,侵删 -------------------------------------------------------------------------------------------------------- Pandas包的merge、join、concat方法可以完成数据的合并和拼接,merge方法主要基于…

一文搞定pandas的数据合并

作者:来源于读者投稿 出品:Python数据之道 一文搞定pandas的数据合并 在实际处理数据业务需求中,我们经常会遇到这样的需求:将多个表连接起来再进行数据的处理和分析,类似SQL中的连接查询功能。 pandas中也提供了几种方…

MySQL将多条数据合并成一条

数据库中存的是多条数据,展示的时候需要合并成一条 数据表存储形式如下图 以type分组,type相同的算一条,且保留image和link的所有数据,用groupBy只保留一条数据 解决方案:用 GROUP_CONCAT 完整语法如下 group_conc…

python数据合并

1.横向堆叠,即将两个表在x轴上拼接到一起,可以用concat函数进行。concat函数的基本语法如下: pandas.concat(objs,axis0,joinouter,join_axesNone,ignore_indexFalse, keysNone,levelsNone,namesNone,verify_integrityFalse,copyTrue) objs&…

python DataFrame数据合并 merge()、concat()方法

文章目录 merge()1.常规合并①方法1②方法2重要参数合并方式 left right outer inner准备数据‘inner(默认)outerleftright 2.多对一合并3.多对多合并 concat()1.相同字段的表首位相连2.横向表合并(行对齐)3.交叉合并 merge() 1.常…

python数据分析之pandas数据合并

🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作,类似于SQL中的内连接、外连接的操作. 目录 1. 合并数据的方式2. Merge合并方法2.1 连接2.1.1 直接用on连接2.1.2 采用left_on 和 right_on连接2.1.3 采用left_index 和 right_index连接 2.2 合并…

Pandas数据合并与拼接的5种方法

pandas实现数据的合并与拼接 目录 一、DataFrame.concat:沿着一条轴,将多个对象堆叠到一起 二、DataFrame.merge:类似 vlookup 三、DataFrame.join:主要用于索引上的合并 四、Series.append:纵向追加Series 五、…

Pandas 数据处理 | 多个数据表怎么合并(merge),你了解么?

Pands 两个数据列表合并方法总结; merge() 函数用于合并两个 DataFrame 对象或 Series,数据处理时经常会用到这个函数,官网给出该函数的定义如下: pandas.merge(left, right, how: str ‘inner’, onNone, left_onNone, right_…

[Pandas] 数据合并 pd.merge

实现类似SQL的join操作,通过pd.merge()方法可以自由灵活地操作各种逻辑的数据连接、合并等操作 可以将两个DataFrame或Series合并,最终返回一个合并后的DataFrame 语法 pd.merge(left, right, how inner, on None, left_on None, right_on None,l…

6.1 多数据源合并

1.案例介绍 通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。 2.数据准备 假设,某公…

数据合并之concat、append、merge和join

Pandas 是一套用于 Python 的快速、高效的数据分析工具。它可以用于数据挖掘和数据分析,同时也提供数据清洗功能。本文将详细讲解数据合并与连接,目录如下: ① concat 一.定义 concat函数可以在两个维度上对数据进行拼接,默认纵向…

这些数据合并的神操作,你掌握几个?

导读:在数据分析过程中,有时候需要将不同的数据文件进行合并处理。本文主要介绍三种数据合并方法。 Pandas提供了多功能、高性能的内存连接操作,本质上类似于SQL等关系数据库,比如,merge、join、concat等方法可以方便地…

6、数据的合并

目录 一、添加变量即横向合并。 二、添加个案即纵向合并 在实际工作中,为了提高效率,经常需要将一份数据分成几部分分别录入,或为了便于分析,又将几个数据文件合并成一个总的数据文件。为此,SPSS提供了两种合并数据文…