【pandas 基本操作:数据合并】

article/2025/10/6 0:55:29

pandas基本操作

第一章 数据清洗
第二章 数据合并
第三章 数据重塑
第四章 数据转换


文章目录

  • pandas基本操作
  • 前言
  • 1. 轴向堆叠数据
  • 2. 主键合并数据
  • 3. 根据行索引合并数据
  • 4. 合并重叠数据


前言

数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。

数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性唯一性权威性合法性一致性等特点

脏数据在这里指的是对数据分析没有实际意义格式非法不在指定范围内的数据。


提示:以下是本篇文章正文内容,下面案例可供参考

1. 轴向堆叠数据

concat()函数可以沿着一条轴将多个对象进行堆叠,其使用方式类似数据库中的数据表合并。

concat(objs,axis=0,join=‘outer’,join_axes=None,ignore_index=False,
keys=None,levels=None,names=None, ...)
  • axis:表示连接的轴向,可以为01,默认为0
  • join:表示连接的方式inner表示内连接,outer表示外连接,默认使用外连接
  • ignore_index:如果设置为True清除现有索引并重置索引值。
  • names:结果分层索引中的层级的名称。

根据轴方向的不同,可以将堆叠分成横向堆叠纵向堆叠默认采用的是纵向堆叠方式

在堆叠数据时,默认采用的是外连接(join参数设为outer)的方式进行合并,当然也可以通过join=inner设置为内连接的方式。

外连接的方式求得是合集,内连接的方式求的是交集

当使用concat()函数合并时,若是将axis参数的值设为1,且join参数的值设为outer,代表着使用横向堆叠外连接的方式进行合并
在这里插入图片描述

当使用concat()函数合并时,若是将axis参数的值设为0,且join参数的值设为inner,则代表着使用纵向堆叠内连接的方式进行合并。
在这里插入图片描述

2. 主键合并数据

主键合并类似于关系型数据库的连接方式,它是指根据一个或多个键将不同的DatFrame对象连接起来,大多数是将两个DatFrame对象中重叠的列作为合并的键。

Pandas中提供了用于主键合并的merge()函数。

pandas.merge(left, right, how='inner', on=None, left_on=None,
right_on=None, left_index=False, right_index=False, sort=False,
suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
  • left:参与合并的左侧DataFrame对象。
  • right:参与合并的右侧DataFrame对象。
  • how:表示连接方式,默认为inner

how参数可以取下列值:

  • left:使用左侧的DataFrame的键,类似SQL的左外连接
  • right:使用右侧的DataFrame的键,类似SQL的右外连接
  • outer:使用两个DataFrame所有的键,类似SQL的全连接
  • inner:使用两个DataFrame键的交集,类似SQL的内连接

在使用merge()函数进行合并时,默认会使用重叠的列索引做为合并键,并采用内连接方式合并数据,即取行索引重叠的部分。

在这里插入图片描述

除此之外,merge()函数还支持对含有多个重叠列的DataFrame对象进行合并

在这里插入图片描述

使用外连接的方式将leftright进行合并时,列中相同的数据会重叠,没有数据的位置使用NaN进行填充。

在这里插入图片描述

左连接是以左表为基准进行连接,所以left表中的数据会全部显示right表中只会显示与重叠数据行索引值相同的数据,合并后表中缺失的数据会使用NaN进行填充。

在这里插入图片描述

右连接与左连接的规则正好相反,右连接是以右表为基准,右表中的数据全部显示,而左表中显示与重叠数据行索引值相同的数据,合并后缺失的数据使用NaN填充合并。

在这里插入图片描述

假设两张表中的行索引与列索引均没有重叠的部分,但依旧可以使用merge函数来合并,只需要将参数left_indexright_index的值设置为True即可。

在这里插入图片描述

3. 根据行索引合并数据

join()方法能够通过索引指定列来连接多个DataFrame对象。

join(other,on = None,how ='left',lsuffix ='',rsuffix ='',sort = False )
  • on:名称,用于连接列名
  • how:可以从{‘‘left’’ ,‘‘right’’, ‘‘outer’’,‘‘inner’’}中任选一个,默认使用左连接的方式。
  • sort:根据连接键对合并的数据进行排序,默认为False

4. 合并重叠数据

DataFrame对象中出现了缺失数据,而我们希望使用其他DataFrame对象中的数据填充缺失数据,则可以通过combine_first()方法为缺失数据填充。

combine_first(other)
  • 上述方法中只有一个参数other,该参数用于接收填充缺失值的DataFrame对象。

假设现在有left表与right表,其中left表中存在3个缺失的数据,而right表中的数据是完整的,并且right表与left表有相同的索引名,此时我们可以使用right表中的数据来填充left表的缺失数据,得到一个新的result表

在这里插入图片描述
转载于:https://edu.csdn.net/skill/python02/python-3-205?category=883&typeId=17523#21__284


http://chatgpt.dhexx.cn/article/f97riGiR.shtml

相关文章

图解pandas的数据合并merge

公众号:尤而小屋作者:Peter编辑:Peter 大家好,我是Peter~ 在实际的业务需求中,我们的数据可能存在于不同的库表中。很多情况下,我们需要进行多表的连接查询来实现数据的提取,通过SQL的join&…

数据分析--数据合并

数据合并 在日常的数据处理中,经常需要将两张表拼接起来使用,在SQL中对应的操作是join,在Pandas中则是merge函数实现。 merge函数的作用是用来拼接两张表,那么拼接时自然就需要将用户信息--对应地进行拼接,所以进行拼…

数据的合并和拼接

文章目录 Merge方法1.1 内连接(交集)1.2 外连接(并集)1.3 左连接1.4 右连接1.5 基于多列的连接算法1.6 基于index的连接方法 2. join方法3. concat方法3.1 series类型的拼接方法3.2 dataframe类型的拼接方法 merge方法主要是基于两…

STATA数据合并与追加(一)Merge

文章目录 Why Merge?一、Description 简要描述二、Syntax 命令语法1.语法示例2.Options 参数选项Merge命令的options 参数表参数具体说明 3.Remarks and examples 具例说明3.1 Overview 概述部分(1)Merge 1:1 varlist......指定一对一匹配合并(2)Merge 1:m 和 Merge…

5.1 合并数据

5.1 合并数据 5.1.1 堆叠合并数据1、横向堆叠 concat()2、纵向堆叠 concat()和append() 5.1.2 主键合并数据 merge()和join()5.1.3 重叠合并数据 combine_first() 5.1.1 堆叠合并数据 堆叠就是简单地把两个表拼在一起,也被称作轴向连接、绑定或连接。依照连接轴的方…

极速系列03—python进行数据合并(concat/merge)

两个表中的数据,要根据关键字段,进行合并。 在Excel中可以使用vlookup的方式,在python中可以使用concat或者是merge的方法。 1、pd.concat pd.concat 函数 拼接的对象可以是series,还可以是dataframe拼接对象的个数不受限axis …

Pandas 合并数据集

在数据挖掘过程中,经常会有不同表格的数据需要进行合并操作。今天介绍通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。 1.merge merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要 应用场景是针对同一个主键存在两张包含不同…

「python」DataFrame数据合并

使用python读取数据,进行所谓表的合并是非常常见的。但是我在这里不是介绍如何合并不同类型的表格 介绍两个函数:pandas.merge和pandas.concat 1. merge merge可以翻译成是融合的意思,使用的时候注意参数的设置。 函数的参数: …

Pandas | 详解数据的合并和拼接

转自Pandas | 详解数据的合并和拼接 个人学习收藏,侵删 -------------------------------------------------------------------------------------------------------- Pandas包的merge、join、concat方法可以完成数据的合并和拼接,merge方法主要基于…

一文搞定pandas的数据合并

作者:来源于读者投稿 出品:Python数据之道 一文搞定pandas的数据合并 在实际处理数据业务需求中,我们经常会遇到这样的需求:将多个表连接起来再进行数据的处理和分析,类似SQL中的连接查询功能。 pandas中也提供了几种方…

MySQL将多条数据合并成一条

数据库中存的是多条数据,展示的时候需要合并成一条 数据表存储形式如下图 以type分组,type相同的算一条,且保留image和link的所有数据,用groupBy只保留一条数据 解决方案:用 GROUP_CONCAT 完整语法如下 group_conc…

python数据合并

1.横向堆叠,即将两个表在x轴上拼接到一起,可以用concat函数进行。concat函数的基本语法如下: pandas.concat(objs,axis0,joinouter,join_axesNone,ignore_indexFalse, keysNone,levelsNone,namesNone,verify_integrityFalse,copyTrue) objs&…

python DataFrame数据合并 merge()、concat()方法

文章目录 merge()1.常规合并①方法1②方法2重要参数合并方式 left right outer inner准备数据‘inner(默认)outerleftright 2.多对一合并3.多对多合并 concat()1.相同字段的表首位相连2.横向表合并(行对齐)3.交叉合并 merge() 1.常…

python数据分析之pandas数据合并

🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作,类似于SQL中的内连接、外连接的操作. 目录 1. 合并数据的方式2. Merge合并方法2.1 连接2.1.1 直接用on连接2.1.2 采用left_on 和 right_on连接2.1.3 采用left_index 和 right_index连接 2.2 合并…

Pandas数据合并与拼接的5种方法

pandas实现数据的合并与拼接 目录 一、DataFrame.concat:沿着一条轴,将多个对象堆叠到一起 二、DataFrame.merge:类似 vlookup 三、DataFrame.join:主要用于索引上的合并 四、Series.append:纵向追加Series 五、…

Pandas 数据处理 | 多个数据表怎么合并(merge),你了解么?

Pands 两个数据列表合并方法总结; merge() 函数用于合并两个 DataFrame 对象或 Series,数据处理时经常会用到这个函数,官网给出该函数的定义如下: pandas.merge(left, right, how: str ‘inner’, onNone, left_onNone, right_…

[Pandas] 数据合并 pd.merge

实现类似SQL的join操作,通过pd.merge()方法可以自由灵活地操作各种逻辑的数据连接、合并等操作 可以将两个DataFrame或Series合并,最终返回一个合并后的DataFrame 语法 pd.merge(left, right, how inner, on None, left_on None, right_on None,l…

6.1 多数据源合并

1.案例介绍 通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。 2.数据准备 假设,某公…

数据合并之concat、append、merge和join

Pandas 是一套用于 Python 的快速、高效的数据分析工具。它可以用于数据挖掘和数据分析,同时也提供数据清洗功能。本文将详细讲解数据合并与连接,目录如下: ① concat 一.定义 concat函数可以在两个维度上对数据进行拼接,默认纵向…

这些数据合并的神操作,你掌握几个?

导读:在数据分析过程中,有时候需要将不同的数据文件进行合并处理。本文主要介绍三种数据合并方法。 Pandas提供了多功能、高性能的内存连接操作,本质上类似于SQL等关系数据库,比如,merge、join、concat等方法可以方便地…