如何对 SQL 语句进行优化

article/2025/10/28 15:30:25

        当我们在设计一个项目时,开发阶段的业务数据量相对较少,一些 SQL 语句的执行效率对程序运行效率的影响不太明显,所以对于开发或运维人员来说不会注重对 SQL 语句的优化。但是,随着时间的积累,业务数据量会越来越多,SQL 的执行效率对程序的运行效率的影响逐渐增大,此时对SQL的优化就很有必要。

        本篇章主要从以下几个方面对 SQL 语句的优化进行介绍:

  • 插入数据优化
  • 主键优化
  • order by 优化
  • group by 优化
  • limit 优化
  • count 优化
  • update 优化

在探索 SQL 优化前,我们必须对 MySQL 索引有一个认识,因为 SQL 语句的优化基本上是基于索引进行的,所以,有不了解索引的小伙伴们可以先去看这篇文章: MySQL 索引及使用规则(优化sql的关键)

一、插入数据优化

insert 语句

如果我们需要一次性往数据库表中插入多条记录,可以从以下三个方面进行优化。

insert into tb_test values(1,'tom'); 
insert into tb_test values(2,'cat'); 
insert into tb_test values(3,'jerry'); 
.....

(1)批量插入数据(建议一条 sql 语句插入的数据量在 500-1000 之间)

Insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');

(2)手动控制事务:MySQL 默认自动提交事务,每执行一次 sql 语句就提交一次事务,较为频繁,我们可以手动地控制事务,在批量执行完 sql 语句后,手动提交事务。

start transaction; 
insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry'); 
insert into tb_test values(4,'Tom'),(5,'Cat'),(6,'Jerry'); 
insert into tb_test values(7,'Tom'),(8,'Cat'),(9,'Jerry'); 
commit;

(3)主键顺序插入,性能要高于乱序插入

主键乱序插入 : 8 1 9 21 88 2 4 15 89 5 7 3 
主键顺序插入 : 1 2 3 4 5 7 8 9 15 21 88 89

load 指令大批量插入数据

        如果一次性需要插入大批量数据(比如: 几百万的记录),使用 insert 语句插入性能较低,此时可以使用 MySQL 数据库提供的 load 指令进行插入。操作如下:

-- 客户端连接服务端时,加上参数 -–local-infile ,表示要加载本地文件
mysql –-local-infile -u root -p -- 设置全局参数local_infile为1,开启从本地加载文件导入数据的开关 
set global local_infile = 1; -- 执行load指令将准备好的数据,加载到表结构中 
load data local infile '[.sql文件的路径]' into table [表名] fields terminated by '[字段的分隔符]' lines terminated by '[行末结尾符]' ;

这里的字段分隔符是   ','    ,行末结尾符是  '\n'


二、主键优化

        在上一小节,我们提到,主键顺序插入的性能是要高于乱序插入的(因为乱序插入会产生页分裂)。 这一小节,就来介绍一下具体的原因,然后再分析一下主键又该如何设计。

        在 InnoDB 存储引擎中,表数据都是根据主键顺序组织存放的(如下图),这种存储方式的表称为索引组织表( index organized table IOT )。

        在 InnoDB 引擎中,数据行是记录在逻辑结构 page 页中的,而每一个页的大小是固定的,默认 16K。那也就意味着, 一个页中所存储的行也是有限的,如果插入的数据行 row 在该页存储不小,将会存储到下一个页中,页与页之间会通过指针连接。

页分裂

        页可以为空,也可以填充一半,也可以填充 100%。每个页包含了 2-N 行数据(如果一行数据过大,会行溢出),根据主键排列。 

        ① 当主键顺序插入时:首先从磁盘中申请一个页,数据按照主键顺序插入页中,当第一个页写满之后,再申请并写入第二个页,页与页之间会通过指针连接,当第二页写满了,再往第三页写入......

        ② 当主键乱序插入时: 如下图,当加入 1#, 2# 页都已经写满了,此时再插入 id 为 50 的记录,按照顺序,应该存储在 47 之后。但是 47 所在的 1# 页已经写满了。 那么此时会开辟一个新的页 3#,但是并不会直接将 50 存入 3# 页,而是会将 1# 页后一半的数据,移动到 3# 页,然后在 3# 页,插入 50。此时 1# 2# 3# 页的顺序是不对的,所以,需要重新设置链表指针。这种现象,称之为 "页分裂",是比较耗费性能的操作。

页合并

        当删除一行记录时,实际上记录并没有被物理删除,只是记录被标记(flaged)为删除并且它的空间变得允许被其他记录声明使用。当页中删除的记录达到 MERGE_THRESHOLD(默认为页的 50%),InnoDB 会开始寻找最靠近的页(前或后)看看是否可以将两个页合并以优化空间使用。 

补充:MERGE_THRESHOLD:合并页的阈值,可以自己设置,在创建表或者创建索引时指定。

主键设计原则

        由于每个二级索引的返回列中都会存在主键,所以当我们设计主键时应遵循以下原则:

  1. 满足业务需求的情况下,尽量降低主键的长度。
  2. 插入数据时,尽量选择顺序插入,选择使用AUTO_INCREMENT自增主键。
  3. 尽量不要使用UUID做主键或者是其他自然主键,如身份证号。
  4. 业务操作时,避免对主键的修改。 

三、order by 优化

MySQL的排序,有两种方式:

        ① Using filesort : 通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区 sortbuffer 中完成排序操作,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。

        ② Using index : 通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。

对于以上的两种排序方式,Using index的性能高,而Using filesort的性能低,我们在优化排序
操作时,尽量要优化为 Using index。

下面我们通过一个例子看一下如何进行 order by 优化:

① 如果进行排序的字段没有索引,此时进行 order by 排序时出现的是 Using filesort,排序性能较低。

 ② 如果为 age, phone 字段创建一个联合索引,

create index idx_user_age_phone_aa on tb_user(age, phone);

        a. 如果对 age 和 phone 进行升序查询(默认),就由原来的 Using filesort, 变为了 Using index,性能就是比较高的了。

        b. 而如果对 age 和 phone 进行降序查询,也出现 Using index, 但是此时Extra中出现了 Backward index scan,这个代表反向扫描索引,因为在MySQL中我们创建的索引,默认索引的叶子节点是从小到大排序的,而此时我们查询排序时,是从大到小,所以,在扫描时,就是反向扫描,就会出现 Backward index scan。(MySQL 8 之后支持)

        c. 如果先查 phone,后查 age,会出现 Using filesort,因为要遵循最左前缀原则,而 order by 查询条件与 where 查询条件不一样,order by 的查询顺序和 SQL 语句中字段的顺序保持一致,索引与 SQL 语句中的顺序有关,而 where 的各个字段不存在顺序问题,与位置无关,只看是否存在

        d. 如果对 age 升序查询,phone 降序查询,就会出现 Using filesort。因为创建索引时,如果未指定顺序,默认都是按照升序排序的,而查询时,一个升序,一个降序,此时就会出现 Using filesort。

③  为了解决上述的问题,我们可以创建一个索引,这个联合索引中 age 升序排序,phone 倒序排序。(MySQL 8 之后支持)

create index idx_user_age_phone_ad on tb_user(age asc ,phone desc);

创建好索引后,再次对 age 升序查询,phone 降序查询是,就显示 Using index 了。

order by 设计原则:​​​

        由上述的测试,我们得出 order by 优化原则:

  1. 根据排序字段建立合适的索引,多字段排序时,也遵循最左前缀法则。
  2. 尽量使用覆盖索引。
  3. 多字段排序, 一个升序一个降序,此时需要注意联合索引在创建时的规(ASC/DESC)
  4. 如果不可避免的出现filesort,大数据量排序时,可以适当增大排序缓冲区大小sort_buffer_size(默认256k)。

四、group by 优化

首先在没有索引的情况下,执行如下 SQL,查询执行计划:

然后,我们再针对于 profession , age, status 创建一个联合索引。紧接着,再执行前面相同的SQL查看执行计划。

create index idx_user_pro_age_sta on tb_user(profession, age, status);

继续更改查询条件我们可以得到:使用:

explain select age, count(*) from tb_user where profession = '软件工程' group by age;
explain select age, count(*) from tb_user where age = 17 group by profession;

等语句,就不会出现 Using temporary,而使用:

explain select age, count(*) from tb_user group by age;
explain select profession, count(*) from tb_user group by age, profession;

等语句,就会出现 Using temporary,所以,group by 也是符合最左前缀法则的。

group by 设计原则:​​​

        由上述的测试,我们需要通过以下两点对 group by 进行优化,以提升性能:

  1. 在分组操作时,可以通过索引来提高效率。
  2. 分组操作时,索引的使用也是满足最左前缀法则的。

五、limit 优化

        在数据量比较大时,如果进行 limit 分页查询,在查询时,越往后,分页查询效率越低。例如:当在进行分页查询时,如果执行 limit 2000000,10 ,此时需要MySQL排序前2000010 记录,仅仅返回 2000000 - 2000010 的记录,其他记录丢弃,查询排序的代价非常大 。

        优化思路:一般分页查询时,通过创建 覆盖索引 能够比较好地提高性能,可以通过覆盖索引加子查询形式进行优化。即,不进行回表查询,把在二级索引查询的结果作为子查询。

explain select s.* from tb_user t , (select id from tb_user order by id limit 2000000,10) a where t.id = a.id;

六、count 优化

        在使用 count(*) 聚合函数对数据量进行统计时,如果数据量很大,在执行 count 操作时,是非常耗时的。 

        MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 的时候会直接返回这个数,效率很高; 但是如果是带条件的 count,MyISAM 也慢。
        InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

        如果说要大幅度提升 InnoDB 表的 count 效率,主要的优化思路:自己计数(可以借助于 redis 这样的数据库进行,但是如果是带条件的 count 又比较麻烦了)。 

补充:当使用 count(字段) 时,返回值不一定等于 count(*),因为若某字段的值为 null 时,则不进行计数。 

count( ) 的几种用法:

        count用
                                含义
count( 主键)
InnoDB 引擎会遍历整张表,把每一行的 主键  id 值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加( 主键不可能为  null )
count( 字段)
没有  not null 约束 : InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,服务层判断是否为null ,不为 null ,计数累加。
not null 约束: InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加。
count( 数字)
InnoDB 引擎遍历整张表,但不取值。服务层对于返回的每一行,放一个数字  “1” 进去,直接按行进行累加。
count(*)
InnoDB  引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行进行累加。
按照效率排序的话,count(*) ≈ count(1) > count(主键) > count(字段),所以尽量使用 count(*)。

七、update 优化

当我们执行下面一条更新语句时( id 为主键):

update user set name = '李四' where id = 1;

在执行删除的 SQL 语句时,会锁定 id 为 1 这一行的数据,然后事务提交之后,行锁释放。

但是如果我们执行如下 SQL 语句(name 字段既不是主键,也没有索引):

update user set name = '李四' where name = '张三' ;

当我们开启多个事务,在执行上述的 SQL 时,我们发现行锁升级为了表锁。 导致该 update 语句的性能大大降低。

所以可以得出结论:InnoDB 的行锁是针对索引加的锁,不是针对记录加的锁 ,并且该索引不能失效,否则会从行锁升级为表锁 。


http://chatgpt.dhexx.cn/article/kKHIuWGK.shtml

相关文章

SQL语句优化

作者:AIOps 特别申明:文章属于转载 应用程序慢如牛,原因多多,可能是网络的原因、可能是系统架构的原因,还有可能是数据库的原因。 那么如何提高数据库SQL语句执行速度呢?有人会说性能调优是数据库管理员&…

慢SQL语句优化

对慢SQL语句优化一般可以按下面几步思路:开启慢查询日志,设置超过几秒为慢SQL语句,抓取慢SQL语句;通过explain查看执行计划,对慢SQL语句分析;创建索引并调整语句,再查看执行计划,对比…

mysql之sql语句优化

这篇文章从15个方面,分享了sql优化的一些小技巧,希望对你有所帮助。 1 避免使用select * 很多时候,我们写sql语句时,为了方便,喜欢直接使用select *,一次性查出表中所有列的数据。 反例: sel…

MySql SQL语句优化方法

1.插入优化 当数据过大时,通过load函数上传 2.主键优化 页分裂:当数据乱序插入时,由于主键是按序排的,所以再插入时,当发现页的空间不够时,会通过重新开辟一个页,将原页中的数据拷贝进新的页中…

SQL 语句优化

MySQL 策略优化 索引(Index) 一、优化细则 在 where 子句中使用 ! 或 <> 操作符&#xff0c;会导致引擎放弃使用索引而进行全表扫描。SQL 中不等于操作符会限制索引&#xff0c;造成全表扫描&#xff0c;即使比较的字段上有索引。 模糊查询效率很低原因&#xff1a;l…

算法设计与分析 (知识点总结)

算法设计与分析 目录 算法设计与分析前言第一章 算法基础1.1 算法概述1.2 算法分析1.3 算法复杂度1.4 渐近表示法 第二章 分治法 前言 通过学习掌握算法设计的主要方法&#xff0c;对算法的时、空复杂性有正确分析的能力&#xff0c;能够针对具体的应用问题选择合适的数据结构并…

算法设计与分析——prim算法

目录 前言一、算法思想分析二、算法效率分析三、算法代码C语言代码 后记 前言 在上一篇文章中&#xff0c;我们聊了聊KMP算法&#xff0c;一个极其高效但又非常难以理解&#xff08;个人看来&#xff09;的算法&#xff0c;如果有朋友想要深度讨论&#xff0c;欢迎私信。 本篇…

计算机算法设计与分析(1-6章 复习笔记)

计算机算法设计与分析 最近发现一些刷题的网站&#xff0c;牛客、力扣&#xff0c;很适合用来熟悉算法和语言知识点。 第1章 算法概述 1.1 算法与程序 算法 是解决问题的一种方法或一个过程。 严格地说&#xff0c;算法是由若干条指令组成的有穷序列&#xff0c;且满足下述4条…

算法设计与分析——概述

概述 算法的概念何为算法算法的五大特征算法设计的基本步骤算法与数据结构 算法分析算法时间复杂度算法空间复杂度渐进符号&#xff08;O、Ω和θ&#xff09; 算法设计工具——STLSTL概述何为STL容器何为STL算法何为STL迭代器 常用STL容器顺序容器关联容器适配器容器 推荐书籍…

算法设计与分析 —— 算法的复杂度分析

什么是算法的复杂度 &#xff08;1&#xff09;算法复杂度即算法所需要的计算机资源 &#xff08;2&#xff09;算法的复杂度可分为算法的时间复杂度 T ( n ) T(n) T(n) 和算法的空间复杂度 S ( n ) S(n) S(n)&#xff0c;其中 n n n 是问题的规模&#xff08;输入大小&am…

算法设计与分析 第一章 基础知识作业1

目录 算法分析题1.1 函数的渐进表达式1.3 证明对于任何实数x和整数a,b,n:1.7 函数渐进阶 算法实现题1.1 统计数字问题1.3 最多约数问题 算法分析题 1.1 函数的渐进表达式 求下列函数的渐近表达式&#xff1a;3n210n; n2/102n; 211/n; logn3; 10log3n 1.3 证明对于任何实数x…

USTC算法设计与分析-总结

《算法设计与分析》是中国科学技术大学计算机专业的研究生学科基础课&#xff0c;黄刘生老师讲概率算法和近似算法&#xff0c;汪炀老师讲分布式算法&#xff0c;因为课程内容繁杂且难度较大&#xff0c;所以结合了上课所做笔记和期末复习总结成思维导图&#xff0c;梳理下思路…

《算法设计与分析基础》第2版

今天开始学习《算法设计与分析基础》这本书&#xff0c;书中提及的算法均会在后续博客实现。 清华大学出版社。

算法设计与分析重点总结

考试题型&#xff1a; 选择 2* 10个 填空2* 10个 简答 3* 4个 程序分析填空 4* 4个 综合&#xff08;代码&#xff09;8* 4个 第一章基础知识 1.算法的定义 算法就是解决问题的方法&#xff0c;是解决某一特定问题的一组有穷指令的序列&#xff0c;是完成一个任务所需要的具…

算法设计与分析基础 第八章谜题

习题8.1 6.切割木棍问题 为下列问题设计一个动态规划算法。已知小木棍的销售价格pi和长度i相关&#xff0c;i1,2&#xff0c;…&#xff0c;n&#xff0c;如何把长度为n的木棍切割为若干根长度为整数的小木棍&#xff0c;使得所获得的总销售价格最大&#xff1f;该算法的时间效…

算法设计与分析基础(三)

算法设计与分析基础(三) 练习题 根据下列函数的增长次数按照从低到高的顺序对他们进行排序。 解答&#xff1a; 解答&#xff1a; 即&#xff0c;该多项式的始终值为ak*n^k,则结论成立。 考虑下面的算法&#xff1a; 算法Mystery(m) //输入:非负整数n S←0 for i←1 to …

算法设计与分析基础

To All Of You&#xff1a; 一个人在接受科技教育时能得到的最珍贵的收获是能够终身受用的通用智能工具。 在讨论算法的书籍中&#xff0c;一般会采用两种方案中的一种&#xff1a; 1.第一种方案是按照问题的类型对算法进行分类。这类教材安排了不同的章节分别讨论排序&…

第一章 算法设计与分析基础知识

系列文章目录 第一章 算法设计与分析基础知识 第二章 算法的分治策略 第三章 算法的动态规划 第四章 算法的贪心法 …… [TOC](这里写目录标题) # 一级目录 ## 二级目录 ### 三级目录 参考教材 《算法设计与分析&#xff08;第2版&#xff09;》是由屈婉玲、刘田、张立昂、王…

算法设计与分析——算法分析基础

算法分析主要是时间复杂度和空间复杂度的两个方面的分析 此处带着问题小预告一把&#xff1a; 时间复杂度&#xff1f;空间复杂度&#xff1f; 大O、大和大分别表示什么&#xff1f; 如何得到递归方程&#xff1f;如何求解递归方程呢&#xff1f; 带着问题来探索吧~ 目录…

算法设计与分析(1)——基础知识

写完 Java 的我又开始对 算法设计与分析 下手了(✿◡‿◡) 内容主要是以 北京大学 屈婉玲老师的 MOOC 视频来写的&#xff0c;视频共是十周的内容&#xff0c;我决定用 五 篇博客完成。 温馨提示&#xff1a;这个课程不仅适用于 算法设计与分析 的学习&#xff0c;也非常适用…