utf8和utf8mb4的区别

article/2025/8/31 2:38:16

1. 基础知识

1.1 bit ， byte ， word

字 word

字节 byte (B)

位 bit (b)

1.2 单位换算

1字节 = 8位(1 byte = 8bit)

1字 = 2字节(1 word = 2 byte)

一个汉字 = 2字节

中文标点 = 三个字节

一个英文字母 = 一个字节

英文标点 = 一个字节

Emoji表情或者某些特殊字符 = 4个字节

1.3 Ascll

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。

最早的计算机在设计时采用8个比特（bit）作为一个字节（byte）。

一个字节能表示的最大的整数就是255（2^8-1=255），而ASCII编码，占用0 - 127用来表示大小写英文字母、数字和一些符号，这个编码表被称为Ascll表，比如大写字母A的编码是65，小写字母z的编码是122。

1.4 Unicode

如果要表示中文，显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。

类似的，日文和韩文等其他语言也有这个问题。为了统一所有文字的编码，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。

2. utf8 & utf8mb4

2.1 utf8

是针对Unicode的一种可变长度字符编码。

由于对可以用Ascll表示的字符，使用Unicode并不高效，因为Unicode比Ascll占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。

为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Unicode Transformation Format）。

2.2 utf8mb4（mb4 = most bytes 4）

所以utf8是utf8mb4的子集，除了将编码改为utf8mb4外不需要做其他转换。

MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用utf8也就够了。

既然utf8应付日常使用完全没有问题，那为什么还要使用utf8mb4呢?

低版本的MySQL支持的utf8编码，最大字符长度为 3 字节，如果遇到 4 字节的字符就会出现错误了。

三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF，也就是 Unicode 中的基本多文平面（BMP）。

也就是说，任何不在基本多文平面的 Unicode字符，都无法使用MySQL原有的 utf8 字符集存储。

可以到以下的链接，看unicode编码区从1 ~ 126就属于传统utf8区,当然utf8mb4也兼容这个区,126行以下就是utf8mb4扩充区,什么时候你需要存储那些字符,你才用utf8mb4,否则只是浪费空间。

编码http://blog.csdn.net/leelyliu/article/details/52879685

2.3 utf8mb4比utf8多了emoji编码支持

如果实际用途上来看,可以给要用到emoji的库或者说表,设置utf8mb4.

比如评论要支持emoji可以用到.

建议普通表使用utf8 如果这个表需要支持emoji就使用utf8mb4

2.4 排序规则

排序规则选择常用的有utf8_general_ci , utf8_unicode_ci

utf8_unicode_ci 是基于标准的Unicode来排序和比较，能够在各种语言之间精确排序 , 为了能够处理特殊字符的情况，实现了略微复杂的排序算法。

所以 utf8_unicode_ci 的准确性比较好 , 但是性能相对比较低。

utf8_general_ci 没有实现Unicode排序规则，在遇到某些特殊语言或字符是，排序结果可能不是所期望的。

比如Unicode把ß、Œ当成ss和OE来看；而general会把它们当成s、e，再如ÀÁÅåāă各自都与 A 相等。在比较和排序的时候更快，所以utf8_general_ci 的准确性较低，但是性能比较好。通常情况下 utf8_general_ci的准确性就够我们用的了。

索引长度，从utf8转utf8mb4，容易引起索引键超长错误，InnoDB有单个索引最大字节数 768 的限制，而字段定义的是能存储的字符数，比如 VARCHAR(200) 代表能够存200个汉字，索引定义是字符集类型最大长度算的，超过768后抛出异常。

2.5 推荐新项目中使用utf8mb4的编码

UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。

因为历史遗留问题，MySQL 中的 utf8 编码并不是真正的 UTF-8，而是阉割版的，最长只有3个字节。

当遇到占4个字节的 UTF-8 编码，例如 emoji 字符或者复杂的汉字，会导致存储异常。

从 5.5.3 开始，MySQL 开始用 utf8mb4 编码来实现完整的 UTF-8，其中 mb4 表示 most bytes 4，最多占用4个字节。

从 8.0 之后，将会在某个版本开始用 utf8mb4 作为默认字符编码。

创建数据库时，如果没有指定字符集，会采用服务器的默认字符集。设置服务器默认字符集为 utf8mb4 可以提高便利性。

utf8和utf8mb4的区别

1. 基础知识

1.1 bit ， byte ， word

1.2 单位换算

1.3 Ascll

1.4 Unicode

2. utf8 & utf8mb4

2.1 utf8

2.2 utf8mb4（mb4 = most bytes 4）

2.3 utf8mb4比utf8多了emoji编码支持

2.4 排序规则

2.5 推荐新项目中使用utf8mb4的编码

相关文章

简单明了！utf8和utf8mb4的区别

浅谈uf8mb4字符集

学习笔记4-K均值聚类算法

【吴恩达机器学习-笔记整理】k-means（k-均值聚类算法）

25.K-均值算法的介绍及实现过程

K-means（K均值聚类算法）算法笔记

K-近邻算法讲解以及实战

第十五课.K均值算法

K均值与K近邻算法简析

聚类算法、无监督学习、K均值算法及其优化函数

K-means算法-综合整理

K均值聚类算法(Kmeans)讲解及源码实现

K-means算法详解及实现

K-近邻算法全面解析

k-means clustering algorithm，K均值算法

K-means算法手动实现

k-means聚类算法原理与参数调优详解

kmeans算法及其改进算法K-means++,ISODATA和Kernel K-means

【算法】一个简单的k均值（k-means）原理

K-均值算法简介