字符编码的概念（UTF-8、UTF-16、UTF-32都是什么鬼）

字符集为每个字符分配了一个唯一的编号，通过这个编号就能找到对应的字符。在编程过程中我们经常会使用字符，而使用字符的前提就是把字符放入内存中，毫无疑问，放入内存中的仅仅是字符的编号，而不是真正的字符实体。

这就抛出了一个问题，如何才能将字符编号放入内存中呢？

对于 ASCII 字符集，这很容易。ASCII 总共包含 128 个字符，用 7 个比特位（Bit）恰好能够存储，不过考虑到计算机一般把字节（Byte）作为基本单元，为了操作方便，我们不妨用一个字节（也就是 8 个比特位）来存储 ASCII。这样虽然浪费了一个比特位，但是读写效率提高了。

但是对于 Unicode，问题就没有这么简单了。Unicode 目前已经包含了上百万的字符，位置靠前的字符用一个字节就能存储，位置靠后的字符用三个字节才能存储。我们可以为所有字符都分配三个字节的内存，也可以为编号小的字符分配一个字节或者两个字节的内存，而为编号大的字符分配三个字节的内存。

这两种方案各有优缺点，请读者看下面的分析。

字符集和字符编码不是一个概念，字符集定义了文字和二进制的对应关系，为字符分配了唯一的编号，而字符编码规定了如何将文字的编号存储到内存中。有的字符集在制定时就考虑到了编码的问题，是和编码结合在一起的；有的字符集只管制定字符的编号，至于怎么编码，是其他人的事情。

方案1：为每个字符分配固定长度的内存

一种方案是为每个字符分配固定长度的内存，并且这块内存要足够大，可以容纳下所有的字符编号。这种方案最简单，直接将字符编号放入内存中即可，不需要任何转换，并且以后在字符串中定位字符、修改字符都非常容易。

字符串就是一串连续的字符序列，它们在内存中按次序挨着存放。在C语言中，字符串由双引号 " "包围起来。

目前的 Unicode 已经收录了上百万的字符，至少需要三个字节才能容纳下所有的字符编号。假设字符串"A3中￥"的 Unicode 编码值（十六进制形式）分别是 2A、31、DA49、BB672C，那么它们在内存中的存储形式为：

在几乎所有的字符集中，常用字符的编号往往比较小，罕见字符的编号往往比较大，包括 Unicode 在内。

A和3是 ASCII 编码中的字符，Unicode 为了兼容 ASCII，在设计时刻意保留了原来 ASCII 中字符的编号，所以英文字母和阿拉伯数字在 Unicode 中的编号都非常小，用一个字节足以容纳。中是一个汉字，编号比较大，一般要用两个字节才能容纳。￥可以看做是一个极其少见，或者只有极少数地区才会使用到的字符，这样的字符编号往往比较大，有时候需要三个字节才能容纳。

￥是人民币符号，是汉字文化的一部分，它和其它汉字一样，实际上是用两个字节存储的，不过这里我们为了演示，故意犯错地说它需要三个字节。

上图中带灰色背景的字节是没有用到的字节，它们就是被浪费掉的一部分内存空间，这就是用固定长度的内存来存储字符编号的缺点：常用字符的编号都比较小，这种方案会浪费很多内存空间，对于以英文为主的国家，比如美国、加拿大、英国等，内存利用率甚至会低于 50%。

方案2：为每个字符分配尽量少的内存

既然上面的方案有缺点，那我们就来改进一下。改进的思路也很明确，就是把空闲的内存压缩掉，为每个字符分配尽量少的字节，例如，A和3分配一个字节足以，中分配两个字节足以，如下图所示：

这样虽然没有了空闲字节，不浪费任何内存空间了，但是又出现新的问题了：如果我不告诉你，你怎么知道2A表示一个字符，而不是2A31或者2A31DA才表示一个字符呢？后面的字符也有类似的问题。

对于第一种方案，每个字符占用的字节数是固定的，很容易区分各个字符；而这种方案，不同的字符占用的字节数不同，字符之间也没有特殊的标记，计算机是无法定位字符的。

这种方案还需要改进，必须让不同的字符编码有不同的特征，并且字符处理程序也需要调整，要根据这些特征去识别不同的字符。

要想让不同的字符编码有不同的特征，可以从两个方面下手：

1) 一是从字符集本身下手，在设计字符集时，刻意让不同的字符编号有不同的特征。

例如，对于编号较小的、用一个字节足以容纳的字符，我们就可以规定这个字符编号的最高位（Bit）必须是 0；对于编号较大的、要用两个字节存储的字符，我们就可以规定这个字符编号的高字节的最高位必须是 1，低字节的最高位必须是 0；对于编号更大的、需要三个字节存储的字符，我们就可以规定这个字符编号的所有字节的最高位都必须是 1。

程序在定位字符时，从前往后依次扫描，如果发现当前字节的最高位是 0，那么就把这一个字节作为一个字符编号。如果发现当前字节的最高位是 1，那么就继续往后扫描，如果后续字节的最高位是 0，那么就把这两个字节作为一个字符编号；如果后续字节的最高位是 1，那么就把挨着的三个字节作为一个字符编号。

这种方案的缺点很明显，它会导致字符集不连续，中间留出大量空白区域，这些空白区域不能定义任何字符。

2) 二是从字符编号下手，可以设计一种转换方案，字符编号在存储之前先转换为有特征的、容易定位的编号，读取时再按照相反的过程转换成字符本来的编号。

那么，转换后的编号要具备什么样的特征呢？其实也可以像上面一样，根据字节的最高位是 0 还是 1 来判断字符到底占用了几个字节。

相比第一种方案，这种方案有缺点也有优点：

缺点就是多了转换过程，字符在存储和读取时要经过转换，效率低；
优点就是在制定字符集时不用考虑存储的问题，可以任意排布字符。

Unicode 到底使用哪种编码方案

Unicode 是一个独立的字符集，它并不是和编码绑定的，你可以采用第一种方案，为每个字符分配固定长度的内存，也可以采用第二种方案，为每个字符分配尽量少的内存。

需要注意的是，Unicode 只是一个字符集，在制定的时候并没有考虑编码的问题，所以采用第二种方案时，就不能从字符集本身下手了，只能从字符编号下手，这样在存储和读取时都要进行适当的转换。

Unicode 可以使用的编码有三种，分别是：

UFT-8：一种变长的编码方案，使用 1~6 个字节来存储；
UFT-32：一种固定长度的编码方案，不管字符编号大小，始终使用 4 个字节来存储；
UTF-16：介于 UTF-8 和 UTF-32 之间，使用 2 个或者 4 个字节来存储，长度既固定又可变。

UTF 是 Unicode Transformation Format 的缩写，意思是“Unicode转换格式”，后面的数字表明至少使用多少个比特位（Bit）来存储字符。

1) UTF-8

UTF-8 的编码规则很简单：如果只有一个字节，那么最高的比特位为 0；如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。

具体的表现形式为：

0xxxxxxx：单字节编码形式，这和 ASCII 编码完全一样，因此 UTF-8 是兼容 ASCII 的；
110xxxxx 10xxxxxx：双字节编码形式；
1110xxxx 10xxxxxx 10xxxxxx：三字节编码形式；
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字节编码形式。

xxx 就用来存储 Unicode 中的字符编号。

下面是一些字符的编码实例（绿色部分表示本来的 Unicode 编号）：

字符	N	æ	⻬
Unicode 编号（二进制）	01001110	11100110	00101110 11101100
Unicode 编号（十六进制）	4E	E6	2E EC
UTF-8 编码（二进制）	01001110	11000011 10100110	11100010 10111011 10101100
UTF-8 编码（十六进制）	4E	C3 A6	E2 BB AC

对于常用的字符，它的 Unicode 编号范围是 0 ~ FFFF，用 1~3 个字节足以存储，只有及其罕见，或者只有少数地区使用的字符才需要 4~6个字节存储。

2) UTF-32

UTF-32 是固定长度的编码，始终占用 4 个字节，足以容纳所有的 Unicode 字符，所以直接存储 Unicode 编号即可，不需要任何编码转换。浪费了空间，提高了效率。

3) UTF-16

UFT-16 比较奇葩，它使用 2 个或者 4 个字节来存储。

对于 Unicode 编号范围在 0 ~ FFFF 之间的字符，UTF-16 使用两个字节存储，并且直接存储 Unicode 编号，不用进行编码转换，这跟 UTF-32 非常类似。

对于 Unicode 编号范围在 10000~10FFFF 之间的字符，UTF-16 使用四个字节存储，具体来说就是：将字符编号的所有比特位分成两部分，较高的一些比特位用一个值介于 D800~DBFF 之间的双字节存储，较低的一些比特位（剩下的比特位）用一个值介于 DC00~DFFF 之间的双字节存储。

如果你不理解什么意思，请看下面的表格：