- 该篇文章为 Python全栈白宝书-免费版试读部分,觉得还可以的小伙伴欢迎订阅下方推荐的 Python全栈白宝书。
- 推荐: Python全栈白宝书专栏,免费阶段订阅数量4300+,购买任意白宝书体系化专栏可加入TFS-CLUB 私域社区。
- 福利:加入社区的小伙伴们,除了可以获取博主所有付费专栏的阅读权限之外,还有机会加入 星荐官共赢计划 ,详情请戳我 。
- 推荐他人订阅,可获取扣除平台费用后的35%收益。
- 作者:不渴望力量的哈士奇(哈哥),十余年工作经验, 跨域学习者,从事过全栈研发、产品经理等工作,目前任某金融品类App负责人。
- 荣誉:2022年度博客之星Top4、博客专家认证、全栈领域优质创作者、新星计划导师,“星荐官共赢计划” 发起人。
- 现象级专栏《白宝书系列》作者,文章知识点浅显易懂且不失深度;TFS-CLUB社区创立者,旨在以“赋能 共赢”推动共建技术人成长共同体。
- 🏆 白宝书系列专栏
- 🏅 Python全栈白宝书
- 🏅 产品思维训练白宝书
- 🏅 全域运营实战白宝书
- 🏅 大前端全栈架构白宝书
专栏系列(点击解锁) | 学习路线(点击解锁) |
---|---|
Python全栈白宝书 | 零基础入门篇 |
语法进阶篇 | |
自动化办公篇 | |
自动化测试实战篇 | |
数据库开发实战篇 | |
爬虫入门与实战 | |
数据分析篇 | |
前端入门+flask 全栈篇 | |
django+vue全栈篇 | |
拓展-人工智能入门 |

文章目录
- ⭐️ 什么是编码格式?
- ⭐️ Python使用哪种字符编码?
- ⭐️ 编码格式的作用是什么?
⭐️ 什么是编码格式?
来看一下官方的术语:
编码是信息从一种形式或格式转换为另一种形式的过程,也称为计算机编程语言的代码简称编码。用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。编码是信息从一种形式或格式转换为另一种形式的过程。解码,是编码的逆过程。
是不是有些晦涩难懂?其实我也这么觉得,我们不妨举个例子。
在抗日战争时期,在战场的情报传递中,为了不让地方获取我方的军事信息,往往需要通讯兵利用电报的方式传递情报信息。电报是将情报信息转化为一定规则的哒哒声,然后通过密码本再解码为书面文字形式的情报。而不知道这种规则与对应的解码密码本就不知道这种哒哒声代表的什么意思。
编码格式也是一样的,它是有一定规则的规则,使用了这种规则,我们就知道传输的是什么意思。
学计算机的都知道,计算机是以二进制的形式来存储数据的,即它只认识 0
和 1
两个数字。
在计算机发展的早期,美国作为计算机领域的No.1 ,它制定了一套编码标准(ASCII 码),解决了 128 个英文字符与二进制之间的对应关系。
虽然英语用 128 个字符编码已经够用,但使用计算机的国家有很多,如果想表示其他语言,128 个符号显然不够用,所以很多其他国家都在 ASCII 的基础上发明了很多别的编码,例如包含了汉语简体中文格式的 GB2312 编码格式(使用 2 个字节表示一个汉字)。也正是由于出现了很多种编码格式,导致了“文件显示乱码”的情况。于是 Unicode 字符集便应运而生。
Unicode 字符集又称万国码、国际码、统一码等,Unicode 对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更简单的方式来呈现和处理文字。
Unicode 字符集可以使用的编码方案有三种,分别是:
UTF-8 | 一种变长的编码方案,使用 1~6 个字节来存储 |
---|---|
UTF-16 | 介于 UTF-8 和 UTF-32 之间,使用 2 个或者 4 个字节来存储,长度既固定又可变 |
UTF-32 | 一种固定长度的编码方案,不管字符编号大小,始终使用 4 个字节来存储 |
其中,UTF-8 是目前使用最广的一种 Unicode字符集的实现方式,可以说它几乎已经一统江湖了。
⭐️ Python使用哪种字符编码?
Python 3.x 中,字符串采用的是 Unicode 字符集,可以用如下代码来查看当前环境的编码格式:
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'
同时,在 Python 3.x 中也可以用 ord()
和 chr()
函数实现字符和编码数字之间的转换,例如:
>>> ord('Q')
81
>>> chr(81)
'Q'
>>> ord("网")
32593
>>> chr(32593)
'网'
由此可以知道,在 Unicode 字符集中,字符‘Q’对应的编码数字为 81,而中文‘网’对应的编码数字为 32593。
值得一提的是,虽然 Python 默认采用 UTF-8 编码,但它也提供了 encode() 方法,可以轻松实现将 Unicode 编码格式的字符串转化为其它编码格式。
⭐️ 编码格式的作用是什么?
编码的作用就是对某一种语言的解析识别,也可以说是一种标准。如果在Python中定义错了编码格式,可能就会出现错误,在国内使用通用的
UTF-8
的类型,就可以让我们在脚本中即可以使用中文,又可以使用英文。所以在头部注释的位置一定要加上 “# coding:utf-8”