C语言学习笔记（kk-zkx）

前言

- 流行的编程语言
- 编程语言的大致发展历程
- 编程语言应用
- 数据在内存中的储存
- 程序载入内存
- ASCII编码
- GB2312和GBK
- Unicode字符集（统一码，万国码）
- 就业
- 坑，当心

编程语言：用来控制计算机，让计算机为我们做事情的语言

流行的编程语言

编程语言	用途
C/C++	C++ 是在C语言的基础上发展起来的，C++ 包含了C语言的所有内容，C语言是C++的一个部分，它们往往混合在一起使用，所以统称为 C/C++。C/C++主要用于PC软件开发、Linux开发、游戏开发、单片机和嵌入式系统。
Java	Java是一门通用型的语言，可以用于网站后台开发、Android开发、PC软件开发、近年来又涉及了大数据
C#	微软研发用来对抗Java的一门语言，实现机制和Java类似，目前主要用于Windows平台的软件开发，以及少量的网站后台开发
Python	Python 也是一门通用型的语言，主要用于系统运维、网站后台开发、数据分析、人工智能、云计算等领域，近年来势头强劲，增长非常快。
PHP	PHP 是一门专用型的语言，主要用来开发网站后台程序。
JavaScript	JavaScript 最初只能用于网站前端开发，而且是前端开发的唯一语言，没有可替代性。近年来由于 Node.js 的流行，JavaScript 在网站后台开发中也占有了一席之地，并且在迅速增长。
Go语言	Go语言是 2009 年由 Google 发布的一款编程语言，成长非常迅速，在国内外已经有大量的应用。Go 语言主要用于服务器端的编程，对 C/C++、Java 都形成了不小的挑战。
Objective-C Swift	Objective-C 和 Swift 都只能用于苹果产品的开发，包括 Mac、MacBook、iPhone、iPad、iWatch 等。
汇编语言	汇编语言是计算机发展初期的一门语言，它的执行效率非常高，但是开发效率非常低，所以在常见的应用程序开发中不会使用汇编语言，只有在对效率和实时性要求极高的关键模块才会考虑汇编语言，例如操作系统内核、驱动、仪器仪表、工业控制等。

**总结：**编程语言是用来控制计算机的一系列指令（Instruction），它有固定的格式和词汇（不同编程语言的格式和词汇不一样），必须遵守，否则就会出错，达不到我们的目的。
源代码、源码、代码：这些具有特定含义的词汇、语句、按照特定的格式组织在一起。
语法：规定源代码中每个词语和语句的含义，也规定他们如何组织在一起

编程语言的大致发展历程

汇编语言 --> 面向过程编程 --> 面向对象编程

汇编语言是编程语言的拓荒年代，它非常底层，直接和计算机硬件打交道，开发效率低，学习成本高；
C语言是面向过程的编程语言，已经脱离了计算机硬件，可以设计中等规模的程序了；
Java、C++、Python、C#、PHP 等是面向对象的编程语言，它们在面向过程的基础上又增加了很多概念。

从C语言到内存，从内存到进程和线程，环环相扣：不学C语言就吃不透内存，不学内存就吃不透进程和线程。

编程语言应用

在计算机高速发展的最近几十年中，出现了上百种编程语言，有的编程语言是针对某个领域专门设计的，例如：

PHP 专门用来开发网站后台；
JavaScript 最初只能用于网站前端开发，实现一些网页特效，后来有“好事的”程序员将它移植到服务器上，才赋予 JavaScript 网站后台开发的能力；
Objective-C 和 Swift 只能用于苹果产品的开发，包括 iPhone、iPad、Mac、MacBook 等；
Visual Basic（VB）专门用来在 Windows 平台下进行软件开发。

而大部分的编程语言不是针对某个特定领域设计的，它们能做很多事情，比较通用化。但是在长期的实践过程中，这些编程语言也找到了适合自己的位置，例如：

Java 可以用于网站后台开发、Android 开发、PC软件开发，在大数据领域也分得一杯羹；
Python 主要用于系统运维、网站后台开发、数据分析、人工智能、云计算等领域；
Go语言除了用于服务器、通讯等较底层的开发，还能用于网站后台开发。

C语言也是一门通用性的语言，并没有针对某个领域进行优化，就目前而言，C语言主要用于较底层的开发，例如：

Windows、Linux、Unix 等操作系统的内核90%以上都使用C语言开发；
开发硬件驱动，让硬件和操作系统连接起来，这样用户才能使用硬件、程序员才能控制硬件；
单片机和嵌入式属于软硬件的结合，有很多使用C语言的地方；
开发系统组件或服务，用于支撑上层应用；
编写PHP扩展，增强PHP的功能；
如果对软件某个模块（例如算法和搜索部分）的效率要求较高，也可以使用C语言来开发。

数据在内存中的储存

数据在内存中，都是以二进制的形式来储存的，要想学习编程，就必须了解二进制，他是计算机处理数据的基础

内存条是一个非常精密的部件，包括了上亿电子元器件（及电路），其电压会变化，0-5V,5V用来表示1,0V是断电，就用0来表示
多以，一个元器件有两种状态，0或者1。

一个元器件称为1比特（bit），8个元器件（bit）称为一个字节（Byte）。

单位换算：
1Byte = 8 Bit
1KB = 1024Byte = 210Byte
1MB = 1024KB = 220Byte
1GB = 1024MB = 230Byte
1TB = 1024GB = 240Byte
1PB = 1024TB = 250Byte
1EB = 1024PB = 260Byte

程序载入内存

读写速度：内存>固态硬盘>机械硬盘
机械硬盘是靠电机带动盘片转动来读写数据的，而内存条通过电路来读写数据，电机的转速肯定没有电的传输速度（几乎是光速）快。虽然固态硬盘也是通过电路来读写数据，但是因为与内存的控制方式不一样，速度也不及内存。

不管是运行QQ还是编辑Word文档，都是先将硬盘上的数据复制到内存，才能让CPU来处理，这个过程就叫作**载入内存（Load into Memory）。**完成这个过程所需要的一个一个人特殊的程序，加载器（Loader）

虚拟内存：当程序运行需要的空间大于内存容量时，会将内存中暂时不用的数据再写回硬盘；需要这些数据时再从硬盘中读取，并将另外一部分不用的数据写入硬盘。这样，硬盘中就会有一部分空间用来存放内存中暂时不用的数据。这一部分空间就叫做虚拟内存（Virtual Memory）。

总结：CPU直接从内存中读取数据，处理完成后将结果再写入内存。

在这里插入图片描述

ASCII编码

字符集（character set）：定义文字和二进制之间的关系，为字符分配了唯一的编码。
字符编码（character encoding）：规定如何把文件的编码存储的计算机中。

拉丁字母也叫罗马字母，他源自希腊字母，是世界上使用最广泛的字母系统，基本拉丁字母就是我们常用的26个英文字母。

拉丁字母、阿拉伯字母、斯拉夫字母（西里尔字母）被称为世界三大字母体系。

总起来说：

基本拉丁字母就是 26 个英文字母；
扩展拉丁字母就是在基本的 26 个英文字母的基础上添加变音符号、横线、斜线等演化而来，每个国家都不一样。

ASCII编码（American Standard Code for Information Interchange）

在 ASCII 编码中，大写字母、小写字母和阿拉伯数字都是连续分布的（见下表），这给程序设计带来了很大的方便。例如要判断一个字符是否是大写字母，就可以判断该字符的 ASCII 编码值是否在 65~90 的范围内。

GB2312和GBK

GB2312 --> GBK --> GB18030 是中文编码的三套方案，出现的时间从早到晚，收录的字符数目依次增加，并且向下兼容。GB2312 和 GBK 收录的字符数目较少，用 1~2个字节存储；GB18030 收录的字符最多，用1、2、4 个字节存储。

从整体上讲，GB2312 和 GBK 的编码方式一致，具体为：

对于 ASCII 字符，使用一个字节存储，并且该字节的最高位是 0，这和 ASCII 编码是一致的，所以说 GB2312 完全兼容 ASCII。
对于中国的字符，使用两个字节存储，并且规定每个字节的最高位都是 1。

GB18030 为了容纳更多的字符，并且要区分两个字节和四个字节，所以修改了编码方案，具体为：

对于 ASCII 字符，使用一个字节存储，并且该字节的最高位是 0，这和 ASCII、GB2312、GBK 编码是一致的。
对于常用的中文字符，使用两个字节存储，并且规定第一个字节的最高位是 1，第二个字节的高位最多只能有一个连续的 0（第二个字节的最高位可以是 1 也可以是 0，但是当它是 0 时，次高位就不能是 0 了）。注意对比 GB2312 和 GBK，它们要求两个字节的最高位为都必须为 1。
对于罕见的字符，使用四个字节存储，并且规定第一个和第三个字节的最高位是 1，第二个和第四个字节的高位必须有两个连续的 0。

栗子：对于字母A，它在内存中存储为 01000001；对于汉字中，它在内存中存储为 11010110 11010000；对于藏文གྱུ，它在内存中的存储为 10000001 00110010 11101111 00110000。

字符处理软件在处理文本时，从左往右依次扫描每个字节：

如果遇到的字节的最高位是 0，那么就会断定该字符只占用了一个字节；
如果遇到的字节的最高位是 1，那么该字符可能占用了两个字节，也可能占用了四个字节，不能妄下断论，所以还要继续往后扫描：
- 如果第二个字节的高位有两个连续的 0，那么就会断定该字符占用了四个字节；
- 如果第二个字节的高位没有连续的 0，那么就会断定该字符占用了两个字节。

中文版 Windows 下的很多程序默认使用的就是 GBK 编码，例如用记事本程序创建一个 txt 文档、在 cmd 或者控制台程序（最常见的C语言程序）中显示汉字、用 Visual Studio 创建的源文件等，使用的都是 GBK 编码。

Unicode字符集（统一码，万国码）

严格来说，字符集和字符编码不是一个概念：

字符集定义了字符和二进制的对应关系，为每个字符分配了唯一的编号。可以将字符集理解成一个很大的表格，它列出了所有字符和二进制的对应关系，计算机显示文字或者存储文字，就是一个查表的过程。
而字符编码规定了如何将字符的编号存储到计算机中。如果使用了类似 GB2312 和 GBK 的变长存储方案（不同的字符占用的字节数不一样），那么为了区分一个字符到底使用了几个字节，就不能将字符的编号直接存储到计算机中，字符编号在存储之前必须要经过转换，在读取时还要再逆向转换一次，这套转换方案就叫做字符编码。

Unicode 就是一个典型的例子，它只是定义了全球文字的唯一编号，我们还需要 UTF-8、UTF-16、UTF-32 这几种编码方案将 Unicode 存储到计算机中。

Unicode 可以使用的编码方案有三种，分别是：

UTF-8：一种变长的编码方案，使用 1~6 个字节来存储；
UTF-32：一种固定长度的编码方案，不管字符编号大小，始终使用 4 个字节来存储；
UTF-16：介于 UTF-8 和 UTF-32 之间，使用 2 个或者 4 个字节来存储，长度既固定又可变。

1) UTF-8
UTF-8 的编码规则很简单：

如果只有一个字节，那么最高的比特位为 0，这样可以兼容 ASCII；
如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。
只有UTF-8兼容ASCII

2) UTF-32

UTF-32 是固定长度的编码，始终占用 4 个字节，足以容纳所有的 Unicode 字符，所以直接存储 Unicode 编号即可，不需要任何编码转换。浪费了空间，提高了效率。
- 占用太多空间，不能容忍
3）UTF-16
UFT-16 比较奇葩，它使用 2 个或者 4 个字节来存储。
对于 Unicode 编号范围在 0 ~ FFFF 之间的字符，UTF-16 使用两个字节存储，并且直接存储 Unicode 编号，不用进行编码转换，这跟 UTF-32 非常类似。
对于 Unicode 编号范围在 10000-10FFFF 之间的字符，UTF-16 使用四个字节存储，具体来说就是：将字符编号的所有比特位分成两部分，较高的一些比特位用一个值介于 D800-DBFF 之间的双字节存储，较低的一些比特位（剩下的比特位）用一个值介于 DC00~DFFF 之间的双字节存储。
Windows 内核、.NET Framework、Cocoa、Java String 内部采用的都是 UTF-16 编码。UTF-16 是幕后的功臣，我们在编辑源代码和文档时都是站在前台，所以一般感受不到，其实很多文本在后台处理时都已经转换成了 UTF-16 编码。

多字节字符、窄字符：有的编码方式采用 1~n 个字节存储，是变长的，例如 UTF-8、GB2312、GBK 等
宽字符：有的编码方式是固定长度的，不管字符编号大小，始终采用 n 个字节存储，例如 UTF-32、UTF-16 等

就业

8) 测试（QA）：
一款产品问世需要大量的测试才能投放市场，QA（Quality Assurance，译为“品质保证”）人员就是为程序员把关的，如果程序员的作品不符合产品需求或者Bug太多，QA有权驳回，这时就会影响程序员的绩效。QA不但要能看懂代码（大概理解什么意思），还要掌握一定的测试技巧，更重要的是心思缜密，有耐心有毅力，女生比例很高。

5) 算法：
NB的程序员都在搞这些，一般不注重编程语言，而是侧重解决问题的方法和效率。工资比普通的程序员略高。

坑，当心

库（Library）。库就是编程专家写好的代码，我们可以拿来直接使用，这样能够节省开发成本，提高开发效率，并且库代码的执行效率、严谨性、安全性和规范性要明显优于我们自己编写的代码

编程语言的开发者在开发编程语言的时候，一般都要预先写好常用的代码，或者说常用的功能，例如输入输出、数学计算、文件操作、网络操作、日期时间、错误处理、字符串处理等，这些由官方编写的库称为标准库（Standard Library），它们随编程语言一起发布，可以认识是编程语言的一部分。
有一些组织机构或者个人也会开发一些库，有的是为了盈利，有的是业余爱好，有的是本公司正在使用的代码，开源出来造福人类，这些库称为第三方库（Third-party Library）。