浅谈大小端(Endian)与位域

article/2025/9/8 15:31:52

目录

字节序

位序

常见位序的错误理解

以太网的大小端

以太网的字节序

以太网的位序

位域中的大小端

位域遇上大小端以太网通信

大端CPU发送

小端CPU发送

位域大小端问题的解决措施


大小端问题浪费了太多应用、驱动、逻辑工程师太多的时间,无时无刻都有人正在被大小端坑,正好比此时的我在浪费时间谈论大小端。

如果学过计算机原理、编程等知识,都知道课本里对大小端的一段描述:

小端模式:数据的高字节,存放在高地址中。计算机读取数据的方向,是从高地址开始读取的;
大端模式:数据的高字节,存放在低地址中。计算机读取数据的方向,是从低地址开始读取的;

注意这里只提到了字节序,并未提及到位序问题。

常见大小端CPU如下:

大端cpu:PowerPC

小端cpu:x86、arm(内核支持大端但从未见过大端)

注:

·MSB/LSB:

        用于描述寄存器的各个位域含义时:MSB(Most Significant Bit 最高有效),LSB(Least Significant Bit 最低有效)。0b10010100,无论在大端还是小端机中,MSB为1,LSB为0。

        用于描述整形数据时:指数学层面的高权重字节与低权重字节,如0x12345678,无论在大端还是小端机中,MSB都是指的0x12,LSB指0x78。

·Big Endian/Little Endian:指两种端序。

·用[a:b]的方式表示多个bit位,如:[3:0]表示bit3 bit2 bit1 bit0,[0:3]表示bit0 bit1 bit2 bit3。

·为了视觉效果会把0写成00,把1写成01。

·文章中提到的高位低位均指内存或寄存器的地址的高位与低位,如果是数字的高字节与低字节,会强调为数学概念高权重的位与低权重的位,以防止教科书上的数字字节、存储器字节傻傻分不清楚。


字节序

从字节序的视角一个多字节数0x12345678。

存放在大端CPU的RAM时:
Byte0        Byte1        Byte2        Byte3
0x12         0x34         0x56         0x78存放在小端CPU的RAM时:
Byte3        Byte2        Byte1       Byte0
0x12         0x34         0x56        0x78

位序

 从位序的视角看一个单字节数0x12。

存放在大端CPU的RAM时,[0:7] = 0x12(0b00010010):
bit0 bit1 bit2 bit3 bit4 bit5 bit6 bit7
0    0    0    1    0    0    1    0存放在小端CPU的RAM时,[7:0] = 0x12(0b00010010):
bit7 bit6 bit5 bit4 bit3 bit2 bit1 bit0
0    0    0    1    0    0    1    0

 从位序的视角看一个多字节数0x12345678。

存放在大端CPU的RAM时,[0:31] = 0x12345678(0b0001 0010 0011 0100 0101 0110 0111 1000)
bit: 00 01 02 03   04 05 06 07   08 09 10 11   12 13 14 15   16 17 18 19   20 21 22 23   24 25 26 27   28 29 30 31
val:  0  0  0  1    0  0  1  0    0  0  1  1    0  1  0  0    0  1  0  1    0  1  1  0    0  1  1  1    1  0  0  0存放在小端CPU的RAM时,[31:0] = 0x12345678(0b0001 0010 0011 0100 0101 0110 0111 1000)
bit: 31 30 29 28   27 26 25 24   23 22 21 20   19 18 17 16   15 14 13 12   11 10 09 08   07 06 05 04   03 02 01 00
val:  0  0  0  1    0  0  1  0    0  0  1  1    0  1  0  0    0  1  0  1    0  1  1  0    0  1  1  1    1  0  0  0

常见位序的错误理解

如果不知道位序这个概念,很可能会把多字节在RAM中存储的顺序弄错,如对多字节数0x12345678的错误理解

在大端系统中,存储顺序错理解为:
bit:  07 06 05 04   03 02 01 00  15 14 13 12   11 10 09 08   23 22 21 20   19 18 17 16   31 30 29 28   27 26 25 24
val:   0  0  0  1    0  0  1  0   0  0  1  1    0  1  0  0    0  1  0  1    0  1  1  0    0  1  1  1    1  0  0  0在小端系统中,存储顺序错理解为:
bit: 24 25 26 27   28 29 30 31   16 17 18 19   20 21 22 23   08 09 10 11   12 13 14 15   00 01 02 03   04 05 06 07
val:  0  0  0  1    0  0  1  0    0  0  1  1    0  1  0  0    0  1  0  1    0  1  1  0    0  1  1  1    1  0  0  0

以太网的大小端


以太网的字节序

无论大端CPU还是小端CPU,一定是先收发低字节,再收发高字节。


以太网的位序

参考文章:Ethernet下字节序和bit序的总结_shaohui973的博客-CSDN博客_bit0和bit7的顺序,根据个人理解有所修改。(由于笔者未专门研究以太网物理层逻辑,若文章中存在错误,请一定要帮忙指出)

网络接口要遵从的一个原则:在发送bit数据的时候,先发送MSB,最后发送LSB,即最先发送数学层面上权重最大的位,即最左边的bit数据;接收bit数据的时候,先收到MSB,最后收到LSB,即将最先收到的bit数据,移位存储到数学层面上权重最大的位所在存储器中,即最左边的bit中。在计算机中表现如下:(注意此处提到的MSB和LSB并非存储意义上的大小端,而是数字层面上高位与低位,权重高的为高位,权重低的为低位。计算机的存储空间并不存在上下左右,此处的“左边”,指人类对数字或地址的书写习惯上的描述,如数字0x112233中,0x11就是该数字权重最高的字节,位于最左边)

在大端系统中,网卡发送bit数据bit[0:7] = 0x55(0b01010101)时,依次发送bit0, bit1, bit2, bit3, bit4, bit5, bit6, bit7,即发送01010101。

在小端系统中,网卡发送bit数据bit[7:0] = 0x55(0b01010101)时,依次发送bit7, bit6, bit5, bit4, bit3, bit2, bit1, bit0,即发送01010101。

在大端系统中,网卡收到bit数据时,依次存放在bit0, bit1, bit2, bit3, bit4, bit5, bit6, bit7,得到数据bit[0:7] = 0x55(0b01010101) 。

在小端系统中,网卡收到bit数据时,依次存放在bit7, bit6, bit5, bit4, bit3, bit2, bit1, bit0,得到数据bit[7:0] = 0x55(0b01010101)。

同样是以太网发送端口,在大端系统与小端系统中逻辑电路设计并不相同,才能满足大小端系统通信发送的数据和收到的数据值相同的基本要求。

不仅以太网接口原理如此,很多单通道串行通信都是如此,在大端系统与小端系统中收发的位序并不相同,在这些标准通信协议规范中提到的先发送高位中的“位”并不是指地址的位,而是数字含义中的位置,这里的高位指高权重的数字位,即左边的值。


位域中的大小端

在寄存器定义、通信协议中经常会看到位域定义,在C/C++的结构体中可定义与之对应的位域结构体,以方便解析及组包。位域定义方式如下:

struct 位域结构名 
{
    type [member_name] : width ;
};

本文为了方便,将存储到同一个标准数据类型的所有成员称为一个域,同一个域内的成员称为域成员。如下面的结构体中a1和a2属于同一个域,a1和a2是这个域的域成员;b1、b2、b3、b4属于同一个域,b1、b2、b3、b4是这个域的域成员;

有如下C/C++结构体struct st1及变量data:

struct st1
{uint8_t  a1 : 2;uint8_t  a2 : 6;uint16_t b1 : 3;uint16_t b2 : 4;uint16_t b3 : 5;uint16_t b4 : 4;
};struct st1 data ={.a1 = 0x1,.a2 = 0x3,.b1 = 0x4,.b2 = 0x8,.b3 = 0xb,.b4 = 0x3
};

结构体成员.a1和.a2属于同一个域,域大小为8bit。.b1、.b2、.b3、.b4属于同一个域,域大小为16bit。

域的定义一般要遵循如下原则:域大小可以是8/16/32/64bit,域之间不可交叉,域的所有成员总大小必须等于所属域大小,必要时加入保留(reserved)位来填补。

C/C++的结构体有一个规定,无论大端还是小端,先定义的成员一定是低字节和低位。

在大端系统中,结构体变量及其成员的存储情况如下:

         .a1          .a2            .b1          .b2          .b3          .b4
bit      [00:01]     [02:07]         [08:10]      [11:14]      [15:19]      [20:23]
data     01          000011          100          1000         01011        0011.a1[0:1] = 0b01(0x1);
.a2[0:5] = 0b000011(0x3);
.b1[0:2] = 0b100(0x4);
.b2[0:3] = 0b1000(0x8);
.b3[0:4] = 0b01011(0xb);
.b4[0:3] = 0b0011(0x3);

 在小端系统中,各个结构体成员的存储情况如下:

         .a1         .a2             .b1          .b2          .b3           .b4
bit      [01:00]     [07:02]         [10:08]      [14:11]      [19:15]      [23:20]
data     01          000011          100          1000         01011        0011.a1[1:0] = 0b01(0x1);
.a2[5:0] = 0b000011(0x3);
.b1[2:0] = 0b100(0x4);
.b2[3:0] = 0b1000(0x8);
.b3[4:0] = 0b01011(0xb);
.b4[3:0] = 0b0011(0x3)

位域&大小端&以太网通信

位域可以2bit、5bit等不规则的多个bit来描述一个成员,但单通道串行通信接口只能以8bit为单位进行逐位发送,且从高bit发送还是低bit发送取决于CPU的大小端模式,大端CPU先发送bit0,小端CPU先发送bit7.

使用上文提到的结构体struct st1 data进行网络发送时会出现如下有趣现象:


大端CPU发送

发送上述数据,网络端口发送的顺序将会是(从左到右的发):01  000011  100  1000  01011  0011(为方便区分字节,同一个byte的位背景颜色相同;为方便区分结构体成员,成员间用空格隔开)。

如果接收端为大端CPU,针对每个字节的接收,收到的第一个bit放到bit0,最后一个bit放到bit7,最终收到的数据将是:bit[0:23]  01  000011  100  1000  01011  0011。如果接收端程序定义的结构体与发送端完全相同,则每个成员刚好对应上,数据解析正确。

如果接收端为小端CPU,针对每个字节的接收,收到的第一个bit放到bit7,最后一个bit放到bit0,最终收到的数据将是:bit[23:0]  1011  00111  0010  000  010000  11。如果接收端程序定义的结构体与发送端完全相同,则由于发送位序颠倒,数据已经完全紊乱。根据C/C++的规定:无论大端还是小端CPU,先定义的结构体成员一定位于低位或低字节,解析出来的数据如下:

.a1[1:0] = 0b11(0x3);

.a2[5:0] = 0b010000(0x10);

.b1[2:0] = 0b000(0x0);

.b2[3:0] = 0b0010(0x2);

.b3[4:0] = 0b00111(0x7);

.b4[3:0] = 0b1011(0xb);

和源数据相比,已经面目全非了。


小端CPU发送

小端发送问题与大端发送原理相同,读者可自己分析,加深印象。


位域大小端问题的解决措施

问题原因:位序的颠倒使得域内部数据存储顺序颠倒;如果域大于1个字节,且域成员间存在跨字节情况,则位序颠倒及字节序不颠倒特性,会使得域成员存在数据出现重组情况,进一步加重数据的紊乱。分析起来比较烧脑。

笔者总结了一套解决此问题的方法:

1、大端CPU程序与小端CPU程序中的位域结构体中各个域间顺序相同

2、大端CPU程序与小端CPU程序中的位域结构体中相同域内部的域成员顺序相反

3、大端CPU或小端CPU在发送或收到数据时,任意一方做域的大小端字节序转换,如域为uint16_t则按照2字节大小端转换,为uint32_t则按照4字节大小端转换。

具体是大端CPU还是小端CPU做结构体定义修正发送时域大小端转换,取决于项目定义的报文是大端模式还是小端模式。如果报文定义的文档规定使用大端定义,则大端CPU按照文档定义结构体既可,且发送时无需做大小端转换;而小端CPU的程序则需要根据上述解决方法来处理。

验证:

 假若报文协议规定使用大端模式,则大端CPU的结构体定义如下:

struct st1
{uint8_t  a1 : 2;uint8_t  a2 : 6;uint16_t b1 : 3;uint16_t b2 : 4;uint16_t b3 : 5;uint16_t b4 : 4;
};struct st1 data ={.a1 = 0x1,.a2 = 0x3,.b1 = 0x4,.b2 = 0x8,.b3 = 0xb,.b4 = 0x3
};

 小端CPU的结构体定义如下:

struct st1
{uint8_t  a2 : 6;uint8_t  a1 : 2;uint16_t b4 : 4;uint16_t b3 : 5;uint16_t b2 : 4;uint16_t b1 : 3;
};char buff[3];
struct st1 *p_data = (struct st1 *)buff;

大端CPU通过以太网发送数据顺序:01  000011  100  1000  01011  0011

小端CPU通过以太网收到数据:bit[23:0]  101100111001000001000011

数据用存入buff后做域大小端转换,得到数据bit[23:0]  100100001011001101000011

p_data进行解析解析得到数据bit[23:0]  100  1000  01011  0011  01  000011,各成员值如下:

.a1[1:0] = 0b01(0x1);

.a2[5:0] = 0b000011(0x3);

.b1[2:0] = 0b100(0x4);

.b2[3:0] = 0b1000(0x8);

.b3[4:0] = 0b01011(0xb);

.b4[3:0] = 0b0011(0x3);

解析得到的数据和发送端的数据完全一样,数据解析正确。


大端ARM

ARM Cortex-M3的端模式。
ARM的小端模式和前面所讲完全相同,但它的大端模式比较特殊,32bit的数据的位序并不是bit0-bit31,而是bit[7:0][15:8][23:16][31:24]。

CM3 同时支持小端模式和大端模式。但是,单片机其它部分的设计,包括总线的连接,内存控制器以及外设的性质等, 一定要先在单片机的数据手册上查清楚可以使用的端。在绝大多数情况下,基于 CM3 的单片机都使用小端模式——为了避免不必要的麻烦,在这里推荐读者清一色地使用小端模式。

CM3中对大端模式的定义还与ARM7的不同(小端的定义都是相同的)。在ARM7中,大端的方式被称为“不变大端”,而在CM3中,使用的是“字节不变大端”。如表5.4所示。

 请注意:在 AHB 总线上的 BE‐8 模式下,数据字节 lane 的传送格式是与小端模式一致的。
这是不同于 ARM7TDMI 的行为,它在大端模式下会有另一种总线 lane 安排,如表 5.6
所示。

在CM3中,是在复位时确定使用哪种端模式的,且运行时不得更改。指令预取永远使用小端模式,在配置控制存储空间的访问也永远使用小端模式(包括NVIC,FPB之流)。另外,外部私有总线地址区0xE0000000至0xE00FFFFF也永远使用小端模式。

当 SoC 设计不支持大端模式,却有一些外设包含了大端模式时,可以轻易地使用REV/REVH指令来完成端模式的转换。


对ARM的大端不理解也并不影响我们对大小端的理解与实际应用,因为我还没使用过大端ARM内核的芯片(个人能力有限)。


http://chatgpt.dhexx.cn/article/47N5HUp3.shtml

相关文章

Endian

字节序(Endian)即字节顺序(Byte-Order),又称为端序或尾序(Endianness)。描述的是计算机如何组织字节组成对应的数字,是多字节数据存储和传输时字节的顺序, 是多字节数据在…

一个神奇的网站 Papers with code

这个网站会把某个方向的 论文和代码总结出来。 有助于提高个人效率。 https://paperswithcode.com/sota

这是一个神奇的网站

2012年1月9日,下午2点,打开www.12306.cn.硬是提交了100多次才进入这个神奇的网站。结果又提交了100多次订单才成功了,很不幸运的是尼玛硬座的,等等是无号的...

【工具】sci-hub:一个神奇的免费下载文献的网站

title: “【工具】sci-hub:一个神奇的免费下载文献的网站” date: 2019-09-20T10:44:5508:00 lastmod: 2019-09-20T10:44:5508:00 tags: [“工具”,“sci-hub”] categories: [“工具”] sci-hub:一个神奇的免费下载文献的网站(使用技巧&…

最近发现的几个神奇CS学习网站

最近发现的几个CS学习网站,真的灰常良心,希望自己以后少吃瓜,多看看别人的路线和学习笔记。 一、北大信科大佬的CS笔记 https://csdiy.wiki/#_8 自己也是打算学习各种国外的优质课程(最近在学CS224n课程和做对应的project&…

冷门但超级有用的神奇网站推荐

给大家介绍一些神奇的具有强大功能的网站,有些功能特别的有用 查询名下手机号 https://getsimnum.caict.ac.cn 查询内容将以短信的形式下发到手机,一个人一天只能查询一次,因为是工信部出品的,所以安全性十分有保障 查询手机号…

快速下载一个网站

有时候我们需要分析一个网站,或者基于一个网站进行魔改,这个就需要一些特殊的手段将网站源码下载到本地了,其实目前大部分网站都是有代码压缩的,很难去有修改。 这里我就教大家如何快速获取一个网站的所有资源,包括源码…

给理工男女的一个神奇网站!

2018 AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度盛会!这里有15硅谷实力讲师团、80AI领军企业技术核心人物、100技术&大众实力媒体、1500AI专业开发者——我们只讲技术,拒绝空谈! 参加 2018 AI开发者大会&…

推荐一个命名变量的神奇网站 CODELF

推荐一个命名变量的神奇网站 CODELF 在我们写程序的时候,总是需要去给各种变量命名。于是各种命名大法都上来了,有拼音的,有首字母缩写的,各种各样。而我们推荐的命名肯定是英文的驼峰命名。今天给大家推荐一个网站:h…

mc神奇宝贝服务器网站,我的世界1.12.2 master 神奇宝贝服务器

———— 服务器名称:master—神奇宝贝 ———— 服务器版本:1.12.2 ———— 服务器类型:神奇宝贝 ———— 服务器的IP:进群下载客户端 ———— 服务器QQ群:609019804 ———— 服务器特色 游戏模式:休闲…

Craigslist :一个神奇的网站

转载:https://blog.naaln.com/2017/05/a-magic-website-raigslist/ 今天在看书的时候看到一个问题,什么是一个好产品?是好用的,还是好看的? 显而易见,应该是一个好用的产品。有什么产品是特别好看&#xff…

codewars 一个很神奇的网站

今天闲着无聊,逛推酷,无意间发现了一篇很有意思的帖子,帖子里写了国外的一个很有意思的网站,叫codewars ,这个网站的宗旨是把写代码 当成像打怪升级一样。上面有很多的题目,你可以用你熟悉的语言答题&…

p站,一个神奇的网站

说起p站,不少人老司机肯定想到的是那一个p站,但今天我要说的是另一个----pixiv,一个插画网站。 不知道什么原因,网站在国内被墙了,想弄个随机图片还得翻墙,但由于服务器网速实在太慢了,只能网上…

记录一个神奇的网站

Aurorahttps://arr003.network/

给理工男女的一个神奇网站

十一长假已经只剩下最后两天,你给自己定下的假期学习计划进展如何? 你是在家,还是在想家,还是在其他国家? 为了让家里蹲的诸位不虚度光阴,也为了让那些堵在高速路上的童鞋打发时间,现隆重给大家…

五个私藏已久的神奇网站,你想要的全都有

1⃣️悦音配音 一款非常实用的创作工具,做各种风格的配音,提取你想要的视频文案或音频文案,导入图片,一键生成三联封面,无水印视频下。 2⃣️万有导航 聚合资源网站,一个庞大的资源整合神仙网站&#xff…

8个好玩又实用的神奇网站,帮你打开新世界大门!

有小伙伴问:有没有即轻松好玩,又可以学到各种奇怪知识的网站? 下面向你安利8个网站,快来看看吧! Wikihow zh.wikihow.com 这是一个百科全书式的网站,内容是为我们生活中会遇到的各种问题提供了解决方案…

9个宝藏级的神奇网站!个个精品,让你人生开挂,效率翻倍

分享9个让你先是眼前一亮,继而觉得好用的神奇网站,每个都是效率神器! 01 . designtools 一个超级神奇的网站,我把它叫做设计师必备网站! 里面包含了11个超强的设计工具,每一个都很惊艳,举个…

如何关掉 pyg解密小组声明窗口 (飘云阁番茄插件)

vs 重新安装番茄助手之后,替换了crack 里面的VA_X.dll。 重启电脑,打开vs 弹出下面的窗口 网上查了很多资料说什么要去DLL、清理注册表,都不管用。 【原因】 安装的番茄小助手没有注册成功,需要将剪切板上的注册信息输入到番茄插…

PYG解密小组的Visual Assist X插件完全卸载

问题一:过期或无法加载 如果之前使用的是替换 VA_X.dll 的破解版,安装新版后,由于系统残留 VA_X 过期信息,可能会导致新版变灰或无法加载。关闭VS,管理员权限运行 Trial-Reset。选择下图中红框所指的选项,选…