码元与码点

article/2025/11/9 14:28:02

码元与码点

JavaScript字符串使用了两种Unicode编码混合的策略:UCS-2和UTF-16。对于可以菜哦也能够16位编码的字符(U+0000~U+FFFF),这两种编码实际上是一样的。(《JavaScript高级程序设计》)

关于码元和和码点,通过一个例子进行介绍。

如图,字符串'😊'只有一个“笑脸”符号,但是通过length属性发现,“长度”为2,string.length到底表示什么?答:码元的个数

什么是码元?码元就是编码的最小单元,UTF-16和UCS-2的码元为16个比特(2字节)。也就是说,'😊'使用了两个码元,也就是4字节进行编码。

通过string.charCodeAt(index)方法可以返回对应位置的码元。

那什么是码点呢?码点就是对应字符的编码,通过对应编码规则,将编码转换为1个或多个码元。

通过string.codePointAt(index)方法可以返回对应位置的码点。

这里再说回到Unicode和UCS-2、UTF-16等之间的关系。

Unicode编码,是统一的,对于一个确定的字符,他的Unicode编码就是确定的。就拿上面的例子来说,'😊'的Unicode编码为128522。那UTF-8、UTF-16等等这些编码是什么?这里更加容易理解的说法就是,他们都是Unicode编码的一种格式,也就是不同的“转换规则”

这里使用了一个在线的编码工具https://www.qqxiuzi.cn/bianma/Unicode-UTF.php

可以看到,同样的Unicode编码,在UTF-8和UTF-16两种编码方式下,变成了完全不同的“格式”。但是,通过对应的编码规则“逆向”的推导,最终推导出Unicode的编码是一致的。

下面来看一下UTF-16怎么对'😊'进行编码:

由于输出时,默认使用10进制输出数字,为了看清楚码元和码点的关系,可以使用16进制输出。

可以看到,从码点编码为多个码元并不是简单的“组装”。UTF-16编码规则如下:

参考https://www.cnblogs.com/malecrab/p/5300503.html

如果码点(即字符编码)值大于0xFFFF,则将其减去0x10000,之后,在该数字的前10位(bits)加上0xD800,就得到UTF-16四字节编码中的前两个字节(第一个码元);该数字的后10位(bits)加上0xDC00,得到后两个字节(第二个码元)。

就拿上面的例子说:

'😊':Unicode编码位0x1F60A

0x1F60A - 0x10000 = 0xF60A = 0x0F60A = 0000 1111 0110 0000 1010

前10bits = 00 0011 1101 = 0x03D

后10bits = 10 0000 1010 = 0x20A

前10bits + 0xD800 = 0x03D + 0xD800 = 0xD83D

后10bits + 0xDC00 = 0x20A + 0xDC00 = 0xDE0A

可以看到,通过UTF-16的转换规则,将码点为0x1F60A的字符,转换为0xD83D和0xDE0A两个码元。

码元、码点和字符串相关的方法

1. 获取指定位置的码元

  • String.proto.charCodeAt(index)

上面也提到过,string.length返回码元的个数,所以这里的index有效范围是[0, length - 1]

2. 获取指定位置的字符(如果可以用一个码元进行编码,码元的值和码点的值相等)

  • String.proto.charAt(index)

charCodeAt()一个返回的是码元(数值),而charAt()返回码元对应的字符,如果一个字符有多个码元,这里仅仅取出其中一个码元,并把它当作码点,就会出现乱码。

3. 将字符串指定位置的码元转换成码点(如果是多个码元表示的码点,从指定位置开始,取多个码点进行转换)

  • String.proto.codePointAt(index)

如图,“笑脸”码元开始的位置是1;当传入2的时候,下标2位置对应的是“笑脸”的第二个码元,不是完整的两个码元开始的位置,所以直接返回了第2个码元,而不是转换成码点返回。

4.通过码元创建字符串

  • String.proto.charCodeFrom(...charCode)

将码元转换成字符串

5.通过码点创建字符串

  • String.proto.codePointFrom(...codePoint)


http://chatgpt.dhexx.cn/article/0ta9H0ds.shtml

相关文章

数据库系统概论第六章(关系数据理论)知识点总结(2)—— 码的概念总结

本专栏收录了数据库的知识点,而从本文起,将讲述有关于关系数据理论中的第一范式、第二范式、第三范式以及BC范式有关知识点,提供给有需要的小伙伴进行学习,本专栏地址可以戳下面链接查看 🎈 数据库知识点总结&#xff…

Code128一维码(解码)

由于最近在弄一个用Winform实现基于"博斯得"打印机实现打印预览的玩意遇到了几个问题。 在打印条码的时候实际打印的条码长度和预览差距很大于是就查网上查了一下资料熟悉了一下条形码的构成和解读,往下看 认识Code128编码规则 依次是 : 禁止区…

数据库-超码、候选码、主码

超码(superkey)绝对算得上计算机术语中翻译以后看起来更复杂的一个典型。 超码和码其实没有任何关系,它本质上是一组属性的集合。这一组集合可以唯一的标识出一个元组,就是说不同元组的超码中的属性是不全相同的。 表中的一行就是…

计算机中常用的三种码制,码制

码制 1.数字系统 用数字信号完成对数字量进行算术运算和逻辑运算的电路称为数字电路,或数字系统。由于它具有逻辑运算和逻辑处理功能,所以又称数字逻辑电路。人类已经进入到了数字时代,数字系统在我们日常生活中愈发重要,并广泛应用于通信、商贸、交通控制、航空航天、医疗…

一文搞懂候选码、主码、全码、外码、主属性、主键、主关键字、非主属性清晰总结

👏作者简介:大家好,我是Rockey,不知名企业的不知名Java开发工程师 🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博主哦 📝联系方式:he18339193956&…

DevExpress 控件使用菜单栏之BarManager

DevExpress 开发的控件有很强的实力,不仅功能丰富,应用简便,而且界面华丽,更可方便定制。对于编程人员来说是个不错的选择。它的菜单栏控件更具代表,完全可以替代开发环境提供的基本控件,而让您编写的程序或软件更显专业化。它还提供完善的帮助系统,资料详尽,可以快速入…

组件,控件,用户控件

在学习这部分时产生了一些疑问,下面是根据我搜罗来的资料得出的一点浅薄的见解。 其实从字面上已经可以理解各自的不同了。但是具体关系其实是从类的继承上来区别的。一般控件派生于:Control类,所以从此类派生出的称之为控件。一般组…

WinCC报表控件

1、背景 WinCC实现报表历来是老大难,自带的报表功能不好使,主要在于配置麻烦,可视化又很差,而又没有好用的第三方控件。虽然网上也有很多实现报表的方法,但是毫无例外的要求使用者具有脚本编程功底,HwDataReport的出现将终结这一现象。您无需一行脚本即可完成WINCC报…

三款ActiveX图表控件对比评测 Pro ActiveX、ProEssentials、ChartDirector

原文转载自慧都控件网:http://www.evget.com/zh-CN/Info/catalog/18101.html 图表控件在现在的商业化应用中已经非常的常见了,随便打开一个网站,图表比比皆是。在自己的开发项目中,选对了好的图表控件将会对自己的项目起到画龙点…

6.1 传统控件

在上一课的表5.1已经列出了Windows的传统控件及其对应的控件类。在这些控件中,读者应该重点掌握命令按钮、选择框、单选按钮、编辑框、列表框和组合框。 .1.1 传统控件的控件通知消息 控件通过向父窗口发送控件通知消息来表明发生了某种事件.例如&#…

DevExpress 控件使用之BarManager

DevExpress 开发的控件有很强的实力,不仅功能丰富,应用简便,而且界面华丽,更可方便定制。对于编程人员来说是个不错的选择。它的菜单栏控件更具代表,完全可以替代开发环境提供的基本控件,而让您编写的程序或…

控件布局通用解决方案

你是否遇到过这样的问题:用编译器拖出一些控件放到对话框上,并合理安排好了位置;但编译运行,改变对话框的大小后,所有控件的位置都乱了,让人感觉非常糟糕。如果控件不太多,你可以尝试手写代码定…

app基本控件

一个完整的APP包括四大类:各种“栏”;内容视图;控制元素;临时视图。 各种“栏”:状态栏、导航栏、标签栏、工具栏、搜索栏、范围栏。 内容视图:列表视图、卡片视图、集合视图、图片视图、文本视图。 控制…

应用程序界面开发 - 自定义用户控件布局控件的使用

在很多时候,我们做一些非常规化的界面的时候,往往需要创建一些用户控件,在其中绘制好一些基础的界面块,作为后续重复使用的一个单元,用户控件同时也可以封装处理一些简单的逻辑。在开发Winform各种类型项目&#xff0c…

控件

1. 自定义控件&#xff1a; 编写一个类继承自一个控件类&#xff1a; public class MyTextView extends TextView 在xml布局文件中声明控件为这种自定义的空间&#xff0c;注意一定要加上包名 <zy.qiufo.MyTextView android:id"id/tvJW" …… /> 代…

两款工控控件对比评测:Iocomp和ProEssentials

备注&#xff1a;本文章转载自慧都控件网 概述&#xff1a;使用专业的第三方控件开发漂亮逼真的工控仪表和图表是明智的选择&#xff0c;笔者对两款最好用的工控控件 Iocomp 和 ProEssentials进行了简单的对比评测。 对于程序员来说&#xff0c;要凭一己之力开发出漂亮逼真的工…

Spring Boot Actuator 使用介绍

Spring Boot Actuator 使用介绍 初识 Actuator原生端点应用配置类度量指标类 操作控制类 近期在看《Spring Cloud 微服务实战》&#xff0c;由于时间过去几年&#xff0c;对于Actuator监控端点的介绍过时&#xff0c;故作此文更新一下。 Spring Boot 版本&#xff1a;2.5.3 初识…

Activiti集成Activiti Modeler

Activiti6.0.0及以上版本与activiti-modeler的maven引用有冲突&#xff0c;解决方法参考Activiti6.0.0及以上版本集成Activiti Modeler 1.下载源文件 activiti-5.22.0官方Demo activiti5.22.0源码 2.copy源文件 &#xff08;一&#xff09;复制前端文件 解压activiti-5.22.…

【activiti】activiti入门

activiti入门 在本章内容中&#xff0c;我们来创建一个Activiti工作流&#xff0c;并启动这个流程。 创建Activiti工作流主要包含以下几步&#xff1a; 1、定义流程&#xff0c;按照BPMN的规范&#xff0c;使用流程定义工具&#xff0c;用流程符号把整个流程描述出来 2、部署…

Activiti 介绍

一、工作流 1.工作流 工作流(Workflow)&#xff0c;就是“业务过程的部分或整体在计算机应用环境下的自动化”&#xff0c;它主要解决的是“使在多个参与者之间按照某种预定义的规则传递文档、信息或任务的过程自动进行&#xff0c;从而实现某个预期的业务目标&#xff0c;或…