关于各种字符编码间的关系

您所在的位置:网站首页 字形编码是什么 关于各种字符编码间的关系

关于各种字符编码间的关系

2023-03-12 16:36| 来源: 网络整理| 查看: 265

今天看见群里在讨论编码格式的问题,然后发现自己对这块了解的有些模糊,虽然知道有Unicode、UTF8、GBK等等,但是他们之间到底是什么关系,尤其是Unicode和UTF8之间的关系我一直都是没太搞明白。索性花了两个小时查了一下,综合网上的各种说法(各种不大对的文章很多)总结了一下字符编码间的关系到底是怎么样的。也了解到,Unicode并不是一种具体的编码,他是Unicode字符集,UTF是Unicode Transformation Format的缩写,具体内容如下:

编码:

一、ASCII码:最高位为0,占一个字节,有128个编码空间

二、Unicode字符集,Unicode字符集共有三种编码方式:UTF-8,UTF-16,UTF-32。

Unicode定义了Basic Multilingual Plane(基本多文种平面)和16个辅助平面,总计17个平面,17*65536个编码数,U+000000~U+10FFFF。

1、UTF-8:可变长编码,是Unicode的一种具体实现,使用1-4个字节来进行编码(2003年11月之前是1-6个字节),UTF-8兼容ASCII编码。

2、UTF-16:可变长编码,使用2字节为63k个常见字符编码,并使用4字节为不常见字符编码。在BMP(基本多文种平面)中和UCS-2完全一样,UTF-16是支持多平面的因此可以说是UCS-2的父集,java以UTF-16作为内存的字符存储格式。

3、UTF-32:编码固定占据4字节,但是范围限制在000000~10FFFF,因此可以说是UCS-4的一个子集。

三、UCS字符集不是Unicode,但1991年之后,两者实际上已经合并。

UCS编码:UCS-2,UCS-4

1、UCS-4:固定4字节

2、UCS-2:固定2字节

四、GBK编码(国标码)是国内扩展于GB2312的一种编码格式,主要是为了支持中文,英文兼容ASCII编码,英文占一个字节,扩展编码占两个字节,编码范围在8140-FEFE。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3