机外码、区位码、国标码、机内码

您所在的位置：网站首页 › 机内码与国标码之差 › 机外码、区位码、国标码、机内码

机外码、区位码、国标码、机内码

2024-06-15 06:43| 来源: 网络整理| 查看: 265

机外码

机外码又称输入码。键盘是当前微机的主要输入设备，输入码就是使用英文键盘输入汉字时的编码。目前，我国已推出的输入码有数百种，但用户使用较多的约为十几种，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类，如“保”字，用全拼，输入码为“BAO”，用区位码，输入码为“1703 ”，用五笔字型则为“WKS”。

区位码

区位码也是机外码的一种。我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》，代号为GB2312-80，共对6763个汉字和682个图形字符进行了编码，其编码原则为：汉字用两个字节表示，每个字节用七位码（高位为0），;国家标准将汉字和图形符号排列在一个94行94列的二维代码表中，;每两个字节分别用两位十进制编码，前字节的编码称为区码，后字节的编码称为位码，此即区位码，如“保”字在二维代码表中处于17区第3位，区位码即为“1703 ”。

国标码

国标码并不等于区位码，它是由区位码稍作转换得到,其转换方法为：先将十进制区码和位码转换为十六进制的区码和位码，再将这个代码的第一个字节和第二个字节分别加上20H，这样就得了一个与区位码有一个相对位置差的代码，也就是国标码。

机内码

汉字机内码，又称“汉字ASCII码”，简称“内码”，指计算机内部存储，处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码，与所采用的键盘输入法无关。机内码是汉字最基本的编码，不管是什么汉字系统和汉字输入方法，输入的汉字外码到机器内部都要转换成机内码，才能被存储和进行各种处理。

区位码、国标码、机内码的关系汉字国标码 = 由区位码转换后的码(区号位号10进制分别转换为16进制) + 2020H汉字机内码 = 汉字国标码 + 8080H

例如：“中” 区位码：5448(区号位号都为10进制) → 3630H 国标码：5650H = 3630H + 2020H 机内码：D6D0H = 5650H + 8080H

2020H、8080H

区位码、内码、国标码怎么转换非常简单，但是令人迷惑的是为什么要那么转换？这种转换不可能平白无故地那样转换！

首先，注意到一点，GB2312虽说是对中文编码，但是里面有对26个英文字母和一些特殊符号的编码，按理说这和ASCII重合的部分应该无需设置，沿用ASCII中不就行了？但是当时在制定GB2312之前，就决定覆盖掉ASCII中符号和英文字母部分，所以将其中的英文字母和符号重新编入GB2312中。而对于ASCII中前32个控制字符则继续沿用。所以保留前32字符，就需要将汉字编码向后偏移32，十六进制20H，这也就是区位码要加上20H得到国标码，这就是GB2312的编码规范。

而这样产生一个弊端，某些早期用ASCII码编码的英文文章无法打开，一打开就是乱码。比如：如“保”字，国标码为31H和23H，而西文字符“1”和“#”的ASCII也为31H和23H，现假如内存中有两个字节为31H和23H，这到底是一个汉字?还是两个西文字符“1”和“#”于是就出现了二义性，显然，国标码是不可能在计算机内部直接采用的，也就是说应该要兼容早期ASCII码而不是覆盖它！为了解决这个问题，将字节的最高位设为1，因为ASCII中使用7位，最高位为0。这样就区分开了ASCII和GB2312。这也是为什么要加上8080H。

其实我们说国标码才是GB2312的规范编码，后来的内码是微软为了解决冲突问题而采用的方式，本质上是修改了GB2312的编码标准，而这种方法最后产生的编码最后就被一些教科书称为内码。

【参考博客】 https://blog.csdn.net/zrf2112/article/details/50718684

【本文地址】

机外码、区位码、国标码、机内码

机外码、区位码、国标码、机内码

今日新闻

推荐新闻