使用不同的输入法输入的汉字在计算机内部,为什么用不同的汉字输入法能在计算机中找到同一个汉字?...

您所在的位置:网站首页 一个汉字的内码占多少位元组 使用不同的输入法输入的汉字在计算机内部,为什么用不同的汉字输入法能在计算机中找到同一个汉字?...

使用不同的输入法输入的汉字在计算机内部,为什么用不同的汉字输入法能在计算机中找到同一个汉字?...

2023-09-10 14:21| 来源: 网络整理| 查看: 265

目前我国计算机中有许多汉字输入法,不同的汉字输入 法有不同的输入码,但它们却能找到同一个汉字。例如,使用 拼音输入“ma”,或用五笔字型输入法输入“deg”,或者用郑码 备入“gxvv”时,都能找到同一个汉字“码”。这是什么原因呢? 原来它们都参照了一个共同的标准,将键盘输入的输入码自 动转换成了计算机的“内码”。

相对应于这种汉字机内码,从键盘输入的汉字输入码称为“外码”,外码只是为了在操作时便于记忆和熟练运用而编制的汉字代码。参照的这个共同标准就是“国家标准信息交换用汉字编码”GB2312-80,即国标区位码,或称汉字交换码。这个编码系统共分为94个区,每个区94个字符,即每区有94个位。

区位码的第一部分是区码,第二部分是位码,区码和位码都是十进制数,如“码”字的区位码是3475。区位码与国标码密切相关,而国标码是十六进位制(简称十六进制)的。从区位码转换为国标码时,先将区位码转换为十六进制。如“码”字的区位码是3475,转换为十六进制就是224B(十六进制中的A、B、C、D、E、F分别代表十进制中的10、11、12、13、14、15)。

由于国标码的十六进制00〜20区为空白区,也就是说国标码从十六进制的21区开始编码,因此,区码和位码还应分别加上十六进制的20。如区位码的“码”224B,转换成国标码应是 224B+2020,即426B。它的第一个字 节为42,第二个字节为6B。

存储在计算机中的并不是区位码,也不是国标码,而是与它们密切相关的汉字机内码。国标码的二个字节,分别加上十六进制的80,就成为汉字机内码。因此,“码”字的机内码为 426B+8080,即C2EB。系统中显示的汉字机内码的“码”字,就是这个C2EB。

当使用某一种输入法时,无论使用的是五笔字型还是拼 音,从键盘输入的编码都是汉字的“外码”,它们都将转换成 汉字的“内码”,才能存储和输出。“外码”千变万化,“内码”只有一个。上面例举的汉字机内码是二字节的,而汉字机内码也有采用四字节或三字节的。

但不同的汉字输入码能找到同一个汉字,基本道理是相同的。

全部



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3