汉字内码扩展规范

您所在的位置:网站首页 夏普e7-a0 汉字内码扩展规范

汉字内码扩展规范

2023-04-13 08:26| 来源: 网络整理| 查看: 265

此條目没有列出任何参考或来源。 (2019年1月19日)維基百科所有的內容都應該可供查證。请协助補充可靠来源以改善这篇条目。无法查证的內容可能會因為異議提出而被移除。 汉字内码扩展规范GBK 字节分配。MIME / IANAGBK别名CP936, MS936, windows-936, csGBK语言国际,但以简体中文为主,浏览器多以GB 18030解码标准GBK 1.0现状非正式国标编码,已被GB 18030取代分类扩展ASCII、[a]变长编码、CJK拓展自EUC-CN前用GB2312后续GB 18030 ^ 严格来说不是,因为ASCII字节会出现在GBK拓展二字节部分的后半字 查论编

汉字内码扩展规范,简称GBK,全名为《汉字内码扩展规范(GBK)》1.0版,由中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司和电子工业部科技与质量监督司1995年12月15日联合以《技术标函[1995]229号》文件的形式公布。 GBK共收录21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

GBK为“国家标准扩展”的汉语拼音(Guójiā Biāozhǔn Kuòzhǎn)中的“国”“标”“扩”第一个声母。英文全称Chinese Internal Code Extension Specification。

GBK 只为“技术规范指导性文件”,不属于国家标准。国家质量技术监督局于2000年3月17日推出了GB 18030-2000标准,以取代GBK。GB 18030-2000除保留全部GBK编码汉字,在第二字节把能使用范围再度进行扩展,增加了大约一百个汉字及四字节编码空间,但是将GBK作为子集全部保留。请参看GB 18030。

目录 1 历史 2 编码方式 3 与其他编码的关系 4 與CP936字码表比較 5 输入方法 6 参见 7 注釋 8 外部链接 历史[编辑]

1993年,Unicode 1.1版本推出,收录中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面”。

由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。

根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表(Code Page 936)的扩展(之前CP936和GB 2312-80一模一樣),最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符,但GBK是一种编码方式并向下兼容GB2312;而GB 13000.1-93等同于Unicode 1.1是一种字符集,它的几种编码方式如UTF8、UTF16LE等,与GBK完全不兼容。

编码方式[编辑]

字符有一字节和双字节编码,00–7F范围内是第一个字节,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。

之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81–FE(也就是不含80和FF),第二字节的一部分领域在40–7E,其他领域在80–FE。

具体来说,定义的是下列字节:

GBK的编码范围 范围 第1字节 第2字节 编码数 字数 水准GBK/1 A1–A9 A1–FE 846 717 水准GBK/2 B0–F7 A1–FE 6,768 6,763 水准GBK/3 81–A0 40–FE (7F除外) 6,080 6,080 水准GBK/4 AA–FE 40–A0 (7F除外) 8,160 8,160 水准GBK/5 A8–A9 40–A0 (7F除外) 192 166 用户定义 AA–AF A1–FE 564 用户定义 F8–FE A1–FE 658 用户定义 A1–A7 40–A0 (7F除外) 672 合计: 23,940 21,886

双字节符号可以表达的64K空间如下图所示。绿色和黄色区域是GBK的编码,红色是用户定义区域。没有颜色区域是不正确的代码组合。

与其他编码的关系[编辑]

GBK向下完全兼容GB2312-80编码。支持GB2312-80编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与unicode编码相比欠缺的部分。

上述GBK/1和GBK/2的领域即GB 2312-80用通常方法编码的区域。GB 2312(正确说法是其根据EUC-CN的编码)和ISO/IEC 2022中调用GR其他的94²字符集一样,A1–FE的范围开始读取字节对。这是上图中右下角的部分。但是,GB 2312中对于AA–AF和F8–FE区域是空的,没有赋予编码。于是GBK就在这些领域里进行拓展。二者剩余部分作为用户定义区。

更重要的是,GBK进行了字节范围的扩展。ISO/IEC 2022中GR区域的字数有94²=8,836字的限制。只要放弃ISO/IEC 2022中针对图形文字和控制文字赋予严格的范围的模式,下位字节为单字节文字,上位字节对保留对应字符的功能,潜在的128²=16,384的代码位置就可以使用。GBK采用其中的一部分,第一个字节从A1–FE(每个字节有94个选项)扩展成81–FE(126个选项),第二字节的范围是40–FE(191个选项),总共有24066(126*191)个位置。

與CP936字码表比較[编辑]

微软在稍新一点的CP936中使用单字节 0x80 代表欧元字符(U+20AC),而《规范》之GBK编码不含此字符。

输入方法[编辑] VimIM在Vim环境中,可以直接键入十进制或十六进制GBK (页面存档备份,存于互联网档案馆)码。既不需要启动输入法,也不需要码表。 参见[编辑] 国家标准代码 Unicode 注釋[编辑] 外部链接[编辑] ICU:UNICODE (页面存档备份,存于互联网档案馆) -GBK table (页面存档备份,存于互联网档案馆) 微软CP936编码表 (页面存档备份,存于互联网档案馆) GBK编码表 (页面存档备份,存于互联网档案馆) 查论编汉字字汇 常见汉字编码字符集 GB 2312 大五码 ISO/IEC 10646 Unicode GBK JIS X 0208 GB 18030-2000 GCCS GB 18030-2005 HKSCS GB 18030-2022 常见类别 简化字 繁体字 传承字 异体字 类推简化字 略字 外字 查论编中文信息处理编码中文 ISO-2022-CN CNS 11643 Big5 HKSCS GB 18030 GBK GB 2312 GB 12345 HZ ISO-IR-165 CCCII 日文 ISO-2022-JP JIS JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 Shift-JIS 朝鲜文 ISO-2022-KR KS X 1001 KPS 9566 国际 EUC ISO/IEC 2022 Unicode 中日韩统一表意文字 统一汉字 输入法 中文 日文 朝鲜文 字体 CJK字体列表 查论编字符编码早期電信 電報電碼(英语:Telegraph code) 庫克與惠斯通(英语:Cooke and Wheatstone telegraph) 摩斯 非拉丁字母(英语:Morse code for non-Latin alphabets) 日文(英语:Wabun code) 中文 西里爾字母(英语:Russian Morse code) 韓文(英语:SKATS) 博多與莫瑞 Fieldata(英语:Fieldata) ASCII ISO/IEC 646 BCDIC(英语:BCD (character encoding)) 電傳文訊(英语:Teletex)與電傳視訊(英语:Videotex)/電視資訊 T.51/ISO/IEC 6937(英语:T.51/ISO/IEC 6937) ITU T.61(英语:ITU T.61) ITU T.101(英语:Videotex character set) 世界系統電傳文訊(英语:World System Teletext) 字元集(英语:Teletext character set) ISO/IEC 8859 現行 -1(西歐語言) -2(中歐語言) -3(馬爾他文/世界文) -4(北歐語言) -5(西里爾字母) -6(阿拉伯文) -7(希臘文) -8(希伯來文) -9(土耳其文) -10(北日耳曼語支) -11(泰文) -13(波羅的語族) -14(凱爾特語族) -15(新西歐語言) -16(羅馬尼亞文) 廢止 -12(梵文) 提議 KOI-8西里爾字母(英语:ISO-IR-111) 薩米文(英语:ISO-IR-197) 改編 威爾斯文(英语:ISO-IR-182) 巴倫支西里爾字母(英语:ISO-IR-200) 愛沙尼亞文(英语:Code page 922) 烏克蘭西里爾字母(英语:Code page 1124) 書目 MARC-8(英语:MARC-8) ANSEL(英语:ANSEL) CCCII/EACC ISO 5426(英语:ISO 5426) ISO 5427(英语:ISO 5427) ISO 5428(英语:ISO 5428) ISO 6438 ISO 6862(英语:ISO 6862) 國家標準 ArmSCII BraSCII(英语:BraSCII) CNS 11643 DIN 66003(英语:DIN 66003) ELOT 927(英语:ELOT 927) GOST 10859(英语:GOST 10859) GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212(英语:JIS X 0212) JIS X 0213(英语:JIS X 0213) KOI-7(英语:KOI-7) KPS 9566 KS X 1001 KS X 1002(英语:KS X 1002) LST 1564(英语:LST 1564) LST 1590-4(英语:LST 1590-4) PASCII Shift JIS SI 960(英语:SI 960) TIS-620(英语:Thai Industrial Standard 620-2533) TSCII VISCII(英语:VISCII) VSCII YUSCII(英语:YUSCII) ISO/IEC 2022 ISO/IEC 8859 ISO/IEC 10367(英语:ISO/IEC 10367) EUC ISO-IR-165 macOS代码页 亞美尼亞文(英语:Mac OS Armenian) 阿拉伯文 巴倫支西里爾字母(英语:Mac OS Barents Cyrillic) 凱爾特語族(英语:Mac OS Celtic) 中歐語言 克羅埃西亞文(英语:Mac OS Croatian encoding) 西里爾字母(英语:Mac OS Cyrillic encoding) 梵文 波斯文(英语:MacFarsi encoding) 字體X(英语:Macintosh Font X encoding) 蓋爾文(英语:Mac OS Gaelic) 喬治亞文(英语:Mac OS Georgian) 希臘文(英语:MacGreek encoding) 古吉拉特文(英语:Mac OS Gujarati) 古木基文(英语:Mac OS Gurmukhi) 希伯來文(英语:Mac OS Hebrew) 冰島文(英语:Mac OS Icelandic encoding) 因紐特文(英语:Mac OS Inuit) 鍵盤(英语:Mac OS Keyboard encoding) 拉丁文(英语:Macintosh Latin encoding) 馬爾他文/世界文(英语:Mac OS Maltese/Esperanto encoding) 歐甘字母(英语:Mac OS Ogham) 羅曼語族 羅馬尼亞文(英语:Mac OS Romanian encoding) 薩米文(英语:Mac OS Sámi) 土耳其文(英语:Mac OS Turkish encoding) 土耳其西里爾字母(英语:Mac OS Turkic Cyrillic) 烏克蘭文(英语:Mac OS Ukrainian encoding) VT100(英语:VT100 encoding) DOS代碼頁 437 668(英语:Code page 668) 708(英语:Code page 708) 720(英语:Code page 720) 737(英语:Code page 737) 770(英语:Code page 770) 773(英语:Code page 773) 775(英语:Code page 775) 776(英语:Code page 776) 777(英语:Code page 777) 778(英语:Code page 778) 850(英语:Code page 850) 851(英语:Code page 851) 852(英语:Code page 852) 853(英语:Code page 853) 855(英语:Code page 855) 856(英语:Code page 856) 857(英语:Code page 857) 858(英语:Code page 858) 859(英语:Code page 859) 860(英语:Code page 860) 861(英语:Code page 861) 862(英语:Code page 862) 863(英语:Code page 863) 864(英语:Code page 864) 865(英语:Code page 865) 866(英语:Code page 866) 867(英语:Code page 867) 868(英语:Code page 868) 869(英语:Code page 869) 897(英语:Code page 897) 899(英语:Code page 899) 903(英语:Code page 903) 904(英语:Code page 904) 932(英语:Code page 932 (IBM)) 936(英语:Code page 936 (IBM)) 942(英语:Code page 942) 949(英语:Code page 949 (IBM)) 950 951(英语:Code page 951) 1040(英语:Code page 1040) 1042(英语:Code page 1042) 1043(英语:Code page 1043) 1046(英语:Code page 1046) 1098(英语:Code page 1098) 1115(英语:Code page 1115) 1116(英语:Code page 1116) 1117(英语:Code page 1117) 1118(英语:Code page 1118) 1127(英语:Code page 1127) 3846(英语:Code page 3846) ABICOMP(英语:ABICOMP character set) CS Indic(英语:CS Indic character set) CSX Indic(英语:CSX Indic character set) CSX+ Indic(英语:CSX+ Indic character set) CWI-2(英语:CWI-2) 伊朗系統(英语:Iran System encoding) 卡梅尼茨(英语:Kamenický encoding) 馬索維亞(英语:Mazovia encoding) MIK(英语:MIK (character set)) IBM AIX代碼頁 895(英语:Code page 895) 896(英语:Code page 896) 912(英语:Code page 912) 915(英语:Code page 915) 921(英语:Code page 921) 922(英语:Code page 922) 1006(英语:Code page 1006) 1008(英语:Code page 1008) 1009(英语:Code page 1009) 1010(英语:Code page 1010) 1012(英语:Code page 1012) 1013(英语:Code page 1013) 1014(英语:Code page 1014) 1015(英语:Code page 1015) 1016(英语:Code page 1016) 1017(英语:Code page 1017) 1018(英语:Code page 1018) 1019(英语:Code page 1019) 1124(英语:Code page 1124) 1133(英语:Code page 1133) Microsoft Windows代碼頁(英语:Windows code page) CER-GS(英语:CER-GS) 932(英语:Code page 932 (Microsoft Windows)) 936 GBK 950 1169(英语:Code page 1169) Extended Latin-8(英语:Extended Latin-8) 1250(英语:Windows-1250) 1251(英语:Windows-1251) 1252 1253(英语:Windows-1253) 1254(英语:Windows-1254) 1255(英语:Windows-1255) 1256(英语:Windows-1256) 1257(英语:Windows-1257) 1258(英语:Windows-1258) 1270(英语:Windows-1270) 西里爾字母+芬蘭文(英语:Windows Cyrillic + Finnish) 西里爾字母+法文(英语:Windows Cyrillic + French) 西里爾字母+德文(英语:Windows Cyrillic + German) 希臘語變音符號(英语:Windows Polytonic Greek) EBCDIC代碼頁 37(英语:Code page 37) EBCDIC中的日文(英语:Japanese language in EBCDIC) DKOI(英语:DKOI) DEC終端機(VTx(英语:VT220)) MCS(英语:Multinational Character Set) NRCS(英语:National Replacement Character Set) 加拿大法文(英语:Code page 1020) 瑞士文(英语:Code page 1021) 西班牙文(英语:Code page 1023) 英國英文(英语:Code page 1101) 荷蘭文(英语:Code page 1102) 芬蘭文(英语:Code page 1103) 法文(英语:Code page 1104) 挪威文/丹麥文(英语:Code page 1105) 瑞典文(英语:Code page 1106) 挪威文/丹麥文(替代)(英语:Code page 1107) 8位元希臘文(英语:Code page 1287) 8位元土耳其文(英语:Code page 1288) SI 960(英语:SI 960) 希伯來文(英语:DEC Hebrew) 特殊圖形(英语:DEC Special Graphics) 技術(英语:DEC Technical Character Set) 特定平臺 1057(英语:Code page 1057) Acorn(英语:RISC OS character set) Adobe標準(英语:PostScript Standard Encoding) Adobe Latin 1(英语:PostScript Latin 1 Encoding) Amstrad CPC(英语:Amstrad CPC character set) Apple II(英语:Apple II character set) 雅達利資訊交換標準碼(英语:ATASCII) 雅達利ST(英语:Atari ST character set) BICS(英语:Bitstream International Character Set) 卡西歐計算機(英语:Casio calculator character sets) CDC(英语:CDC display code) Compucolor II(英语:Compucolor II character set) CP/M+(英语:Amstrad CP/M Plus character set) DEC RADIX 50(英语:DEC RADIX 50) DEC MCS(英语:Multinational Character Set)/NRCS(英语:National Replacement Character Set) DG國際(英语:DG International) Fieldata(英语:Fieldata) GEM(英语:GEM character set) GSM 03.38(英语:GSM 03.38) HP Roman(英语:HP Roman) HP FOCAL(英语:FOCAL character set) HP RPL(英语:RPL character set) SQUOZE(英语:SQUOZE) LICS(英语:Lotus International Character Set) LMBCS(英语:Lotus Multi-Byte Character Set) MSX(英语:MSX character set) NEC APC(英语:NEC APC character set) NeXT(英语:NeXT character set) PETSCII(英语:PETSCII) SEGA SC-3000(英语:Sega SC-3000 character set) 夏普計算機(英语:Sharp pocket computer character sets) 夏普MZ(英语:Sharp MZ character set) 辛克萊QL(英语:Sinclair QL character set) 符號 電傳文訊(英语:Teletext character set) 德州儀器計算機(英语:TI calculator character sets) TRS-80(英语:TRS-80 character set) 文圖拉國際(英语:Ventura International) WISCII(英语:Wang International Standard Code for Information Interchange) XCCS(英语:Xerox Character Code Standard) ZX80(英语:ZX80 character set) ZX81(英语:ZX81 character set) ZX Spectrum(英语:ZX Spectrum character set) Unicode/ISO/IEC 10646 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC(英语:UTF-EBCDIC) GB 18030 BOCU-1 CESU-8 SCSU TACE16(英语:Tamil All Character Encoding) Unicode編碼比較(英语:Comparison of Unicode encodings) TeX排版系統 科克(英语:Cork encoding) LY1(英语:LY1 encoding) OML(英语:OML encoding) OMS(英语:OMS encoding) OT1(英语:OT1 encoding) 其他代碼頁 ABICOMP(英语:ABICOMP character set) ASMO 449(英语:ASMO 449) Big5 APL符號數位編碼(英语:Digital encoding of APL symbols) ISO-IR-68(英语:ISO-IR-68) ARIB STD-B24 HZ(英语:HZ (character encoding)) IEC-P27-1(英语:IEC-P27-1) INIS 7位元(英语:INIS character set) INIS-8(英语:8位元) ISO-IR-169(英语:ISO-IR-169) ISO 2033(英语:ISO 2033) KOI -R -RU(英语:KOI8-RU) -U 今昔文字鏡 SEASCII(英语:Stanford Extended ASCII) Stanford/ITS(英语:Stanford/ITS character set) TRON(英语:TRON (encoding)) 統合韓文代碼(英语:Unified Hangul Code) 控制字符 摩斯電碼專用代碼(英语:Prosigns for Morse code) C0与C1控制字符 ISO/IEC 6429 JIS X 0211(英语:JIS X 0211) Unicode控制字符 空白字元 相關條目 CCSID(英语:CCSID) HTML字符编码 字符集探测 中日韓統一表意文字 硬體代碼頁(英语:Hardware code page) 磁性墨水字元識別碼(英语:Magnetic ink character recognition) 亂碼 可變長度編碼(英语:Variable-width encoding) 字元集


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3