Unicode与UTF |
您所在的位置:网站首页 › 一个汉字占两个字节 › Unicode与UTF |
ASCII,Unicode,UTF-8
ASCII字符集: 0XXX_XXXX,只能表示数字,字母,以及一些符号,占用一个字节 GBK字符集:汉字占2个字节,英文数字占一个字节 UnicodeUnicode字符集:万国码,包含了世界上所有的字符 Unicode只是给每个字符分配了一个编号,在早期Unicode字符只使用2个字节就可以表示所有的字符 因此我们常用的字符在Unicode中一般表示为两个字节 随着字符的增多,以及一些其他原因,Unicode进行了扩增 编码范围变为:0X 0_0000 ~ 0X10_FFFF,有17个位面,每个位面有65536个字符 我们常用的大部分字符都在第一个位面中 UTF-8UTF-8字符集,UTF-8是对Unicode的一种编码,以便有利于字符的传输。 UTF-8中汉字占用3个字节,英文数字占用1个字节 UTF-8的编码方式 0xxxxxxx (ASCii码) 110xxxxx 10xxxxxx 1110xxxx 10xxxxxx 10xxxxxx 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Java中的charJava中的char存储的是Unicode编号,char只占两个字节。如果一个unicode字符占用3个字节,在Java中将变为两个字符。 String str = "ab我们"; System.out.println(Arrays.toString(str.getBytes()));
Java中char存储的是字符的Unicode编号,而不是对他的编码
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |