stm32单片机上实现GBK转UNICODE和UTF

您所在的位置:网站首页 GB2312编码转换表 stm32单片机上实现GBK转UNICODE和UTF

stm32单片机上实现GBK转UNICODE和UTF

2023-09-04 14:27| 来源: 网络整理| 查看: 265

最近在做一个项目需要用到stm32f4作为网关处理车牌识别的结果,但是车牌识别的摄像头上传的数据是GB2312编码的,平台使用UTF-8编码的所以需要网关这边处理一下,将GB2312转成UTF-8,于是就有了下边的文章,本文参考了《Unicode与UTF-8互转(C语言实现)》的处理方法,下面将具体实现又整理了一下。

问题难点

因为使用的是单片机,内存空间十分有限,无法使用一些c库或者c++的处理库

GB2312和UTF-8的交集很少,下边是我找到的一些资料UTF-8:Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:

GBK、GB2312--Unicode--UTF8

UTF8--Unicode--GBK、GB2312

对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF-8节省空间。不过现在很多论坛的插件一般只支持GBK。

GB2312是GBK的子集,GBK是GB18030的子集GBK是包括中日韩字符的大字符集合如果是中文的网站 推荐GB2312 GBK有时还是有点问题为了避免所有乱码问题,应该采用UTF-8,将来要支持国际化也非常方便UTF-8可以看作是大字符集,它包含了大部分文字的编码。使用UTF-8的一个好处是其他地区的用户(如香港台湾)无需安装简体中文支持就能正常观看你的文字而不会出现乱码。

gb2312是简体中文的码gbk支持简体中文及繁体中文big5支持繁体中文utf-8支持几乎所有字符

UTF-8编码与Unicode编码有对应关系:参考原文:https://blog.csdn.net/ffdanpeng/article/details/78744158

下表总结了编码规则, 字母x表示可用编码的位.

n Unicode符号范围(十六进制) UTF-8编码方式(二进制) 1 0000 0000 - 0000 007F 0xxxxxxx 2 0000 0080 - 0000 07FF 110xxxxx 10xxxxxx 3 0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 4 0001 0000 - 0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5 0020 0000 - 03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6 0400 0000 - 7FFF FFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

对应举例:

下面, 还是以汉字”严”为例, 演示如何实现UTF-8编码.

已知”严”的unicode是4E25(1001110 00100101), 根据上表, 可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF), 因此”严”的UTF-8编码需要三个字节, 即格式是“1110xxxx 10xxxxxx 10xxxxxx”. 然后, 从”严”的最后一个二进制位开始, 依次从后向前填入格式中的x, 多出的位补0. 这样就得到了, “严”的UTF-8编码是 “11100100 10111000 10100101”, 转换成十六进制就是E4B8A5.

GBK与Unicode虽然没有直接计算关系,但是有人做了映射表cc936.c参考链接:https://blog.csdn.net/pl0020/article/details/81542105

映射表cc936.c来源于Fatfs源码,我提取出来了User.7z。

问题解决

数据源GBK,通过映射表转成Unicode,Unicode通过计算方法得到UTF-8

代码测试1234unsigned short int ban_gbk = 0xD1CF;//严unsigned short int ban_unicode;ban_unicode = ff_convert(ban_gbk,1);ban_unicode计算后 即为0x4E25。转成了unicode

通过下面方法转成UTF-8

具体实现

将一个字符的Unicode(UCS-2和UCS-4)编码转换成UTF-8编码.

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576/***************************************************************************** * 将一个字符的Unicode(UCS-2和UCS-4)编码转换成UTF-8编码. * * 参数: * unic 字符的Unicode编码值 * pOutput 指向输出的用于存储UTF8编码值的缓冲区的指针 * outsize pOutput缓冲的大小 * * 返回值: * 返回转换后的字符的UTF8编码所占的字节数, 如果出错则返回 0 . * * 注意: * 1. UTF8没有字节序问题, 但是Unicode有字节序要求; * 字节序分为大端(Big Endian)和小端(Little Endian)两种; * 在Intel处理器中采用小端法表示, 在此采用小端法表示. (低地址存低位) * 2. 请保证 pOutput 缓冲区有最少有 6 字节的空间大小! ****************************************************************************/ int enc_unicode_to_utf8_one(unsigned long unic, unsigned char *pOutput,int outSize) { if(pOutput == NULL) return 0; if(outSize < 6) return 0; if ( unic = 0x00000080 && unic > 6) & 0x1F) | 0xC0; return 2; } else if ( unic >= 0x00000800 && unic > 6) & 0x3F) | 0x80; *pOutput = ((unic >> 12) & 0x0F) | 0xE0; return 3; } else if ( unic >= 0x00010000 && unic > 6) & 0x3F) | 0x80; *(pOutput+1) = ((unic >> 12) & 0x3F) | 0x80; *pOutput = ((unic >> 18) & 0x07) | 0xF0; return 4; } else if ( unic >= 0x00200000 && unic > 6) & 0x3F) | 0x80; *(pOutput+2) = ((unic >> 12) & 0x3F) | 0x80; *(pOutput+1) = ((unic >> 18) & 0x3F) | 0x80; *pOutput = ((unic >> 24) & 0x03) | 0xF8; return 5; } else if ( unic >= 0x04000000 && unic > 6) & 0x3F) | 0x80; *(pOutput+3) = ((unic >> 12) & 0x3F) | 0x80; *(pOutput+2) = ((unic >> 18) & 0x3F) | 0x80; *(pOutput+1) = ((unic >> 24) & 0x3F) | 0x80; *pOutput = ((unic >> 30) & 0x01) | 0xFC; return 6; } return 0; }

将一个字符的UTF8编码转换成Unicode(UCS-2和UCS-4)编码.123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118/***************************************************************************** * 将一个字符的UTF8编码转换成Unicode(UCS-2和UCS-4)编码. * * 参数: * pInput 指向输入缓冲区, 以UTF-8编码 * Unic 指向输出缓冲区, 其保存的数据即是Unicode编码值, * 类型为unsigned long . * * 返回值: * 成功则返回该字符的UTF8编码所占用的字节数; 失败则返回0. * * 注意: * 1. UTF8没有字节序问题, 但是Unicode有字节序要求; * 字节序分为大端(Big Endian)和小端(Little Endian)两种; * 在Intel处理器中采用小端法表示, 在此采用小端法表示. (低地址存低位) ****************************************************************************/ int enc_utf8_to_unicode_one(const unsigned char* pInput, unsigned long *Unic) { if((pInput == NULL) || (Unic == NULL)) return 0; // b1 表示UTF-8编码的pInput中的高字节, b2 表示次高字节, ... char b1, b2, b3, b4, b5, b6; *Unic = 0x0; // 把 *Unic 初始化为全零 int utfbytes = enc_get_utf8_size(*pInput); unsigned char *pOutput = (unsigned char *) Unic; switch ( utfbytes ) { case 0: *pOutput = *pInput; utfbytes += 1; break; case 2: b1 = *pInput; b2 = *(pInput + 1); if ( (b2 & 0xE0) != 0x80 ) return 0; *pOutput = (b1 > 2) & 0x07; break; case 3: b1 = *pInput; b2 = *(pInput + 1); b3 = *(pInput + 2); if ( ((b2 & 0xC0) != 0x80) || ((b3 & 0xC0) != 0x80) ) return 0; *pOutput = (b2 2) & 0x0F); break; case 4: b1 = *pInput; b2 = *(pInput + 1); b3 = *(pInput + 2); b4 = *(pInput + 3); if ( ((b2 & 0xC0) != 0x80) || ((b3 & 0xC0) != 0x80) || ((b4 & 0xC0) != 0x80) ) return 0; *pOutput = (b3 2) & 0x0F); *(pOutput+2) = ((b1 > 4) & 0x03); break; case 5: b1 = *pInput; b2 = *(pInput + 1); b3 = *(pInput + 2); b4 = *(pInput + 3); b5 = *(pInput + 4); if ( ((b2 & 0xC0) != 0x80) || ((b3 & 0xC0) != 0x80) || ((b4 & 0xC0) != 0x80) || ((b5 & 0xC0) != 0x80) ) return 0; *pOutput = (b4 2) & 0x0F); *(pOutput+2) = (b2 > 4) & 0x03); *(pOutput+3) = (b1 4) & 0x03); *(pOutput+3) = ((b1 =0x80 && c=0xC0 && c=0xE0 && c=0xF0 && c=0xF8 && c=0xFC) return 6;}

这是一个在线转换的网站可以验证一下https://www.qqxiuzi.cn/bianma/zifuji.php



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3