如何将Big5编码的txt文件转换为UTF8编码的txt文件? |
您所在的位置:网站首页 › gbk转码utf8 › 如何将Big5编码的txt文件转换为UTF8编码的txt文件? |
我有一个Big5编码文件,Mac TextEdit无法打开.我想知道如何将整个文件转换为utf8编码,因为utf8更加通用和普遍. 我已尝试在终端中使用iconv,但它不起作用.我也找不到任何有关此错误的信息. $ iconv -f BIG5 -t UTF8 in.txt > out.txt iconv: in.txt:5:0: cannot convert还有其他转换方式吗? 我从这里得到了txt文件,这是一个用台湾繁体中文写的中文名字列表. 1> Bruno Haible..: 查看文件的前20行,很明显编码使用字节0x8C作为某些多字节序列的第一个字节.具有此属性的编码为:
BIG5 BIG5-HKSCS CP932 CP936 CP949 CP950 GB18030 GBK 裘哈 SHIFT_JIS Shift_JISX0213
依次尝试: $ for encoding in BIG5 BIG5-HKSCS CP932 CP936 CP949 CP950 GB18030 GBK \ JOHAB Shift_JIS Shift_JISX0213; do \ if head -n 20 /dev/null 2> /dev/null; then \ echo $encoding ; \ fi; \ done使用GNU libiconv,它会打印出来 BIG5-HKSCS CP950 GB18030是GB18030编码吗? $ iconv -f GB18030显示数百行使用PUA范围内的字符.虽然并非不可能,但似乎不太可能. 是CP950编码吗? $ iconv -f CP950在第2294行给出转换错误. 它是用BIG5-HKSCS编码的吗? $ iconv -f BIG5-HKSCS在第713行给出转换错误. 因此,很可能该文件是以BIG5的变体编码的.有许多这样的变体,请参阅http://haible.de/bruno/charsets/conversion-tables/Chinese.html.可能它是CP950的扩展或BIG5-HKSCS的扩展(因为这些是今天BIG5系列中最流行的编码). 总之,这种转换错误是由BIG5变体的非标准化增殖引起的. 您可以做的最好的事情是以UTF-8编码请求原始文件; 让发端人处理它. |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |