如何将Big5编码的txt文件转换为UTF8编码的txt文件?

您所在的位置:网站首页 gbk转码utf8 如何将Big5编码的txt文件转换为UTF8编码的txt文件?

如何将Big5编码的txt文件转换为UTF8编码的txt文件?

2023-02-26 10:45| 来源: 网络整理| 查看: 265

我有一个Big5编码文件,Mac TextEdit无法打开.我想知道如何将整个文件转换为utf8编码,因为utf8更加通用和普遍.

我已尝试在终端中使用iconv,但它不起作用.我也找不到任何有关此错误的信息.

$ iconv -f BIG5 -t UTF8 in.txt > out.txt iconv: in.txt:5:0: cannot convert

还有其他转换方式吗?

我从这里得到了txt文件,这是一个用台湾繁体中文写的中文名字列表.

1> Bruno Haible..:

查看文件的前20行,很明显编码使用字节0x8C作为某些多字节序列的第一个字节.具有此属性的编码为:

BIG5

BIG5-HKSCS

CP932

CP936

CP949

CP950

GB18030

GBK

裘哈

SHIFT_JIS

Shift_JISX0213

依次尝试:

$ for encoding in BIG5 BIG5-HKSCS CP932 CP936 CP949 CP950 GB18030 GBK \ JOHAB Shift_JIS Shift_JISX0213; do \ if head -n 20 /dev/null 2> /dev/null; then \ echo $encoding ; \ fi; \ done

使用GNU libiconv,它会打印出来

BIG5-HKSCS CP950 GB18030

是GB18030编码吗?

$ iconv -f GB18030

显示数百行使用PUA范围内的字符.虽然并非不可能,但似乎不太可能.

是CP950编码吗?

$ iconv -f CP950

在第2294行给出转换错误.

它是用BIG5-HKSCS编码的吗?

$ iconv -f BIG5-HKSCS

在第713行给出转换错误.

因此,很可能该文件是以BIG5的变体编码的.有许多这样的变体,请参阅http://haible.de/bruno/charsets/conversion-tables/Chinese.html.可能它是CP950的扩展或BIG5-HKSCS的扩展(因为这些是今天BIG5系列中最流行的编码).

总之,这种转换错误是由BIG5变体的非标准化增殖引起的.

您可以做的最好的事情是以UTF-8编码请求原始文件; 让发端人处理它.



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3