中文的信息熵到底是怎么回事?

您所在的位置:网站首页 繁体字元字怎么写 中文的信息熵到底是怎么回事?

中文的信息熵到底是怎么回事?

2023-03-13 20:20| 来源: 网络整理| 查看: 265

(专业论文预印版,未经许可不得转载,侵权必究)

1948 年,现代信息论创始人之一的香农Shannon,提出了香农熵(Shannon entropy)的概念,因为与信息相关,所以也经常被通俗称为信息熵,一般用符号 H 表示。其数学公式表达如下:

式中b是对数的底数,香农取值为2,如果取值= 2, 则熵值的单位为比特bit。简单来说,就是如果信息单元(变量X)的不确定性越大,熵值H也就越大,随之所消耗的信息量也就越大。因此它的本质反映了一个信息系统“内在的复杂与混乱程度”与“信号(字符)的平均单位信息量”

根据上面的香农公式,可以得出的如下结论:

根据上面的香农公式,可以得出的如下结论:

1)、H的值≥0;2)、系统内的符号种类数量越小,信息熵越低;反之,则越大;3)、信息熵越低,代表文字更容易掌握,但是单位符号平均所承载的信息量越低。

香农本人根据这个公式对英文字符做了测算,在不考虑马尔科夫链因素的前提下,得出英文的单位符号平均所承载的信息量≈1.3bit[[[] Shannon《Prediction and entropy of printed English》[J] Bell Syst. Tech. J. 1951, 30, 50–64.]]

根据前文所述,现代汉字体系的字素已经超过1800个(声符+意符+记号),与国际主流文字相比,汉字的字素(符号)的数目非常庞大,加之汉字字素普遍存在一符多义的情况(如上面举例的‘本笨体’),因此根据上面的香农信息熵公式,如果不考虑文字系统各符号出现的概率分布差异,汉字系统的熵值远远高于英文。

1、中文的信息熵

刘源给出汉字熵值的计算结果是9 .71比特[[[]

刘源等.《汉语字词的概率分布,熵及冗余度》. 中文信息处理国际会议论文集. 1987]] 。 冯志伟通过大量实验,给出汉字静态平均信息熵值(零阶熵)是9 . 65比特[[[] 冯志伟. 《汉字的极限熵》[J]. 中文信息,1996(2):53-56.王德进《汉语字、词的概率分布和一阶熵的研究》[J]北京航空学院学报1988 第四期 ]]。

孙帆,孙茂松基于《人民日报》的11, 978,549字语料库作为实验数据集,通过建模与平衡测试样本集之间的交叉熵,得到基于字符而直接计算出的一阶熵、二阶熵与三阶熵分别是:9 .62、7.15、6.65 bit[[[]

孙帆,孙茂松《基于统计的汉字极限熵估测》[J]中国中文信息学会二十五周年学术会议2006年]]

【注:阶位越高的熵值,越能反映文字系统的真实信息熵值。】

2、高阶信息熵

显而易见,零阶香农熵并不能真正体现人类自然语言的复杂性。

有鉴于此,国家语言文字工作委员会专家冯志伟先生提出极限熵的概念,即加入考虑文字字符串的马尔科夫链因素影响,最大限度地逼近阶位的无限值而观测信息熵值特[[[]

冯志伟. 《汉字的极限熵》[J]. 中文信息,1996(2):53-56.王德进《汉语字、词的概率分布和一阶熵的研究》[J]北京航空学院学报1988 第四期 ]]。

半个多世纪以来,国际上的信息学学者根据香农公式提出了多次升级优化方案。近年来,随着大数据科学的迅猛发展,国际上的学者提出一种基于语料数据库取样容量的大数据机器语言统计分析方法。

因为本文主旨不是讨论数学原理,因此不展开讨论,本文仅限于提供近年来国际上的学者对国际上几大主流语言所做的测算对比结果列于下,作为本文探讨“最优化文字系统设计”的参考资料如下[[[]

R. Takahira ,K. TanakaIshii, Ł. Debowski《Entropy Rate Estimates for Natural Language—A New Extrapolation of Compressed Large-Scale Corpora》 Dag Hammarskjöld Library, New York 2016]]:

大数据算法优化版信息熵的测算结果Results based on large Scale Random Document Data(最右边一列是三阶熵值f3 计算值偏差Error10^-2)

Text(文本选取)Llanguage语言Size (chars)字符取样量EncodingRate(bit)三阶熵值f3 (n)h(bit)APW(美联社)English65242794441.4391.1281.070Los Angeles Times/Washington Post洛杉矶时报 / 华盛顿邮报English15452384211.5721.3010.622New York Times纽约时报English78278738321.5991.3420.616Washington Post/Bloomberg华盛顿邮报/彭博社English974117471.5351.1210.991新华社(英文版)English19298852241.3170.9190.619Wall Street Journal华尔街日报English1128680081.4561.0610.812CNA(Taiwan)台湾中央社(繁体)中文6781821525.0533.8330.888新华社Beijing(简化字)中文3838362124.7252.9240.545人民日报 (1991–95)中文1015077964.9272.7220.188Mainichi《每日新闻》日文8476060703.9472.6340.451Le Monde《世界报》法文7273488261.4891.0750.711KAIST Raw Corpus(KAIST 语料数据库)韩文1308734853.6703.3271.158Mainichi (Romanized)日文罗马字19161081611.7661.4762.067人民日报 (pinyin)汉语拼音2475513011.8501.6671.136

由上表可看出:

1)汉字的信息熵明显高于拼音文字,同时繁体字> 简体字 > 汉语拼音

2)如果考虑到现代简化字所对应的文本与繁体字所对应的文本在语义上几乎没有差异,因此上表中二者的熵值差异或许是取样偏差所导致的。同时说明一个很重要的现象,即繁体字与简化字信息熵大致相同,但是繁体字的笔画是简化字的很多倍,因此,汉字笔画的简化与优化是非常有必要的。

3)汉语拼音的信息熵尽管远低于简化字以及繁体字,但是众所周知,汉语拼音完全无法区分大量的同音字,因此说明汉语拼音方案非常不可行,完全不能体现汉语作为二维声调语所具有的高效表意优点。

4)汉字体系尽管因为熵值过高让系统具有更多的系统混乱度,但是汉字的单位字符的信息承载量也是大大高于拼音文字的,因此提示我们,只要对现行的汉字系统予以优化,即可达到既可保留高信息承载量的优点,同时还可以降低文字的混乱度,从而达到汉字规范易学高效表达的目的。

一种合理信息熵值的文字系统初论

(更新中.....)

【作者简介】

钱学森系统学第二代嫡系传人,以系统学研究为业。⫋⫋{,,,}本人信奉:人马星座的一股寒流,会引发蓝色星球上的一场‘通古斯大爆炸'.......तारामस्थितासम्पूर्णं सागितारसम्पूर्णं नीलोपकृते‘


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3