单字字频统计

您所在的位置:网站首页 现代汉语字频统计表 单字字频统计

单字字频统计

2023-10-31 07:34| 来源: 网络整理| 查看: 265

      语言学中经常用统计数据对语言现象进行定量描写,主要用来支持语言的自动分析,其中字频和词频是最基本的统计单位,其中运用的原理主要是概率论。本文主要讨论对于单个文本文件的单字字频统计,其任务是:给定一批语料,统计其中有多少个不同的汉字(即词形,Word Type),每个汉字各出现多少次(即字频,Word Frequency)(由于汉字出现的总次数是一定的,因此可以直接用其出现的次数来代替词频)。如果语料规模足够大并且分布均匀,就可以根据字频来估计每个汉字的出现概率。(注:本文的论述基于GB2312-80)

      处理这个问题的基本思想是,建立一个动态数组,数组中的每一个元素当作一种结构,其存储的数据是某个汉字出现的频率,同时,还需建立其字频和汉字的关联,这个问题用数组的下标能很容易实现。那么怎样来建立汉字和数组下标的关联呢?由上一篇对于汉字编码的分析可以得出如下的计算公式:

     设ID是汉字对应的下标,C1、C2是汉字的两个字节的ASCII码,有

     ID=(C1-176)*94+(C2-161)

     从这个公式,我们便可以建立汉字到下标的转换。同样,我们还需要建立从下标到汉字的转换,公式如下:

     C1=ID/94+176 (先取模后求和)

     C2=ID%94+161(先取余后求和)

     利用这个原理,便可以利用机器自动的进行字频统计了。

    下面的java程序实现了统计单个文本文



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3