【统计数据】八种形码方案在不同量级词库下的重码测试

您所在的位置:网站首页 不同版本输入法词库转移 【统计数据】八种形码方案在不同量级词库下的重码测试

【统计数据】八种形码方案在不同量级词库下的重码测试

2024-01-06 12:53| 来源: 网络整理| 查看: 265

如果有输入法爱好者路过,这些数据或许帮得上你……

为方便理解,还是先介绍材料和方法为好。

一、工具和材料

(1)多多码表编辑器 V3.2

拥有「转换码表格式」「由单字码表和纯词库生成词库码表」等功能。

(2)单字码表

收集了八种有代表性形码方案的单字码表,用于生成词库。其中单字编码无重复,且根据组词规则每字至少2码。八种形码方案分别为:

①五笔字型86版

②郑码

③09五笔第一代(编码取自《形码测评系统》)

④09五笔第二代(原版)

⑤蓝宝石(2020.8.2版)

⑥虎码(2022.5.24版)

⑦匠码 - 新纪元A版 V1.03(2020.5.20版)

⑧希码(22.4版)

郑码单字码表,一码字也按规则补到2码(例如“一”)

(3)词库

选取了不同量级的词库,分别是:

①qq五笔默认词库(近7万词组)

②092五笔M词库(约10万词组)

③虎码官方词库(近16万词组)

④九重魔鹤词库(近24万词组)

二、操作流程

(1)借助多多码表编辑器,生成8×4个码表。

(2)借助Excel,统计每个编码出现的次数。

86五笔×虎码词库的统计过程

三、统计结果

阅读提示:每种形码方案都不只是一套字根和规则,还有为之精选的词库。

(1)按词库分组

(2)按方案分组

(3)生成无重词条的能力



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3