转贴自五笔爱好者论坛 原作者:wb_lover 说到动态码长,其实和拼音整句输入有一定联系。 动态码长,将输入法从固定码长和码表这个原先受限于系统平台和开发程序的框框中解放出来,它的实质,就是让输入变得自由、省心。 ①五笔使用者或字词方式者,可认为动态码长是对固定编码长度这一规则的突破和拓展,大大扩展了编码空间和减少了重码率; ②整句爱好者或短句输入习惯者,则可认为这是对整句输入中的细部分析研究,可更好的促进整句输入的正确率,培养好的识字、断句方式,使得输入更自然流畅。 总体看来,让输入越来越省心,让使用的人从不必要的记忆中解放出来,是输入法不可逆转的趋势。长期看来,输入法可以不同,输入方式却越来越会趋于一同。大概动态码长会是其中熔合的重要过渡吧。 《双拼研究》目录 一、综合研究 十二种双拼编码图解 走马观花双拼编码 简拼与双拼的兼容 零声母设置小技巧 双拼及拼音漫谈 戏说双韵组合 使用双拼时简拼与混拼的奥秘 简析新华拼音 对文字码的一点小建议 二、徐氏双拼 最顺手的双拼方案 双拼编码问题研究(简版) 徐氏双拼新版改进说明 《徐氏双拼》新版改进内容说明 《徐氏双拼》新版键位设置说明 呼唤全国统一的双拼编码方案 这里想利用以下资料对AhMan先生所提出的双拼编码问题展开来讨论,以抛砖引玉。 Flzt根据北京语言大学字词频资料进行汇总,以下是统计数据: 单字 9821 单字 16.1 8.9 双字 32053 双字 52.5 三字 7257 三字 11.9 四字 11500 四字 18.8 五字 232 五字 0.4 六字 110 六字 0.2 七字 107 七字 0.2 八字 10 八字 0 九字 2 九字 0 纯词条 51271 去生字词条 56271 (单字以5000计) 词条 61092 词条 61092 双拼编码的效率问题 一、双拼单字编码 普通双拼方案,单字编码空间为26×26=676,拼音的音节数为424(为实际可用的空间)。 ①有676-424=252个编码空间未利用,故单字重码率远高于五笔等形码(假设五笔也用两码为单字编码)。 ②各音节所对应汉字数相差悬殊,极不均衡,部分音节汉字生僻,故每一空间首位的常用单字不足400个。 结论:尽管双拼相对于全拼是高效的。正如阿门大师所说,单字仍是拼音的软肋。 二、双拼词编码 ①词(含单字词)分布结构:三字及以上词的比例约占1/3,按紫光的编码方式(每字两码,一声一韵),重码率很低,基本可以盲打。单字占16%,参与统计的单字数近万;实际上常用者约5千左右,按此统计的比例为8.9%。双字词约占52%,码长为4;数量多,码长短,重码率很高(与三字以上词相比),是编码的难点,也是我们讨论的重点。 ②双字词的正常编码空间利用率:按拼音加加和自然码的编码规则(主要是零声母处理),双拼编码空间为26的平方,比五笔大(25的平方),且五笔单字编码占据了部分空间;但拼音的不均衡造成编码利用率偏低;两相抵消,估计总体利用率差别不大。 ③双字词的附加编码空间(本帖主要内容):混拼,码长为3,编码空间为26的3次方(17576),这一部分空间在形码方案中有相当大的部分被单字所占据,在双拼中全部被混拼所用;混拼很有规律,无需死记混拼简码(相当于词的二级简码),在使用中就能熟练掌握。单字编码所空余的252个空间,通常用作词的一级简码(即简拼),可安排200余个最常用的双字词(按紫光的编码规则,这部分内容不易掌握)。 综合上述内容,在双字词的编码空间方面,拼音比五笔等形码要宽余;平均码长(介于3-4之间)及重码率指标均优于五笔。 三、单字词输入分析 按词输入的方式使很多高频的单字也融入词中,只有那些组词困难的单字需用单字方式输入。如紫光的一级简码y就对应“以”而不是“一”。这使单字输入的几率大大减少。 故,按词输入是拼音输入法的优势和特色。 四、其它 ①单字加形:自然码、拼音加加、谭码、梦码、自然二笔(学尚易)、我的双双码等。谭码是声称可以盲打的。单字输入几率降低,但对输入效率仍有很大影响,单字加形不失为一种解决办法。为避免与简拼混拼冲突,拼音加加采用Tab键对单字形码分流,效率仍不及五笔等。至于加什么“形”更合适,仍值得进一步探索。
②生字查询:单字加形的另一好处是能输入生僻字,还可以“以形查音”。这种情况很少遇到,我是在使用拼音输入法一年后才遇到了一个不认识的生字词:柘城,这是河南的一个县名。但在特殊场合,如录入古文,拼音输入法是无法胜任的。 最后结论:一个精心设计的以双拼为主的输入法,在效率方面和五笔等形码不会有太大的差距。 无论是传统的双拼,还是单字加形分流的双拼,其双字词的编码指标都高于五笔等形码,完全避免了和单字编码的冲突。换言之,双字词的高效是以单字词的低效为代价的,双字词在一定程度上弥补了单字的不足。只站在词或字的立场上看问题,是有失偏颇的。
|
|