分享

双拼研究

 幽梦清影 2014-05-02
 转贴自五笔爱好者论坛
原作者:wb_lover
     说到动态码长,其实和拼音整句输入有一定联系。 动态码长,将输入法从固定码长和码表这个原先受限于系统平台和开发程序的框框中解放出来,它的实质,就是让输入变得自由、省心。 ①五笔使用者或字词方式者,可认为动态码长是对固定编码长度这一规则的突破和拓展,大大扩展了编码空间和减少了重码率; ②整句爱好者或短句输入习惯者,则可认为这是对整句输入中的细部分析研究,可更好的促进整句输入的正确率,培养好的识字、断句方式,使得输入更自然流畅。
    总体看来,让输入越来越省心,让使用的人从不必要的记忆中解放出来,是输入法不可逆转的趋势。长期看来,输入法可以不同,输入方式却越来越会趋于一同。大概动态码长会是其中熔合的重要过渡吧。
《双拼研究》目录

一、综合研究
十二种双拼编码图解
走马观花双拼编码
简拼与双拼的兼容
零声母设置小技巧
双拼及拼音漫谈
戏说双韵组合
使用双拼时简拼与混拼的奥秘
简析新华拼音
对文字码的一点小建议
二、徐氏双拼
最顺手的双拼方案
双拼编码问题研究(简版)
徐氏双拼新版改进说明
《徐氏双拼》新版改进内容说明
《徐氏双拼》新版键位设置说明
呼唤全国统一的双拼编码方案
这里想利用以下资料对AhMan先生所提出的双拼编码问题展开来讨论,以抛砖引玉。
Flzt根据北京语言大学字词频资料进行汇总,以下是统计数据:
单字 9821        单字 16.1        8.9
双字 32053        双字 52.5        
三字 7257        三字 11.9        
四字 11500        四字 18.8        
五字 232        五字 0.4
六字 110        六字 0.2
七字 107        七字 0.2
八字 10        八字 0
九字 2        九字 0
纯词条 51271        去生字词条 56271        (单字以5000计)
词条 61092        词条 61092
双拼编码的效率问题
一、双拼单字编码
普通双拼方案,单字编码空间为26×26=676,拼音的音节数为424(为实际可用的空间)。
①有676-424=252个编码空间未利用,故单字重码率远高于五笔等形码(假设五笔也用两码为单字编码)。
②各音节所对应汉字数相差悬殊,极不均衡,部分音节汉字生僻,故每一空间首位的常用单字不足400个。
结论:尽管双拼相对于全拼是高效的。正如阿门大师所说,单字仍是拼音的软肋。
二、双拼词编码
①词(含单字词)分布结构:三字及以上词的比例约占1/3,按紫光的编码方式(每字两码,一声一韵),重码率很低,基本可以盲打。单字占16%,参与统计的单字数近万;实际上常用者约5千左右,按此统计的比例为8.9%。双字词约占52%,码长为4;数量多,码长短,重码率很高(与三字以上词相比),是编码的难点,也是我们讨论的重点。
②双字词的正常编码空间利用率:按拼音加加和自然码的编码规则(主要是零声母处理),双拼编码空间为26的平方,比五笔大(25的平方),且五笔单字编码占据了部分空间;但拼音的不均衡造成编码利用率偏低;两相抵消,估计总体利用率差别不大。
③双字词的附加编码空间(本帖主要内容):混拼,码长为3,编码空间为26的3次方(17576),这一部分空间在形码方案中有相当大的部分被单字所占据,在双拼中全部被混拼所用;混拼很有规律,无需死记混拼简码(相当于词的二级简码),在使用中就能熟练掌握。单字编码所空余的252个空间,通常用作词的一级简码(即简拼),可安排200余个最常用的双字词(按紫光的编码规则,这部分内容不易掌握)。
综合上述内容,在双字词的编码空间方面,拼音比五笔等形码要宽余;平均码长(介于3-4之间)及重码率指标均优于五笔。
三、单字词输入分析
按词输入的方式使很多高频的单字也融入词中,只有那些组词困难的单字需用单字方式输入。如紫光的一级简码y就对应“以”而不是“一”。这使单字输入的几率大大减少。
故,按词输入是拼音输入法的优势和特色。
四、其它
①单字加形:自然码、拼音加加、谭码、梦码、自然二笔(学尚易)、我的双双码等。谭码是声称可以盲打的。单字输入几率降低,但对输入效率仍有很大影响,单字加形不失为一种解决办法。为避免与简拼混拼冲突,拼音加加采用Tab键对单字形码分流,效率仍不及五笔等。至于加什么“形”更合适,仍值得进一步探索。


②生字查询:单字加形的另一好处是能输入生僻字,还可以“以形查音”。这种情况很少遇到,我是在使用拼音输入法一年后才遇到了一个不认识的生字词:柘城,这是河南的一个县名。但在特殊场合,如录入古文,拼音输入法是无法胜任的。
最后结论:一个精心设计的以双拼为主的输入法,在效率方面和五笔等形码不会有太大的差距。

无论是传统的双拼,还是单字加形分流的双拼,其双字词的编码指标都高于五笔等形码,完全避免了和单字编码的冲突。换言之,双字词的高效是以单字词的低效为代价的,双字词在一定程度上弥补了单字的不足。只站在词或字的立场上看问题,是有失偏颇的。


拼音和形码是相通的
徐孟罗

一、紫光的编码规则
从使用紫光的第一天起,我就用双拼。
无论词或单字,其双拼编码规则都是统一的:
单字:2码
双字:4码
三字:6码
四字:8码
就像正常写字那样,每字两笔,按顺序写就是了。没什么特别的,实际上无规则。
后来看到输入法生成器的介绍文章,才知道有些输入法中字词都是等长的4码;即根据不同词长制订不同的构词规则,即ce2、ce3、ca4等内容。
二、拼音特色的“形码”
拼音重码多,主要是单字,因为码长为2。自然码、拼音加加采用后续辅助编码方法,在一定程度上缓解了这一问题,此时单字全码码长为4。从形式上看,音码与形码已经没有什么不同了。其重码率指标仍不能令人满意,因为受语言自然属性的制约;同时仍保持了语言自然属性的特点,很容易上手。所谓成也萧何,败也萧何!
输词时仍然是纯粹的拼音;输单字时多数情况下只需输入一位辅助码,有时只输入拼音码即可。其主体特色仍然是拼音。类似于带拼音特色的“形码”。
三、动态码长的新发现
双双码是受前人启发做出的实验品,基本沿用了上述的编码习惯。挂接在极点平台上,却出现了新的效果。四字词码长为8,但只需键入4-6个代码即可无重码上屏,总体平均码长为5。
表面上看,等长四码的方案(如传统五笔)更高效,实际并非如此。知道这一点经历了一个艰难的过程。
上个月整理成语词库,我用上海古籍出版社的成语辞典逐条输入,历时十余天。双双码用的是拼音佳佳的22万海量词库,但仍有很多词条没有,只好用单字方式输入。此时四字的总体码长为10左右,若考虑多按的空格键数、打空时键入的4-6位无效代码,其总体效率指标将更糟糕。可以想见,等长四码的方案无法容纳更多的四字成语,打空的几率更高,重新返工输入单字的效率更低。动态码长大大拓宽了三字以上词条的编码空间,弱化了经常打空所造成的负面效率影响。
使用五笔的wbahzhy等网友目前正在探索动态码长问题,不知是否受拼音所启发,但可肯定两者在原理上是相通的。可笑的是,不少拼音用户(包括我在内)一直都在使用动态码长功能,却长期处于下意识和不自觉的矇眬状态;从未使用过这一功能的五笔用户却在有意识地、主动地探索这一问题,并获得了一些积极的理性认识。真诚地期待他们的成功!
仔细想想,wozy的三重码词库和双拼也有很多相似的地方。
单字加辅助码,再除去三字以上的词,双拼和等长四码的纯形码方案也很相似,在编码原理上也有很多可以相互借鉴的地方。

注:发此帖的原因,一是因为使用形码的慧通先生认为,用动态码长规则对形码编码,其技术指标会超越拼音方式,我基本赞同这一论断;二是五笔论坛wbahzhy、杜志民、LoveEB、玉树临风、拼音佳佳等正在倡导进行这方面的尝试,我期望能尽早做出一个方案。
这样做的好处是显而易见的,既简化了编码规则,又提高了技术指标。

补充一点,动态码长实质上是将三字以上的词从等长四码的空间中剥离出来了,这同时也扩充了双字词的编码空间。动态码长确实有利于简化编码规则,任何词都是每字两码,只不过无需输全而已。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多