笔顺编码的原理

mqh014 2022-06-20 发布于广东

展开全文

汉字为什么可以借助笔顺编码精准排序？因为：
1）一个理想的汉字排序必须做到每个汉字只出现一次，并且比较任意两个汉字你知道哪个汉字应该排在前面，哪个汉字应该排在后面。
2）一个汉字对应一个英语单词（也可看作一个英文字），而汉字的笔画对应英语单词（英文字）的字母。只要把汉字笔画之间的顺序规定下来，汉字根据其规范了的笔顺就自动排成了序列。对于笔画、笔顺都完全相同的汉字，则依据其音序排列。
3）将汉字的笔画对应英语的字母，这是一个有相当难度的一项工作。为什么？因为:首先，该编码必须把所有的笔画笔形包含其中，不能有一个遗漏。其次，代码和笔画笔形之间的关系一一对应，不能有丝毫的混淆。例如：
代码C表示“横竖横”和“乙形”两种笔画，而“乙形”笔画又包含多种笔形，例如“乙”字的笔画、“九”第二画、“飞”第一画，这三字中的相关笔画它们的笔形有相似性，但不完全一样，而且很难各自给这些笔形以精确的描述和统一规范的名称。
代码D表示“横竖横竖”和“异形”两种笔画，其中“横竖横竖”这一笔画只有“凸”字里面有（第四画），而“异形”指一些怪异的笔画笔形，如“〇”这个字的笔画就是这种。而且，这个“〇”的笔形，与“凸”字里面“横竖横竖”或“横折折折”这一笔形，归类一起，是完全符合逻辑的。因为“横折折折”就是三折，而“〇”这一笔形表示无限多折（三折以上），当然它们可以归为一种笔画。
代码Ｍ表示“竖折折”（“亏”字第三画）、“竖折折钩”（“专”字第三画）等笔形。注意，在这里带钩和不带钩的两种笔形被看作一种笔画，使用同一个代码。
把虽然不完全一样但有相似性的笔形，划归为一种笔画，用某一个英文字母作代码，如上述的C、D、M。这种模糊化处理是必须的，因为汉字的笔画笔形太复杂多样了。如果每一种笔形都用一个字母代码，势必造成字母不够用的情况，而且会带来难以记住的困难。
笔顺码的笔形归类、笔画划分除了模糊化处理外，也有精确化处理。例如，传统的“点”这一笔画，在笔顺码中则分为“左点”和“右点”，分别以代码“Y”、“Z”表示。传统的“捺”这一笔画，在笔顺码中则分为“捺”和“提捺”，分别以代码“T”、“X”表示。一般的处理原则是：近端（或始端）精确，远端（或尾端）模糊。
总之，这些笔形笔画和代码的设置是非常巧妙、智慧和富有创意的。
3）胡乔木说：“我们要尽可能使汉字成为一种'拼形’的文字。”汉字信息化技术方面的资深专家许寿椿教授曾著文说：“英文等拼音文字的字母是基元性的，即字母是最小单位，不能够、不需要再进一步拆分。而汉字是可以也需要拆分的，它不是基元性的。”汉字笔顺码，实际上就是做了一件把汉字拆分为笔画序列的工作，这是一种以部件（笔画）结构来发掘汉字的规律性的一项工作。
4）笔顺码最初是作为“挑战部首”的形象出现的，这可以从笔顺码发明者出版的书《汉字新序——挑战部首检字》（武汉出版社，2008.5）看出。说是“挑战”，是从创新发明的角度来说的，但笔者认为，既是挑战，也是传承。笔顺码查检法什么地方传承了部首查检法？它传承了部首查检法的以形研字、以形查字的传统，即是说，它们都是从字的形态为出发点的。只不过部首查检法是以汉字的中间部件（偏旁）为基础的，而笔顺码查检法是以汉字的最小最基本部件（笔形笔画）为基础的。正因为二者有一定的传承性，所以使用笔顺码编纂的字典也像使用部首编纂的字典有类似的地方，譬如，所有具有相同偏旁的的汉字都放在了一起，虽然两种字典相同偏旁的字的排列次序不一样。其实，笔顺码查检法的真正挑战对象是拼音查检法，因为拼音查检法是在工业化时代西方“以语音为中心”的错误的文字学说的大环境下的产物；而且，从使用实践的角度说，拼音查检法是一种没有多少实用价值架子，因为你要查的字基本上都是不知音、不会读的，你怎么查？最后还是要依赖部首查检。而且该类字典常常附以一个以“〇”打头的接近300个字的“难检字笔画索引”表，有这么多难检字，从这一点就可以认为这类查检法不是很有效、很理想的的查检法。
（《笔顺码字典》编委温罗发20190928）