说 明 书 |
一种汉字数字编码输入法
本发明属于汉字信息处理、特别是汉字编码输入法技术领域。本发明适用于利用移动电话、小型军用通信设备或计算机上的数字键盘来输入汉字信息。
近年来,尤其在中国,提出了很多种汉字数字编码输入法,其中少数获得了应用。例如,有的只用五种笔画,规则很简单,很容易使用,受到人们的青睐。但其击键次数太多,或重码率太高,仍不理想。理想的使用键数应为8~10个,码长4~5位。这样,就产生了很多种分类的编码方案。但所有这些都还存在着一些不利于使用的缺点。例如,有的根据汉字部件来设定数字代码,可是汉字部件本身十分复杂,五花八门的部件使非专业化人员很难记住,对汉字的拆分也不自然,影响输入效率;有的根据汉字笔画来设定数字代码,可是汉字笔画也五花八门,10个数字不够用有些就几种笔画共用1个数字,也不容易记住。另外为了解决重码率高的问题,又来修修补补添加了不少附加的规则,这些对一般使用者来说掌握的难度较大,输入也就慢了。为了解决易学、易记的问题,中国专利申请第95110568.X号提出了“汉字九笔画编码的编排方法”的方案,但由于该方案把折笔分为“左钩”、“右钩”与“其它折”,在对字编码时,会造成使用者的反应速度慢;另外其笔画、部件在键位上的安排不均匀,如把笔画“提”占一个键位,几个部件只能在第一码使用,则第2~5码在有折和提的键位上使用率很低,造成重码过高;还有就是增加一个本来应该编码在第3位的“区分码”,但该码却安排在最后来取,影响到取码规则的连续性和简明性,相应影响了击键输入速度;而其笔画的编排次序与目前普遍流行的“五笔画”输入法次序不一致,影响到日后许多使用者的适应性。总之,汉字数字编码输入法,既要规则简单明确不出现模棱两可的情况,又要重码数能被接受,不影响输入效率,才易于被采纳使用。
本发明创造的目的就是提出一种规则少,易学、易记、易用的汉字数字编码输入方案,同时它在使用中重码又能少到不影响输入速度,易受使用者采纳使用。
本发明是这样实现的:一种汉字数字编码输入法,其特征在于:
首先,将汉字的所有笔画按特征分为8类,并分别用1至8作为其代码,即用1代表“横”(一),用2代表“竖”(丨),用3代表“撇”(
丿),用4代表“点”(丶),用5代表“捺”(乀),用6代表“横折”(泛指所有起笔为横而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“横折”这一类,如
乛、、⺄、ㄋ、乙、┐等),用7代表“竖折”(泛指所有起笔为竖而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“竖折”这一类,如亅、乚、ㄣ、└ 等),用8代表所有其它笔画(如ㄑ、ㄥ 、 、 等)。这样分类的结果,所有的笔画都有很明确的归类,歧义少、输入编码时反应快;另一优点是与目前普遍流行使用的“五笔画”输入法的次序(很多字典也是这个次序)兼容(前4种笔画次序一致),很容易记住。
然后,按照汉字的笔顺次序,取每个汉字的前3笔画的代码,以及末2笔画的代码,编排在一起作为该汉字的编码。当汉字的笔画数目不够5码时,有几码就取几码。此方案称“简易编码方案”。
最后,利用移动电话机或计算机的数字键盘上的1至8数字键,分别代表上述笔画代码,进行击键输入。
按简易编码方案输入汉字,没有什么困难,通常都很顺利,唯一不理想的是少部分字其重码率偏高。例如,按照国标一级常用字3755个统计,其中78.5%的字,其重码率≤10个,即输入编码后只须在屏幕上直接选字即可;另有14%与5.2%
的字也只须翻页一、二次即可;只剩2.3% 的字须翻页四次才能找到。
为了进一步降低重码率,本发明以兼容并存的方式,将构成汉字的高频部件“氵、艹、扌、木”分别并入上述代码5、6、7、8,将构成汉字的高频部件“口”及“日、目、田”用9作为其代码。即5既代表“捺”(乀),又代表“氵”;6既代表“横折”,又代表“艹”;7既代表“竖折”,又代表“扌”;8既代表其它笔画又代表“木”;9既代表“口”,也代表“日、目、田”。其取码规则类同上:即按照汉字的笔顺次序,取每个汉字的前3码及末2码,编排在一起作为该汉字的编码;当不足5码时,有几码就取几码。取码时,若遇上述部件,则用部件代码;否则,仍用笔画代码。此方案称为“高效编码方案”。
加进上述高频部件代码以后,增加的记忆不多,却大大地降低了重码率。例如,按照国标一级常用字统计,其中99% 的字重码率≤10,不必翻页即可选字;其余那1%
的字也只需翻页一次即能找到。可见这是相当理想的。即使扩大到连同国标二级非常用字在内的6763字来统计,也有95% 的字重码率≤10,而99% 的字重码率≤20。我们还应注意这样一个事实,由于重码提示一级常用字显示在前,二级非常用字显示在后,后者的使用频度是极低的,因此对约5%
的字须翻页一至二次也不必在意。
另外,为了真正做到方便绝大多数人的使用,我们在设计此种汉字输入方案时,一方面以国家规定的汉字标准笔画、笔顺为主体,同时也考虑到目前全世界华人的现状,他们的笔画、笔顺习惯,并非完全符合标准,而且早已养成了习惯,甚至因受到楷、行、草书的影响而各有不同,包括已出版的中文字典之间也有差异。为此,本汉字输入方案在按标准笔画、笔顺编码的同时,将那些虽不符合标准但已为许多人所习惯了的笔画笔顺,也制成汉字编码,这称为“容错码”。在显示屏上,这类非标准编码的汉字用特殊的颜色加以区别提示,同时在特定的位置显示该字的标准编码。
这样,对一个字来说,就可能有几种编码。用户可任意使用一种来输入一个字:即既可用高效编码,也可用容错码、简易编码。区别只是重码提示时,前者显示在前,重码少,因而不受后者影响;后者显示在后,可能重码多,击键次数多。在用户选中一个非高效/标准编码的字时,通过计算机“嘟”一声的警示和提示该字的高效/标准编码,可指导用户逐渐向高效/标准编码过渡。
本方案仍适合对GBK大字符集二万余汉字及对词组(包括词和短语)进行编码。对词组的编码仍由5码组成。其取码规则如下:
(1)对2字词组,依次取首字前2笔画或高频部件代码加上后字前3笔画或高频部件代码组成;
(2)对3字词组,依次取首字首笔画或高频部件代码加上后2字每字的前2笔画或高频部件代码组成;
(3)对4字词组,依次取前3字的各字首笔画或高频部件代码加上末字的前2笔画或高频部件代码组成;
(4)对5字以上的多字词组(包括自造词和短语),依次取前4字及末字的各字首笔画或高频部件代码组成。
由于对词组的编码其各键分布要比字均匀得多,所以编码空间有效利用率也大得多。相应的,其重码率也不会太高。
从上面的介绍可以看出,本汉字输入法在输入汉字过程中,只用到“1”~“9”九个数字键,且很少会出现模棱两可的歧义笔画和部件;其次,在取码过程中,对笔画的分类反应速度快,且按笔顺次序取码反应速度也快;本输入方案的附加规则少,容易学,容易记;还有,有了“容错码”,不再有难字。最后,本输入方案的重码适当,尤其在加入了少数几个高频部件以后,完全符合高效输入的要求。因此,本发明具备推广应用的条件。
一、编码例:
(1) 【钦】其前3笔画是“撇”( 丿)、“横”(一)、“横”(一),而末2笔画是“撇”( 丿)与“捺 ”( 乀),那么整个编码应是31135
。
(2) 【订】其前3笔画是“点”、“横折”、“横”,而剩下只有一笔“竖折”,共4码,整个编码应是4617 。
(3) 【大学】这是2字词组,按取码规则应取首字的前2笔画“横”(一)、“撇”( 丿)及后字的前3笔画“点”(丶)、“点”(丶)、“撇”(
丿),共5码组成,所以整个词组的编码应是13443 。
(4) 【代】32184 【七】17 【五】1261 【坤】12812 。
(5) 【梧】用高效编码,前3笔画或部件分别为“木”代码是8,“一”代码是1,“丨”代码是2;末2笔画或部件分别为“一”代码是1,“口”代码是9,合起来是81219;若用简易编码,前3笔画分别为“一”,“丨”,“丿”,末2笔画分别为“横折”,“一”,编码是12361
。
(6) 【计算机】按高效编码是43183; 简易编码是43112
。
(7) 【陈】标准编码62134;但若按楷书“陈”则为62144,属于容错码 。
(8) 【车】1812;受行草书影响:1821 或
1712 。
(9) 【必】标准:48434 容错:48443 或
47434 。
二、以下介绍在Win 32环境下在PC机上的一个实现:
1. 进入本汉字输入法,屏幕一小角提示九个数字键所代表的笔画和部件。用户可点“?”得到进一步帮助或点“x”关闭上述提示。
2. 本方案使用数字小键盘1到9键输入汉字编码,用0键结束一个编码不足5码的字,用 +、— 或↑、↓键向后、前翻页显示,用
* 代表模糊代码(即用户不能肯定的代码),<Del>或退格键删除最后一码。
3. 输入前两码时,屏幕只显示高频/最近常用字、词组。
4. 输入第3~5码时,屏幕提示前3~5码与输入码相同的字、词组。
5. 如用户在输入前4码过程中发现屏幕有要用的字、词组,可直接按下数字键不放约0.5秒听到“嘟”声后松手,或按<Enter>键转入选字状态后再用数字键选字、词组即可。
6. 用户输入5码后,则自动将数字键转为选字、词组状态。
7. 屏幕重码提示拟显示4个单字、4个二字词组、1个三字词组及1个四字组或四以上词组,并用不同色彩区分,且可根据情况作适当调整。
三、输入过程例:
1.输入【而】字
按1键,则屏幕显示以横起笔的高频常用字等,提示如下:
0.在 1.一 2.有 3.而 4.一个 5.一定 6.一切 7.东西 8.进一步 9.形而上学
按下3键不放约0.5秒听到“嘟”声后松手(或按<Enter>键转入选字状态后再按3键)即可。
2.输入词【大学】
(a)按键13443后,在眼睛朝二字词区查看的同时将手指放在456键附近准备选二字词,屏幕提示如下:
4.感觉 5.大学 6.医学 7.列举
9.有价证卷
按5键即得。可见以上设计的分区重码提示可提高响应速度!
(b)按键13时,屏幕显示以13起始的编码的最近常用字、词,提示如下:
0.在 1.厂 2.龙 3.友 4.不能 5.研究 6.大学 7.成为 8.输入法 9.工人阶级
在二字词组提示区见到“大学”,按<Enter>键转入选字状态后再按6键(或按下6键不放约0.5秒听到“嘟”声后松手)即可。
3.输入【梧】字
(a)按键12361,屏幕提示如下:
0.格 1.棺 2.柜 3.枷 4.十月 5.克服 6.五月7.西周 9.专业公司
再按“+”键向后翻页4次,屏幕则提示如下:
0.梧 1.杏 2.栅 3.柘 4.基肥 5.取胜 6.起用7.堆肥 9.专业公司
按0键即得。此时听到“嘟”一声同时屏幕用红色警示如下:
推荐用高效/标准编码【梧:81219】 |
由此可见用简易编码也可输入绝大多数汉字,但有时可能因重码多而须翻页查找。
(b)键入81219,屏幕提示如下:
0.桔 1.梧 4.标点
选1即得。可见高效编码效率更高。
4.输入词【计算机】
键入431,屏幕提示如下:
0.半 1.并 2.迸 3.糙 4.关于
5.并不 6.总理 7.前面 8.计算机 9. 燃气轮机
选8即得。这说明,尽量用词输入可大大减少击键次数。
5.输入字【义】
键入354,屏幕提示如下:
0.义
选0即得。此时听到“嘟”一声同时屏幕用红色警示如下:
推荐用高效/标准编码【义:435】 |
有了“容错码”,您不必再为书写习惯不标准而发愁了。
6.输入字【噩】
键入1*991(其中 * 代表任意码1或2…9 ),屏幕提示如下:
0.噩 4.武器 5. 玉器 6.配器
7.下颚 9.吞吞吐吐
选0即得。有了“模糊代码”的功能,难字也不再难了。