—— 一种汉字数字编码输入法的提出
陈钦梧,邱树业,郑文若,陈小山
( 汕头大学,广东 汕头,515063,qwchen@stu.edu.cn )
摘 要 本文论述利用汉字的基本组成单元即笔画来对汉字编码,可避免拆分困难与歧义。并对提出的一种汉字数字编码输入法,进行了深入的分析讨论。
关键词 笔画 汉字数字编码 汉字输入法
汉字的历史源远流长。汉字的构成更是复杂、无规可寻,这给汉字编码输入造成极大的困难。自国人朱帮复先生发明仓颉输入法,开创汉字编码输入技术历史新纪元,汉字编码输入的研究进入了万“码”奔腾的大发展时期。多少仁人志士,废寝忘食,潜心研制出各种汉字编码输入新方法,为汉字的计算机处理发展贡献出多少青春与力量。
虽然,传统上为了提高汉字的编码效率,而将汉字看成是由“字元”或称“部件”组成的。但是,第一,汉字的部件很多(国家标准有560多个)不易记;第二,相当比例的汉字拆分存在困难与歧义。因此,将汉字拆分成部件构成的输入法其规则一般都较繁杂,不易记忆,需要专门的训练且对输入人员要求较高。一般用于专业打字效果较好。
然而,汉字是由笔画组成的。组成汉字的基本单元是笔画,而不是什么“字根”、“部件”!可以说,将汉字拆分为“字根”、“部件”是人为的,只适合绝大部分的汉字,个别字硬拆分为“字根”、“部件”不但困难,也存在歧义。而用组成汉字的基本笔画来给汉字编码不但自然,极少歧义,而且易学、易记、易掌握,适合普及化、大众化推广。
本研究提出的一种汉字数字编码输入法,关键就是把汉字的笔画明确的分为8类,并使用尽量少的高频部件,从而避免汉字拆分的困难,减少用户的记忆量。
那么,将汉字的笔画分成几类、取几码最合适呢?
汉字的基本笔画有30多种,但使用频率极不均匀。统计资料表明,横(一)、竖(∣)、撇(丿)、点(丶)这四种笔画的累计使用频率约占70%。因此,太细分笔画分类,于降低重码率效果已不明显。一般认为,将汉字的笔画分为5~10类是合理的。因为数字小键盘有10个数字键,若能将笔画均匀地分成近10类,可有效降低重码率或减少击键次数。
这里还有最重要的一点,就是笔画的分类必须简单、明确、无歧义,否则将影响解码速度,也难普及推广。国家标准将笔画分为5类,能符合上述要求,由此而产生的编码输入法,就具有简单、易学、易用的特点。但由于笔画分类少,所以码长较长,这样击键次数就较多。王码五笔画汉字输入法,其码长取5,其可用编码空间55=3125太少,导致重码率太高:在GB2312—80的6763个汉字中,个别编码的重码率高达200个。
有些笔画编码输入法,依笔顺次序取码击键,这看起来简单易学,但平均击键次数太多,仍不理想。如雨字头的字,在击键八次后,重码数仍为50,说明这样设计的效率还不高。而要是发现前面有笔画打错了(如雨字头第三笔误为“竖”,或后四笔误为“横”或“撇”),那改起来就更繁。
因此,最合理的笔画分类应为8左右,码长最多取5(有效编码空间约85 =32768)。
目前在移动电话上使用的笔画输入法,多数都将汉字的笔画分成9~10类。中国国家发明专利中不乏有笔画输入法的,也多数都将汉字的笔画分成9~10类。其优点就是重码率低。然而,它们都存在一些缺点,存在许多值得改进的地方,如笔画分类不科学、或击键次数多、使用不方便等。比如有些输入法将折笔分类为“左折钩”、“右折钩”,但有些折笔不易区分为“左”还是“右折钩”,影响了易用性。特别在将折笔分出是左右折钩或无钩前,需沿着折的方向跟到完,所以反应速度很慢。
本研究提出了一种汉字数字编码输入法,关键就是把汉字的笔画明确的分为8类:即用1代表横(一), 2代表竖(丨), 3代表撇( 丿), 4代表点(丶),5代表捺(乀),6代表横折(泛指所有起笔为横的“折”,如 乛、、⺄、ㄋ、乙、┐等),7代表竖折(泛指所有起笔为竖的“折”,如亅、乚、ㄣ、└ 等),8代表所有其它笔画(如ㄑ、ㄥ
、 、
等)。然后,按照汉字的笔顺次序,取每个汉字的前3笔画及末2笔画的代码,当汉字的笔画数不足5时,有几笔就取几码。
这样得到的一种“简易编码方案”,不但笔画分类明确无歧义、分布均匀,而且反应快——因为我们输入笔画代码时,起笔为横或竖的折,不管其以后怎么折、怎么钩,我们均不必管,所以反应速度要快得多。
简易编码方案对国家标准一级常用3755个汉字编码后各笔画代码使用次数统计结果如下表所示:
笔画代码 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
第1码 |
1115 |
553 |
823 |
876 |
0 |
228 |
23 |
137 |
第2码 |
701 |
919 |
338 |
437 |
94 |
765 |
333 |
166 |
第3码 |
1025 |
694 |
553 |
345 |
38 |
358 |
99 |
621 |
第4码 |
770 |
436 |
978 |
400 |
89 |
698 |
223 |
86 |
第5码 |
1020 |
450 |
212 |
561 |
811 |
145 |
325 |
31 |
合计 |
4631 |
3052 |
2904 |
2619 |
1032 |
2194 |
1003 |
1041 |
由于汉字同偏旁部首者相当多,上述简易编码方案,对于少数编码,其重码率仍较高。进一步的研究表明,增加少量几个高频部件,可明显降低重码率。故本方案以兼容并存的方式,将构成汉字的高频部件“氵、艹、扌、木”分别并入上述代码5、6、7、8,将构成汉字的高频部件“口”及“日、目、田”用9作为其代码。即5既代表捺(乀),又代表“氵”;6既代表横折,又代表“艹”;…。其取码规则类同上:即按照汉字的笔顺次序,取每个汉字的前3码及末2码,若不足5码时,有几码就取几码。取码时,若有上述部件,则用部件代码;否则,仍用笔画代码。此方案称为“高效编码方案”。
高效编码方案对GB2312-80全部6763个汉字编码后各笔画/部件代码使用次数统计结果如下表所示:
代码 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
第1码 |
1063 |
527 |
1554 |
1139 |
367 |
703 |
295 |
556 |
559 |
第2码 |
1616 |
1137 |
1108 |
779 |
81 |
1179 |
209 |
485 |
155 |
第3码 |
1867 |
1162 |
1029 |
664 |
106 |
828 |
218 |
462 |
354 |
第4码 |
1278 |
775 |
2053 |
489 |
174 |
913 |
431 |
228 |
186 |
第5码 |
1174 |
755 |
281 |
1334 |
1115 |
61 |
771 |
157 |
584 |
合计 |
6998 |
4356 |
6025 |
4405 |
1843 |
3684 |
1924 |
1888 |
1838 |
虽然多增加一些部件代码,可以有效降低重码率,但作为一种普及化、大众化的汉字输入法,目前暂不考虑太多部件代码,以减少用户的记忆量。
通过对以往各种汉字输入法人机介面的研究,我们发现仍存在冗余按键等许多值得改进的地方。因此,在一种编码方案重码率适当(不太高就行)的情况下,应用计算机智能技术,研究最合理的人机介面,已可减少击键次数、加快输入速度,使系统达到实用的程度。以下的实施例试对此作一探索。
【钦】其前3笔画是“撇”( 丿)、“横”(一)、“横”(一),而末2笔画是“撇”( 丿)与“捺 ”( 乀),那么整个编码应是31135
【订】其前3笔画是“点”、“横折”、“横”,而剩下只有一笔“竖折”,共4码,整个编码应是4617
【大学】这是2字词组,按取码规则应取首字的前2笔画“横”(一)、“撇”( 丿)及后字的前3笔画“点”(丶)、“点”(丶)、“撇”( 丿),共5码组成,所以整个词的编码应是13443
【代】32184 【七】17 【五】1261 【坤】12812
【梧】用高效编码,前3笔画或部件分别为“木”代码是8,“一”代码是1,“丨”代码是2;末2笔画或部件分别为“一”代码是1,“口”代码是9,合起来是81219;若用简易编码,前3笔画分别为“一”,“丨”,“丿”,末2笔画分别为“横折”,“一”,编码是12361
【计算机】按高效编码是43183; 简易编码是43112
【陈】标准编码62134;但若按楷书“陈”则为62144,属于容错码
【车】1812;受行草书影响:1821 或 1712
【必】标准:48434 容错:48443 或 47434
进入本汉字数字编码输入法,屏幕一小角提示九个数字键所代表的笔画和部件。用户可点“?”得到进一步帮助或点“x”关闭上述提示。
本方案使用数字小键盘1到9键输入汉字编码,用0键结束一个编码不足5码的字,用 +、— 或↑、↓键向后、前翻页显示,用 * 代表模糊代码,<Del>或退格键删除最后一码。
输入前两码时,屏幕只显示高频/最近常用字、词。
输入第3~5码时,屏幕提示前3~5码与输入码相同的字、词。
如用户在输入前4码过程中发现屏幕有要用的字、词,可直接按下数字键不放约0.5秒听到“嘟”声后松手,或按<Enter>键转入选字状态后再用数字键选字、词即可。
用户输入5码后,则自动将数字键转为选字、词状态。
屏幕重码提示拟显示4个单字、4个二字词、1个三字词及1个四字或四字以上词,并用不同色彩区分,且可根据情况作适当调整。
1.输入【而】字
按1键,则屏幕显示以横起笔的高频常用字等,提示如下:
0.在 1.一 2.有 3.而 4.一个 5.一定 6.一切 7.东西 8.进一步 9.形而上学
按下3键不放约0.5秒听到“嘟”声后松手(或按<Enter>键转入选字状态后再按3键)即可。
2.输入词【大学】
(a)按键13443后,在眼睛朝二字词区查看的同时将手指放在456键附近准备选二字词,屏幕提示如下:
4.感觉 5.大学 6.医学 7.列举 9.有价证卷
按5键即得。可见以上设计的分区重码提示可提高响应速度!
(b)按键13时,屏幕显示以13起始的编码的最近常用字、词,提示如下:
0.在 1.厂 2.龙 3.友 4.不能 5.研究 6.大学 7.成为 8.输入法 9.工人阶级
在二字词提示区见到大学,按<Enter>键转入选字状态后再按6键(或按下6键不放约0.5秒听到“嘟”声后松手)即可。
3.输入【梧】字
(a)按键12361,屏幕提示如下:
0.格 1.棺 2.柜 3.枷 4.十月 5.克服 6.五月7.西周 9.专业公司
再按“+”键向后翻页4次,屏幕则提示如下:
0.梧 1.杏 2.栅 3.柘 4.基肥 5.取胜 6.起用7.堆肥 9.专业公司
按0键即得。此时听到“嘟”一声同时屏幕用红色警示如下:
推荐用高效/标准编码【梧:81219】 |
由此可见用简易编码也可输入绝大多数汉字,但有时可能因重码多而须翻页查找。
(b)键入81219,屏幕提示如下:
0.桔 1.梧 4.标点
选1即得。可见高效编码效率更高!
4.输入词【计算机】
键入431,屏幕提示如下:
0.半 1.并 2.迸 3.糙 4.关于 5.并不 6.总理 7.前面 8.计算机 9. 燃气轮机
选8即得。这说明,尽量用词输入可大大减少击键次数!
5.输入字【义】
键入3540,屏幕提示如下:
0.义
选0即得。此时听到“嘟”一声同时屏幕用红色警示如下:
推荐用高效/标准编码【义:435】 |
有了“容错码”,您不必再为书写习惯不标准而发愁了!
6.输入字【噩】
键入1*991(其中 * 代表任意码1或2…9 ),屏幕提示如下:
0.噩 4.武器 5. 玉器 6.配器 7.下颚 9.吞吞吐吐
选0即得。有了“模糊”查找功能,“难”字也不再难了!
1)
易学、易记、易用性(对一般人):5分钟即基本入门/学会,边学边用15分钟即基本掌握,边学边用40分钟可熟练操作
2)
不存在任何难字、僻字,一见字形即可轻易编码输入
3)
容错处理: 我们制定的编码方案其出现二义性编码的情况极少,但一部分人群可能对个别字编码存在共性的错误认识,甚至极个别就是因小学识字教育或其他一些书中就可能有不同的,一般人已形成习惯。则计算机允许这种“容错码”,但给出警告并提示标准编码
4)
创新的人机介面:通过对重码提示区及选择键的合理分配、声音提示等手段,可帮助使用者尽快键入所需字、词
5)
与传统的英文字母键盘编码不同,本项目只利用10个数字的小键盘进行编码,具有易学、易记、不必花几周时间去学英文打字、并可应用于手持设备等小体积设备的特点
随着移动电话、掌上电脑等手持设备的大批出现,今后几年带有汉字显示及输入界面的手持设备必将大行其道,这对汉字输入方法提出了更高的要求。因此,汉字数字编码的解决已迫在眉睫,其应用前景是空前的。
中文短信息、移动WAP、中文网上信息处理,这些使用汉字的广大用户,他们输入汉字的信息量不多,如何提供一种不必经过专门训练而易学、易记、易用却行之有效的汉字输入法,无疑具有深远的现实意义和空前的应用价值。
主要参考文献:
[1] 陈钦梧. 一种汉字数字编码输入法[CP].中国专利:00117182.8,2000-06-19.
[2] 陈钦梧,郑文若,邱树业,朱诗生,陈永强. 汉字数字编码输入法研究[A]. 第七届联合国际计算机会议论文集[C].汕头:汕头大学出版社,2000.1266-1269.
[3] 郭平欣,张淞芝. 汉字信息处理技术[M]. 北京:国防工业出版社,1985
[4] 慈林林,鲁元魁. 中文信息处理新技术展望[J]. 计算机世界,1999,(44):C版
[5] 国家语言文字工作委员会标准化委员会. 现代汉语通用字笔顺规范[M]. 北京:语文出版社,1997
—— A digit coding input method for Chinese
characters
CHEN Qin-wu, QIU Shu-ye, ZHENG
Wen-ruo, CHEN Xiao-shan
( Shantou University, Shantou Guangdong 515063 P.R.C. qwchen@stu.edu.cn )
Abstract
: In
this paper, Chinese characters coding is conducted by using the basic elements
that consist of Chinese characters, avoiding the difficulty of the division of
Chinese characters and the different meanings. A digit coding input method for
Chinese characters is described and the discussion and analyses are made for
the method.
Key
words : Strokes ; Chinese characters digit coding ; Chinese characters input method
作者简介:陈钦梧(1962-),男,广东潮阳人,汕头大学计算机系高级实验师,主要研究方向:计算机汉字信息处理及系统软件、数据加解密;(1939-),男,福建福州人,教授,主要研究方向:语言声学.
第一作者 |
第二作者 |
联系地址 |
邮 编 |
省 市 |
电 话 |
E-mail |
稿件名称 |
陈钦梧 |
邱树业 |
汕头大学计算机系 |
515063 |
广东汕头 |
(0754)2902773 |
汉字输入新技术研究 |