汉字输入新技术研究*

—— 一种汉字数字编码输入法的提出

陈钦梧,邱树业,郑文若,陈小山

( 汕头大学,广东 汕头,515063qwchen@stu.edu.cn )

 

      本文论述利用汉字的基本组成单元即笔画来对汉字编码,可避免拆分困难与歧义。并对提出的一种汉字数字编码输入法,进行了深入的分析讨论。

关键词  笔画  汉字数字编码  汉字输入法

1         引言

汉字的历史源远流长。汉字的构成更是复杂、无规可寻,这给汉字编码输入造成极大的困难。自国人朱帮复先生发明仓颉输入法,开创汉字编码输入技术历史新纪元,汉字编码输入的研究进入了万“码”奔腾的大发展时期。多少仁人志士,废寝忘食,潜心研制出各种汉字编码输入新方法,为汉字的计算机处理发展贡献出多少青春与力量。

虽然,传统上为了提高汉字的编码效率,而将汉字看成是由“字元”或称“部件”组成的。但是,第一,汉字的部件很多(国家标准有560多个)不易记;第二,相当比例的汉字拆分存在困难与歧义。因此,将汉字拆分成部件构成的输入法其规则一般都较繁杂,不易记忆,需要专门的训练且对输入人员要求较高。一般用于专业打字效果较好。

然而,汉字是由笔画组成的。组成汉字的基本单元是笔画,而不是什么“字根”、“部件”!可以说,将汉字拆分为“字根”、“部件”是人为的,只适合绝大部分的汉字,个别字硬拆分为“字根”、“部件”不但困难,也存在歧义。而用组成汉字的基本笔画来给汉字编码不但自然,极少歧义,而且易学、易记、易掌握,适合普及化、大众化推广。

本研究提出的一种汉字数字编码输入法,关键就是把汉字的笔画明确的分为8类,并使用尽量少的高频部件,从而避免汉字拆分的困难,减少用户的记忆量。

2         汉字的笔画编码

那么,将汉字的笔画分成几类、取几码最合适呢?

汉字的基本笔画有30多种,但使用频率极不均匀。统计资料表明,横(一)、竖(∣)、撇(丿)、点()这四种笔画的累计使用频率约占70%。因此,太细分笔画分类,于降低重码率效果已不明显。一般认为,将汉字的笔画分为5~10类是合理的。因为数字小键盘有10个数字键,若能将笔画均匀地分成近10类,可有效降低重码率或减少击键次数。

这里还有最重要的一点,就是笔画的分类必须简单、明确、无歧义,否则将影响解码速度,也难普及推广。国家标准将笔画分为5类,能符合上述要求,由此而产生的编码输入法,就具有简单、易学、易用的特点。但由于笔画分类少,所以码长较长,这样击键次数就较多。王码五笔画汉字输入法,其码长取5,其可用编码空间5=3125太少,导致重码率太高:在GB2312—80的6763个汉字中,个别编码的重码率高达200个。

有些笔画编码输入法,依笔顺次序取码击键,这看起来简单易学,但平均击键次数太多,仍不理想。如雨字头的字,在击键八次后,重码数仍为50,说明这样设计的效率还不高。而要是发现前面有笔画打错了(如雨字头第三笔误为“竖”,或后四笔误为“横”或“撇”),那改起来就更繁。

因此,最合理的笔画分类应为8左右,码长最多取5(有效编码空间约85 =32768)。

目前在移动电话上使用的笔画输入法,多数都将汉字的笔画分成9~10类。中国国家发明专利中不乏有笔画输入法的,也多数都将汉字的笔画分成9~10类。其优点就是重码率低。然而,它们都存在一些缺点,存在许多值得改进的地方,如笔画分类不科学、或击键次数多、使用不方便等。比如有些输入法将折笔分类为“左折钩”、“右折钩”,但有些折笔不易区分为“左”还是“右折钩”,影响了易用性。特别在将折笔分出是左右折钩或无钩前,需沿着折的方向跟到完,所以反应速度很慢。

本研究提出了一种汉字数字编码输入法,关键就是把汉字的笔画明确的分为8类:即用1代表横(一), 2代表竖(丨), 3代表撇( 丿), 4代表点(丶),5代表捺(乀),6代表横折(泛指所有起笔为横的“折”,如 乛、、⺄、ㄋ、乙、┐等),7代表竖折(泛指所有起笔为竖的“折”,如亅、乚、ㄣ、└ 等),8代表所有其它笔画(如ㄑ、ㄥ 等)。然后,按照汉字的笔顺次序,取每个汉字的前3笔画及末2笔画的代码,当汉字的笔画数不足5时,有几笔就取几码。

这样得到的一种“简易编码方案”,不但笔画分类明确无歧义、分布均匀,而且反应快——因为我们输入笔画代码时,起笔为横或竖的折,不管其以后怎么折、怎么钩,我们均不必管,所以反应速度要快得多。

简易编码方案对国家标准一级常用3755个汉字编码后各笔画代码使用次数统计结果如下表所示:

笔画代码

   1

   2

   3

   4

   5

   6

   7

   8

1

 1115

  553

  823

  876

    0

  228

   23

  137

2

  701

  919

  338

  437

   94

  765

  333

  166

3

 1025

  694

  553

  345

   38

  358

   99

  621

4

  770

  436

  978

  400

   89

  698

  223

   86

5

 1020

  450

  212

  561

  811

  145

  325

   31

合计

 4631

 3052

 2904

 2619

 1032

 2194

 1003

 1041

 

3         进一步的改进

由于汉字同偏旁部首者相当多,上述简易编码方案,对于少数编码,其重码率仍较高。进一步的研究表明,增加少量几个高频部件,可明显降低重码率。故本方案以兼容并存的方式,将构成汉字的高频部件“氵、艹、扌、木”分别并入上述代码5678,将构成汉字的高频部件“口”及“日、目、田”用9作为其代码。即5既代表捺(乀),又代表“氵”;6既代表横折,又代表“艹”;…。其取码规则类同上:即按照汉字的笔顺次序,取每个汉字的前3码及末2码,若不足5码时,有几码就取几码。取码时,若有上述部件,则用部件代码;否则,仍用笔画代码。此方案称为“高效编码方案”。

高效编码方案对GB2312-80全部6763个汉字编码后各笔画/部件代码使用次数统计结果如下表所示:

代码

   1

   2

   3

   4

   5

   6

   7

   8

   9

1

 1063

  527

 1554

 1139

  367

  703

  295

  556

  559

2

 1616

 1137

 1108

  779

   81

 1179

  209

  485

  155

3

 1867

 1162

 1029

  664

  106

  828

  218

  462

  354

4

 1278

  775

 2053

  489

  174

  913

  431

  228

  186

5

 1174

  755

  281

 1334

 1115

   61

  771

  157

  584

合计

 6998

 4356

 6025

 4405

 1843

 3684

 1924

 1888

 1838

 

虽然多增加一些部件代码,可以有效降低重码率,但作为一种普及化、大众化的汉字输入法,目前暂不考虑太多部件代码,以减少用户的记忆量。

通过对以往各种汉字输入法人机介面的研究,我们发现仍存在冗余按键等许多值得改进的地方。因此,在一种编码方案重码率适当(不太高就行)的情况下,应用计算机智能技术,研究最合理的人机介面,已可减少击键次数、加快输入速度,使系统达到实用的程度。以下的实施例试对此作一探索。

4         实施例

4.1编码例

【钦】其前3笔画是“撇”( 丿)、“横”(一)、“横”(一),而末2笔画是“撇”( 丿)与“捺 ”( 乀),那么整个编码应是31135

【订】其前3笔画是“点”、“横折”、“横”,而剩下只有一笔“竖折”,共4码,整个编码应是4617

【大学】这是2字词组,按取码规则应取首字的前2笔画“横”(一)、“撇”( 丿)及后字的前3笔画“点”(丶)、“点”(丶)、“撇”( 丿),共5码组成,所以整个词的编码应是13443

【代】32184  【七】17              【五】1261           【坤】12812

【梧】用高效编码,前3笔画或部件分别为“木”代码是8,“一”代码是1,“丨”代码是2;末2笔画或部件分别为“一”代码是1,“口”代码是9,合起来是81219;若用简易编码,前3笔画分别为“一”,“丨”,“丿”,末2笔画分别为“横折”,“一”,编码是12361

【计算机】按高效编码是43183     简易编码是43112

【陈】标准编码62134;但若按楷书“陈”则为62144,属于容错码

【车】1812;受行草书影响:1821    1712

【必】标准:48434     容错:48443    47434

4.2以下介绍在Win 32环境下在PC机上的一个实现

进入本汉字数字编码输入法,屏幕一小角提示九个数字键所代表的笔画和部件。用户可点“?”得到进一步帮助或点“x”关闭上述提示。

本方案使用数字小键盘19键输入汉字编码,用0键结束一个编码不足5码的字,用 +、— 或↑、↓键向后、前翻页显示,用 * 代表模糊代码,<Del>或退格键删除最后一码。

输入前两码时,屏幕只显示高频/最近常用字、词。

输入第35码时,屏幕提示前35码与输入码相同的字、词。

如用户在输入前4码过程中发现屏幕有要用的字、词,可直接按下数字键不放约0.5秒听到“嘟”声后松手,或按<Enter>键转入选字状态后再用数字键选字、词即可。

用户输入5码后,则自动将数字键转为选字、词状态。

屏幕重码提示拟显示4个单字、4个二字词、1个三字词及1个四字或四字以上词,并用不同色彩区分,且可根据情况作适当调整。

4.3输入过程例

1.输入【而】字

1键,则屏幕显示以横起笔的高频常用字等,提示如下:

0. 1. 2. 3.  4.一个 5.一定 6.一切 7.东西             8.进一步 9.形而上学

按下3键不放约0.5秒听到“嘟”声后松手(或按<Enter>键转入选字状态后再按3键)即可。

2.输入词【大学】

(a)按键13443后,在眼睛朝二字词区查看的同时将手指放在456键附近准备选二字词,屏幕提示如下:

                                   4.感觉 5.大学 6.医学 7.列举                 9.有价证卷

5键即得。可见以上设计的分区重码提示可提高响应速度!

(b)按键13,屏幕显示以13起始的编码的最近常用字、词,提示如下:

0. 1. 2. 3.  4.不能 5.研究 6.大学 7.成为  8.输入法   9.工人阶级

在二字词提示区见到大学,按<Enter>键转入选字状态后再按6键(或按下6键不放约0.5秒听到“嘟”声后松手)即可。

3.输入【梧】字

a)按键12361,屏幕提示如下:

0. 1. 2. 3.   4.十月 5.克服 6.五月7.西周                          9.专业公司

再按“+”键向后翻页4次,屏幕则提示如下:

0. 1. 2. 3.     4.基肥 5.取胜 6.起用7.堆肥                  9.专业公司

0键即得。此时听到“嘟”一声同时屏幕用红色警示如下:

推荐用高效/标准编码【梧:81219

由此可见用简易编码也可输入绝大多数汉字,但有时可能因重码多而须翻页查找。

(b)键入81219,屏幕提示如下:

0. 1.                            4.标点

1即得。可见高效编码效率更高!

4.输入词【计算机】

键入431,屏幕提示如下:

0. 1. 2. 3.     4.关于 5.并不 6.总理 7.前面     8.计算机 9. 燃气轮机

8即得。这说明,尽量用词输入可大大减少击键次数!

5.输入字【义】

键入3540,屏幕提示如下:

0.

0即得。此时听到“嘟”一声同时屏幕用红色警示如下:

推荐用高效/标准编码【义:435

有了“容错码”,您不必再为书写习惯不标准而发愁了!

6.输入字【噩】

键入1*991(其中 * 代表任意码12…9 ),屏幕提示如下:

0.                             4.武器 5. 玉器 6.配器 7.下颚                 9.吞吞吐吐

0即得。有了“模糊”查找功能,“难”字也不再难了!

5         本汉字数字编码输入法的特点

1)       易学、易记、易用性(对一般人):5分钟即基本入门/学会,边学边用15分钟即基本掌握,边学边用40分钟可熟练操作

2)       不存在任何难字、僻字,一见字形即可轻易编码输入

3)       容错处理: 我们制定的编码方案其出现二义性编码的情况极少,但一部分人群可能对个别字编码存在共性的错误认识,甚至极个别就是因小学识字教育或其他一些书中就可能有不同的,一般人已形成习惯。则计算机允许这种“容错码”,但给出警告并提示标准编码

4)       创新的人机介面:通过对重码提示区及选择键的合理分配、声音提示等手段,可帮助使用者尽快键入所需字、词

5)       与传统的英文字母键盘编码不同,本项目只利用10个数字的小键盘进行编码,具有易学、易记、不必花几周时间去学英文打字、并可应用于手持设备等小体积设备的特点

6         结束语

随着移动电话、掌上电脑等手持设备的大批出现,今后几年带有汉字显示及输入界面的手持设备必将大行其道,这对汉字输入方法提出了更高的要求。因此,汉字数字编码的解决已迫在眉睫,其应用前景是空前的。

中文短信息、移动WAP、中文网上信息处理,这些使用汉字的广大用户,他们输入汉字的信息量不多,如何提供一种不必经过专门训练而易学、易记、易用却行之有效的汉字输入法,无疑具有深远的现实意义和空前的应用价值。

 

主要参考文献:

[1] 陈钦梧. 一种汉字数字编码输入法[CP].中国专利:00117182.8,2000-06-19.

[2] 陈钦梧,郑文若,邱树业,朱诗生,陈永强. 汉字数字编码输入法研究[A]. 第七届联合国际计算机会议论文集[C].汕头汕头大学出版社,2000.1266-1269.

[3] 郭平欣,张淞芝. 汉字信息处理技术M]. 北京:国防工业出版社,1985

[4] 慈林林,鲁元魁. 中文信息处理新技术展望[J. 计算机世界,1999,(44):C

[5] 国家语言文字工作委员会标准化委员会. 现代汉语通用字笔顺规范M]. 北京:语文出版社,1997

Study on new technology of inputting Chinese

—— A digit coding input method for Chinese characters

CHEN Qin-wu, QIU Shu-ye, ZHENG Wen-ruo, CHEN Xiao-shan

( Shantou University, Shantou Guangdong 515063 P.R.C.  qwchen@stu.edu.cn )

Abstract :  In this paper, Chinese characters coding is conducted by using the basic elements that consist of Chinese characters, avoiding the difficulty of the division of Chinese characters and the different meanings. A digit coding input method for Chinese characters is described and the discussion and analyses are made for the method.

Key words :  Strokes ;  Chinese characters digit coding ;  Chinese characters input method

 

作者简介:陈钦梧(1962-),男,广东潮阳人,汕头大学计算机系高级实验师,主要研究方向:计算机汉字信息处理及系统软件、数据加解密;1939-),男,福建福州人,教授,主要研究方向:语言声学.

 

第一作者

第二作者

联系地址

邮 编

省 市

电 话

E-mail

稿件名称

陈钦梧

邱树业

汕头大学计算机系

515063

广东汕头

07542902773

qwchen@stu.edu.cn

汉字输入新技术研究

 



* 本文受汕头大学计算机科学与技术“211”工程经费资助