汉字输入新技术研究*

—— 一种汉字数字编码输入法的提出

陈钦梧，邱树业，郑文若，陈小山

( 汕头大学，广东汕头，515063，qwchen@stu.edu.cn )

摘要本文论述利用汉字的基本组成单元即笔画来对汉字编码，可避免拆分困难与歧义。并对提出的一种汉字数字编码输入法，进行了深入的分析讨论。

关键词 笔画汉字数字编码汉字输入法

1 引言

汉字的历史源远流长。汉字的构成更是复杂、无规可寻，这给汉字编码输入造成极大的困难。自国人朱帮复先生发明仓颉输入法，开创汉字编码输入技术历史新纪元，汉字编码输入的研究进入了万“码”奔腾的大发展时期。多少仁人志士，废寝忘食，潜心研制出各种汉字编码输入新方法，为汉字的计算机处理发展贡献出多少青春与力量。

虽然，传统上为了提高汉字的编码效率，而将汉字看成是由“字元”或称“部件”组成的。但是，第一，汉字的部件很多（国家标准有５６０多个）不易记；第二，相当比例的汉字拆分存在困难与歧义。因此，将汉字拆分成部件构成的输入法其规则一般都较繁杂，不易记忆，需要专门的训练且对输入人员要求较高。一般用于专业打字效果较好。

然而，汉字是由笔画组成的。组成汉字的基本单元是笔画，而不是什么“字根”、“部件”！可以说，将汉字拆分为“字根”、“部件”是人为的，只适合绝大部分的汉字，个别字硬拆分为“字根”、“部件”不但困难，也存在歧义。而用组成汉字的基本笔画来给汉字编码不但自然，极少歧义，而且易学、易记、易掌握，适合普及化、大众化推广。

本研究提出的一种汉字数字编码输入法，关键就是把汉字的笔画明确的分为８类，并使用尽量少的高频部件，从而避免汉字拆分的困难，减少用户的记忆量。

2 汉字的笔画编码

那么，将汉字的笔画分成几类、取几码最合适呢？

汉字的基本笔画有３０多种，但使用频率极不均匀。统计资料表明，横（一）、竖（∣）、撇（丿）、点（丶）这四种笔画的累计使用频率约占７０％。因此，太细分笔画分类，于降低重码率效果已不明显。一般认为，将汉字的笔画分为５～１０类是合理的。因为数字小键盘有１０个数字键，若能将笔画均匀地分成近１０类，可有效降低重码率或减少击键次数。

这里还有最重要的一点，就是笔画的分类必须简单、明确、无歧义，否则将影响解码速度，也难普及推广。国家标准将笔画分为５类，能符合上述要求，由此而产生的编码输入法，就具有简单、易学、易用的特点。但由于笔画分类少，所以码长较长，这样击键次数就较多。王码五笔画汉字输入法，其码长取５，其可用编码空间５^５＝３１２５太少，导致重码率太高：在ＧＢ２３１２—８０的６７６３个汉字中，个别编码的重码率高达２００个。

有些笔画编码输入法，依笔顺次序取码击键，这看起来简单易学，但平均击键次数太多，仍不理想。如雨字头的字，在击键八次后，重码数仍为５０，说明这样设计的效率还不高。而要是发现前面有笔画打错了（如雨字头第三笔误为“竖”，或后四笔误为“横”或“撇”），那改起来就更繁。

因此，最合理的笔画分类应为８左右，码长最多取５（有效编码空间约8⁵=32768）。

目前在移动电话上使用的笔画输入法，多数都将汉字的笔画分成9～１０类。中国国家发明专利中不乏有笔画输入法的，也多数都将汉字的笔画分成9～１０类。其优点就是重码率低。然而，它们都存在一些缺点，存在许多值得改进的地方，如笔画分类不科学、或击键次数多、使用不方便等。比如有些输入法将折笔分类为“左折钩”、“右折钩”，但有些折笔不易区分为“左”还是“右折钩”，影响了易用性。特别在将折笔分出是左右折钩或无钩前，需沿着折的方向跟到完，所以反应速度很慢。

本研究提出了一种汉字数字编码输入法，关键就是把汉字的笔画明确的分为８类：即用1代表横（一）， 2代表竖（丨）， 3代表撇（丿）， 4代表点（丶），5代表捺（乀），6代表横折（泛指所有起笔为横的“折”，如乛、、⺄、ㄋ、乙、┐等），7代表竖折（泛指所有起笔为竖的“折”，如亅、乚、ㄣ、└ 等），8代表所有其它笔画（如ㄑ、ㄥ、、等）。然后，按照汉字的笔顺次序，取每个汉字的前3笔画及末2笔画的代码，当汉字的笔画数不足5时，有几笔就取几码。

这样得到的一种“简易编码方案”，不但笔画分类明确无歧义、分布均匀，而且反应快——因为我们输入笔画代码时，起笔为横或竖的折，不管其以后怎么折、怎么钩，我们均不必管，所以反应速度要快得多。

简易编码方案对国家标准一级常用３７５５个汉字编码后各笔画代码使用次数统计结果如下表所示：

笔画代码	1	2	3	4	5	6	7	8
第1码	1115	553	823	876	0	228	23	137
第2码	701	919	338	437	94	765	333	166
第3码	1025	694	553	345	38	358	99	621
第4码	770	436	978	400	89	698	223	86
第5码	1020	450	212	561	811	145	325	31
合计	4631	3052	2904	2619	1032	2194	1003	1041

3 进一步的改进

由于汉字同偏旁部首者相当多，上述简易编码方案，对于少数编码，其重码率仍较高。进一步的研究表明，增加少量几个高频部件，可明显降低重码率。故本方案以兼容并存的方式，将构成汉字的高频部件“氵、艹、扌、木”分别并入上述代码5、6、7、8，将构成汉字的高频部件“口”及“日、目、田”用9作为其代码。即5既代表捺（乀），又代表“氵”；6既代表横折，又代表“艹”；…。其取码规则类同上：即按照汉字的笔顺次序，取每个汉字的前3码及末2码，若不足5码时，有几码就取几码。取码时，若有上述部件，则用部件代码；否则，仍用笔画代码。此方案称为“高效编码方案”。

高效编码方案对ＧＢ２３１2－８０全部６７６３个汉字编码后各笔画／部件代码使用次数统计结果如下表所示：

代码	1	2	3	4	5	6	7	8	9
第1码	1063	527	1554	1139	367	703	295	556	559
第2码	1616	1137	1108	779	81	1179	209	485	155
第3码	1867	1162	1029	664	106	828	218	462	354
第4码	1278	775	2053	489	174	913	431	228	186
第5码	1174	755	281	1334	1115	61	771	157	584
合计	6998	4356	6025	4405	1843	3684	1924	1888	1838

虽然多增加一些部件代码，可以有效降低重码率，但作为一种普及化、大众化的汉字输入法，目前暂不考虑太多部件代码，以减少用户的记忆量。

通过对以往各种汉字输入法人机介面的研究，我们发现仍存在冗余按键等许多值得改进的地方。因此，在一种编码方案重码率适当（不太高就行）的情况下，应用计算机智能技术，研究最合理的人机介面，已可减少击键次数、加快输入速度，使系统达到实用的程度。以下的实施例试对此作一探索。

4 实施例

4.1编码例

【钦】其前3笔画是“撇”（丿）、“横”（一）、“横”（一），而末2笔画是“撇”（丿）与“捺 ”（乀），那么整个编码应是31135

【订】其前3笔画是“点”、“横折”、“横”，而剩下只有一笔“竖折”，共4码，整个编码应是4617

【大学】这是2字词组，按取码规则应取首字的前2笔画“横”（一）、“撇”（丿）及后字的前3笔画“点”（丶）、“点”（丶）、“撇”（丿），共5码组成，所以整个词的编码应是13443

【代】32184 【七】17 【五】1261 【坤】12812

【梧】用高效编码，前3笔画或部件分别为“木”代码是8，“一”代码是1，“丨”代码是2；末2笔画或部件分别为“一”代码是1，“口”代码是9，合起来是81219；若用简易编码，前3笔画分别为“一”，“丨”，“丿”，末2笔画分别为“横折”，“一”，编码是12361

【计算机】按高效编码是43183；简易编码是43112

【陈】标准编码62134；但若按楷书“陈”则为62144，属于容错码

【车】1812；受行草书影响：1821 或 1712

【必】标准：48434 容错：48443 或 47434

4.2以下介绍在Win 32环境下在PC机上的一个实现

进入本汉字数字编码输入法，屏幕一小角提示九个数字键所代表的笔画和部件。用户可点“？”得到进一步帮助或点“x”关闭上述提示。

本方案使用数字小键盘1到9键输入汉字编码，用0键结束一个编码不足5码的字，用 +、— 或↑、↓键向后、前翻页显示，用 * 代表模糊代码，<Del>或退格键删除最后一码。

输入前两码时，屏幕只显示高频/最近常用字、词。

输入第3～5码时，屏幕提示前3～5码与输入码相同的字、词。

如用户在输入前4码过程中发现屏幕有要用的字、词，可直接按下数字键不放约0.5秒听到“嘟”声后松手，或按<Enter>键转入选字状态后再用数字键选字、词即可。

用户输入5码后，则自动将数字键转为选字、词状态。

屏幕重码提示拟显示4个单字、4个二字词、1个三字词及1个四字或四字以上词，并用不同色彩区分，且可根据情况作适当调整。

4.3输入过程例

1.输入【而】字

按1键，则屏幕显示以横起笔的高频常用字等，提示如下：

0.在 1.一 2.有 3.而 4.一个 5.一定 6.一切 7.东西 8.进一步 9.形而上学

按下3键不放约0.5秒听到“嘟”声后松手（或按<Enter>键转入选字状态后再按3键）即可。

2.输入词【大学】

(a)按键13443后，在眼睛朝二字词区查看的同时将手指放在456键附近准备选二字词，屏幕提示如下：

4.感觉 5.大学 6.医学 7.列举 9.有价证卷

按5键即得。可见以上设计的分区重码提示可提高响应速度！

(b)按键13时,屏幕显示以13起始的编码的最近常用字、词，提示如下：

0.在 1.厂 2.龙 3.友 4.不能 5.研究 6.大学 7.成为 8.输入法 9.工人阶级

在二字词提示区见到大学，按<Enter>键转入选字状态后再按6键（或按下6键不放约0.5秒听到“嘟”声后松手）即可。

3.输入【梧】字

（a）按键12361，屏幕提示如下：

0.格 1.棺 2.柜 3.枷 4.十月 5.克服 6.五月7.西周 9.专业公司

再按“+”键向后翻页4次，屏幕则提示如下：

0.梧 1.杏 2.栅 3.柘 4.基肥 5.取胜 6.起用7.堆肥 9.专业公司

按0键即得。此时听到“嘟”一声同时屏幕用红色警示如下：

推荐用高效/标准编码【梧：81219】

由此可见用简易编码也可输入绝大多数汉字，但有时可能因重码多而须翻页查找。

(b)键入81219，屏幕提示如下：

0.桔 1.梧 4.标点

选1即得。可见高效编码效率更高！

4.输入词【计算机】

键入431，屏幕提示如下：

0.半 1.并 2.迸 3.糙 4.关于 5.并不 6.总理 7.前面 8.计算机 9. 燃气轮机

选8即得。这说明，尽量用词输入可大大减少击键次数！

5.输入字【义】

键入3540，屏幕提示如下：

0.义

选0即得。此时听到“嘟”一声同时屏幕用红色警示如下：

推荐用高效/标准编码【义：435】

有了“容错码”，您不必再为书写习惯不标准而发愁了！

6.输入字【噩】

键入1*991（其中 * 代表任意码1或2…9 )，屏幕提示如下：

0.噩 4.武器 5. 玉器 6.配器 7.下颚 9.吞吞吐吐

选0即得。有了“模糊”查找功能，“难”字也不再难了！

5 本汉字数字编码输入法的特点

1) 易学、易记、易用性（对一般人）：5分钟即基本入门/学会，边学边用15分钟即基本掌握，边学边用40分钟可熟练操作

2) 不存在任何难字、僻字，一见字形即可轻易编码输入

3) 容错处理: 我们制定的编码方案其出现二义性编码的情况极少，但一部分人群可能对个别字编码存在共性的错误认识，甚至极个别就是因小学识字教育或其他一些书中就可能有不同的，一般人已形成习惯。则计算机允许这种“容错码”，但给出警告并提示标准编码

4) 创新的人机介面：通过对重码提示区及选择键的合理分配、声音提示等手段，可帮助使用者尽快键入所需字、词

5) 与传统的英文字母键盘编码不同，本项目只利用10个数字的小键盘进行编码，具有易学、易记、不必花几周时间去学英文打字、并可应用于手持设备等小体积设备的特点

6 结束语

随着移动电话、掌上电脑等手持设备的大批出现，今后几年带有汉字显示及输入界面的手持设备必将大行其道，这对汉字输入方法提出了更高的要求。因此，汉字数字编码的解决已迫在眉睫，其应用前景是空前的。

中文短信息、移动ＷＡＰ、中文网上信息处理，这些使用汉字的广大用户，他们输入汉字的信息量不多，如何提供一种不必经过专门训练而易学、易记、易用却行之有效的汉字输入法，无疑具有深远的现实意义和空前的应用价值。

主要参考文献：

[1] 陈钦梧. 一种汉字数字编码输入法［CP］.中国专利：00117182.8，2000-06-19.

[2] 陈钦梧，郑文若，邱树业，朱诗生，陈永强. 汉字数字编码输入法研究［A］. 第七届联合国际计算机会议论文集［C］.汕头：汕头大学出版社，2000.1266-1269.

[3] 郭平欣，张淞芝. 汉字信息处理技术［M］. 北京：国防工业出版社，1985

[4] 慈林林，鲁元魁. 中文信息处理新技术展望［J］. 计算机世界，1999，（44）：C版

[5] 国家语言文字工作委员会标准化委员会. 现代汉语通用字笔顺规范［M］. 北京：语文出版社，1997

Study on new technology of inputting Chinese

—— A digit coding input method for Chinese characters

CHEN Qin-wu, QIU Shu-ye, ZHENG Wen-ruo, CHEN Xiao-shan

( Shantou University, Shantou Guangdong 515063 P.R.C. qwchen@stu.edu.cn )

Abstract : In this paper, Chinese characters coding is conducted by using the basic elements that consist of Chinese characters, avoiding the difficulty of the division of Chinese characters and the different meanings. A digit coding input method for Chinese characters is described and the discussion and analyses are made for the method.

Key words : Strokes ; Chinese characters digit coding ; Chinese characters input method

作者简介：陈钦梧（1962-），男，广东潮阳人，汕头大学计算机系高级实验师，主要研究方向：计算机汉字信息处理及系统软件、数据加解密；（1939-），男，福建福州人，教授，主要研究方向：语言声学.

第一作者	第二作者	联系地址	邮编	省市	电话	E-mail	稿件名称
陈钦梧	邱树业	汕头大学计算机系	515063	广东汕头	（0754）2902773	qwchen@stu.edu.cn	汉字输入新技术研究

* 本文受汕头大学计算机科学与技术“211”工程经费资助