首页>>教材自学>>附录>> 五、   五笔字型单字编码规则

 

五、         五笔字型单字编码规则

    要从键盘上输入一个汉字,首先必须知道这个汉字的编码,也就是说,必须知道输入这个汉字要按哪几个键,以及先按哪个和后按哪个。只有当您输入的编码和计算机“字库”中所存放的某一汉字的编码相对应时,您才能把“字库”中的这个字调出来,达到正确输入汉字目的。不言而喻,要作到这一点,我们必须掌握汉字取码的规则。五笔字型的编码即是汉字由单字到字根再到英文字母的过程。

五笔字型的编码可归纳为以下口诀:

          五笔字型均直观,    依照笔顺把码编;

          键名汉字打四下,    基本字根请照搬;

          一二三末取四码,    顺序拆分大优先;

          不足四码要注意,    交叉识别补后边。

    在实际进行汉字编码的过程中,采用的编码方案如图2。


              图2  五笔字型编码流程图

    1.键面汉字的编码

    键面汉字是指基本字根中的汉字,它分为键名字与成字字根。

   (1)键名字

    字根键盘中每键左上角的字根,称为键名字,共25个。输入键名汉字时,连击四下就得到相应的键名字。

例如:  王:GGGG        白: RRRR 

        工:AAAA        金:QQQQ

  键名汉字共有25个,即:

     王土大木工,目日口田山,禾白月人金,言立水火之,已子女又纟。

   (2)成字字根

    在字根键盘的每个键位上,除了一个键名字根外,还有一部分字根本身也是一个汉字,我们称之为成字字根。约有60个。

    成字字根的编码方法是:

    键名代码+首笔代码+次笔代码+末笔代码。

    这就是说,当你要键入一个成字字根时,可以首先把它们所在的那个键打一下(俗称“报户口”),然后再依次打它的第一个笔画、第二个笔画及最末一个笔画。如果该字根只有两个笔,则以空格键结束。

例如:    由:MHNG        文:YYGY

          车:LGNH        八:WTY+空格键

   (3)单笔画字根的输入方法

    按照以上这种对成字字根编码输入的规定,若给五种单笔画编码,每个单笔画就只有两个码。但是这些单笔画并不常用,应当把两码让位于较常用的汉字。因此,有必要作为成字字根编码的一个特例,把单笔画编码设计为:打原码之后再打两下24键(L)。五种单笔画的编码为:

     一:GGLL    丨:HHLL    丿:TTLL    丶:YYLL    乙:NNLL

    2.键外汉字的编码

    键外汉字是指键面上没有的汉字,它是最多、最普遍的汉字,五笔字型中这些汉字需经过拆分才能形成编码。因此,汉字输入编码主要是讲键外字的编码。

   (1)拆分原则

    五笔字型的拆分原则是“书写顺序,取大优先,兼顾直观,能连不交,能散不连”。

    ①书写顺序:在合体字编码时,一般要求按照正确的书写顺序进行。例如:

      新:  立  木  斤      (正确,符合规范书写顺序)

            立  斤  木      (错误,未按书写顺序编写)

      夷    一  弓  人      (正确,符合规范书写顺序)

            大  弓          (错误,未按书写顺序编写)

    ② 取大优先:按照书写顺序为汉字编码时,拆出来的字根要尽可能大,即“再添一个笔画,便不能构成笔画更多的字根”为限度。例如:


     世:   廿  乙            (正确)

            一  凵  乙        (错误)

      亲:  立  木            (正确)

            立  一  小        (错误)

    ③ 兼顾直观:在确认字根时,为了使字根的特征明显易辩,有时就要牺牲书写顺序和取大优先的原则。例如:

    国:如按书写顺序,其字根应是“冂、王、丶、一”,但这样编码不断有违该字的字源,也不能使字根“囗”直观易辩。为了直观,应从外到内取字根“囗、王、丶”。

    ④ 能连不交:当一个字可以视作相连的几个字根,也可视作相交的几个字根时,我们认为,相连的情况是可取的。

    天:    一  大      (二者是相连的)  (正确)

            二  人      (二者是相交的)  (错误)

    ⑤ 能散不连:如果一个结构可以视为几个基本字根的散的关系,就不要认为是连的关系。例如:

    占:  卜  口          (都不是单笔画,应视作上下关系)

    非:  三  刂  三      (都不是单笔画,应视作左右关系)

    总之,拆分应兼顾几个方面的要求。一般说来,应当保证每次拆出最大的基本字根,在拆出字根的数目相同时,“散”比“连”优先,“连”比“交”优先。

     五笔字型的编码应在保证字根拆分正确的情况下再进行汉字的编码。

   (2)编码规则

    在五笔字型编码方案中,所有的代码可以分为两类:字根码与识别码。前面我们已经讲过,一个汉字可以拆分成多个字根,每一个字根都对应于一个字母键,这个键所对应的英文字母就是该字根的“字根码”。识别码即末笔字型交叉识别码,是为了减少重码而补加的代码。

    任何汉字,不管拆分成多少字根,最多只能取4个字根。这样,键外字的编码规则为:

    含4个或4个以上字根的汉字,用4个字根码组成;不足4个字根的汉字,编码除包括字根码外,还要补加一个识别码。如仍不足4码,可按空格键。

    一个汉字拆分成的字根大于或等于4个时,依书写顺序取第一、第二、第三和最末一个字根码组成编码依次键入即可。一个汉字拆分成的字根不足4个时,依次输完字根码后,还需要补加一个识别码,加识别码后仍不足4码时,再加空格键。

如:戆:立 早 夂 心  (UJTN)

    照:日 刀 口 灬  (JVKO)          

    低:亻  七 丶  (WQAY)

    同:冂 一 口     (MGKD)(末笔为“一”,3型,补打“D”作为“识别码”)

    太:大  丶      (DYI+空格 )(末笔为“丶”3型,“I”即为识别码)

  (3)交叉识别码

    当一个汉字拆不够4个字根时,输完字根码后,还需追加一个 “末笔字型交叉识别码”,简称“识别码”。它是为了减少重码,加快选字而补加的代码。

    “识别码”是由“末笔”代号加“字型”代号而构成的一个附加码。具体地说,识别码为两位数字,第一位(区号)是末笔画类型的代码(横1、竖2、撇3、捺4、折5),第二位(位号)是字型代码(左右型1、上下型2、杂合型3)。把识别代码看成为一个键的区位码,即得到交叉识别码的字母键(参见表如5)。

表5     末笔字型交叉识别码

      字 型

   左右型

   上下型

  杂合型

 末 笔

 代 号

      1

     2

    3

  横

   1

 11  G (一)

 12  F (二)

 13  D (三)

  竖

   2

 21  H (丨)

 22  J (刂)

 23  K (川)

  撇

   3

 31  T (丿)

 32  R (″)

 33  E (彡)

  捺

   4

 41  Y (丶)

 42  U (冫)

 43  I (氵)

  折

   5

 51  N (乙)

 52  B  (ㄍ)

 53  V (巛)

例:

 单字   字 根   字根码    末笔代码    字型    识别码    编码

  沐    氵 木    IS        丶  4        1      41  Y    ISY

  汀    氵 丁    IS        丨  2        1      21  H    ISH

  洒    氵 西    IS        一  1        1      11  G    ISG 

  只    口 八    KW        丶  4        2      42  U    KWU

  叭    口 八    KW        丶  4        1      41  Y    KWY

    上例中,沐、汀、洒的字根码都一样(IS),但末笔画不一样,所以加上末笔识别码后,它们的编码就不同了,否则就会重码(IS)。同样,只、叭的字根码一样(KC),但字型不一样,所以加上字型识别码后,编码也就不同了。

    用于识别的末笔,有以下几点规定:

    ①所有包围型汉字中的末笔,取被包围部分的末笔为整个字的末笔。如:“国”的末笔应取“丶”;“团”的末笔应取“丿”。

    ②带“辶”的汉字,以去掉“辶”后的末笔为整个字的末笔。如:“进” 的末笔应取“丨”;“廷”的末笔应取“一”。

    ③对于字根“力、刀、九、匕”,鉴于这些字根的笔顺常常因人而异,“五笔字型”中特别规定,当它们参加“识别”时,一律以其“伸”得最长的“折”笔作为末笔。如:仇、化、男等字都以“折”为末笔。

    ④“我”“戋”“成”等字的“末笔”,由于因人而异,故遵从“从上到下”的原则,一律规定“丿”为其末笔。

    关于字型又有如下约定:

    ①凡单笔画与字根相连者或带点结构都视为杂合型。

    ②字型区分时,也用“能散不连”的原则,如:矢、卡、严都视为一下型。

    ③内外型字属杂合型,如:困、同、匝、,但“见”为上下型。

    ④含两字根且相交者属杂合型,如:电、串、东、无、农、里。

    ⑤下含“辶”的字为杂合型,如:逞、延、远、进。

    ⑥以下各字为杂合型:司、床、厅、龙、尼、后、包、反、处、办、皮、习、死、疗、压、,但相似的左、右、有、看、者、布、友、冬、灰等视为上下型。

 

 

 


         
首页>>教材自学>>附录>> 五、   五笔字型单字编码规则