| 首页>>教材自学>>附录>> 五、 五笔字型单字编码规则 |
五、 五笔字型单字编码规则要从键盘上输入一个汉字,首先必须知道这个汉字的编码,也就是说,必须知道输入这个汉字要按哪几个键,以及先按哪个和后按哪个。只有当您输入的编码和计算机“字库”中所存放的某一汉字的编码相对应时,您才能把“字库”中的这个字调出来,达到正确输入汉字目的。不言而喻,要作到这一点,我们必须掌握汉字取码的规则。五笔字型的编码即是汉字由单字到字根再到英文字母的过程。 五笔字型的编码可归纳为以下口诀: 五笔字型均直观, 依照笔顺把码编; 键名汉字打四下, 基本字根请照搬; 一二三末取四码, 顺序拆分大优先; 不足四码要注意, 交叉识别补后边。 在实际进行汉字编码的过程中,采用的编码方案如图2。
图2 五笔字型编码流程图 1.键面汉字的编码 键面汉字是指基本字根中的汉字,它分为键名字与成字字根。 (1)键名字 字根键盘中每键左上角的字根,称为键名字,共25个。输入键名汉字时,连击四下就得到相应的键名字。 例如: 王:GGGG 白: RRRR 工:AAAA 金:QQQQ 键名汉字共有25个,即: 王土大木工,目日口田山,禾白月人金,言立水火之,已子女又纟。 (2)成字字根 在字根键盘的每个键位上,除了一个键名字根外,还有一部分字根本身也是一个汉字,我们称之为成字字根。约有60个。 成字字根的编码方法是: 键名代码+首笔代码+次笔代码+末笔代码。 这就是说,当你要键入一个成字字根时,可以首先把它们所在的那个键打一下(俗称“报户口”),然后再依次打它的第一个笔画、第二个笔画及最末一个笔画。如果该字根只有两个笔,则以空格键结束。 例如: 由:MHNG 文:YYGY 车:LGNH 八:WTY+空格键 (3)单笔画字根的输入方法 按照以上这种对成字字根编码输入的规定,若给五种单笔画编码,每个单笔画就只有两个码。但是这些单笔画并不常用,应当把两码让位于较常用的汉字。因此,有必要作为成字字根编码的一个特例,把单笔画编码设计为:打原码之后再打两下24键(L)。五种单笔画的编码为: 一:GGLL 丨:HHLL 丿:TTLL 丶:YYLL 乙:NNLL 2.键外汉字的编码 键外汉字是指键面上没有的汉字,它是最多、最普遍的汉字,五笔字型中这些汉字需经过拆分才能形成编码。因此,汉字输入编码主要是讲键外字的编码。 (1)拆分原则 五笔字型的拆分原则是“书写顺序,取大优先,兼顾直观,能连不交,能散不连”。 ①书写顺序:在合体字编码时,一般要求按照正确的书写顺序进行。例如: 新: 立 木 斤 (正确,符合规范书写顺序) 立 斤 木 (错误,未按书写顺序编写) 夷 一 弓 人 (正确,符合规范书写顺序) 大 弓 (错误,未按书写顺序编写) ② 取大优先:按照书写顺序为汉字编码时,拆出来的字根要尽可能大,即“再添一个笔画,便不能构成笔画更多的字根”为限度。例如: 世: 廿 乙 (正确) 一 凵 乙 (错误) 亲: 立 木 (正确) 立 一 小 (错误) ③ 兼顾直观:在确认字根时,为了使字根的特征明显易辩,有时就要牺牲书写顺序和取大优先的原则。例如: 国:如按书写顺序,其字根应是“冂、王、丶、一”,但这样编码不断有违该字的字源,也不能使字根“囗”直观易辩。为了直观,应从外到内取字根“囗、王、丶”。 ④ 能连不交:当一个字可以视作相连的几个字根,也可视作相交的几个字根时,我们认为,相连的情况是可取的。 天: 一 大 (二者是相连的) (正确) 二 人 (二者是相交的) (错误) ⑤ 能散不连:如果一个结构可以视为几个基本字根的散的关系,就不要认为是连的关系。例如: 占: 卜 口 (都不是单笔画,应视作上下关系) 非: 三 刂 三 (都不是单笔画,应视作左右关系) 总之,拆分应兼顾几个方面的要求。一般说来,应当保证每次拆出最大的基本字根,在拆出字根的数目相同时,“散”比“连”优先,“连”比“交”优先。 五笔字型的编码应在保证字根拆分正确的情况下再进行汉字的编码。 (2)编码规则 在五笔字型编码方案中,所有的代码可以分为两类:字根码与识别码。前面我们已经讲过,一个汉字可以拆分成多个字根,每一个字根都对应于一个字母键,这个键所对应的英文字母就是该字根的“字根码”。识别码即末笔字型交叉识别码,是为了减少重码而补加的代码。 任何汉字,不管拆分成多少字根,最多只能取4个字根。这样,键外字的编码规则为: 含4个或4个以上字根的汉字,用4个字根码组成;不足4个字根的汉字,编码除包括字根码外,还要补加一个识别码。如仍不足4码,可按空格键。 一个汉字拆分成的字根大于或等于4个时,依书写顺序取第一、第二、第三和最末一个字根码组成编码依次键入即可。一个汉字拆分成的字根不足4个时,依次输完字根码后,还需要补加一个识别码,加识别码后仍不足4码时,再加空格键。 如:戆:立 早 夂 心 (UJTN) 照:日 刀 口 灬 (JVKO) 低:亻 七 丶 (WQAY) 同:冂 一 口 (MGKD)(末笔为“一”,3型,补打“D”作为“识别码”) 太:大 丶 (DYI+空格 )(末笔为“丶”3型,“I”即为识别码) (3)交叉识别码 当一个汉字拆不够4个字根时,输完字根码后,还需追加一个 “末笔字型交叉识别码”,简称“识别码”。它是为了减少重码,加快选字而补加的代码。 “识别码”是由“末笔”代号加“字型”代号而构成的一个附加码。具体地说,识别码为两位数字,第一位(区号)是末笔画类型的代码(横1、竖2、撇3、捺4、折5),第二位(位号)是字型代码(左右型1、上下型2、杂合型3)。把识别代码看成为一个键的区位码,即得到交叉识别码的字母键(参见表如5)。 表5 末笔字型交叉识别码
例: 单字 字 根 字根码 末笔代码 字型 识别码 编码 沐 氵 木 IS 丶 4 1 41 Y ISY 汀 氵 丁 IS 丨 2 1 21 H ISH 洒 氵 西 IS 一 1 1 11 G ISG 只 口 八 KW 丶 4 2 42 U KWU 叭 口 八 KW 丶 4 1 41 Y KWY 上例中,沐、汀、洒的字根码都一样(IS),但末笔画不一样,所以加上末笔识别码后,它们的编码就不同了,否则就会重码(IS)。同样,只、叭的字根码一样(KC),但字型不一样,所以加上字型识别码后,编码也就不同了。 用于识别的末笔,有以下几点规定: ①所有包围型汉字中的末笔,取被包围部分的末笔为整个字的末笔。如:“国”的末笔应取“丶”;“团”的末笔应取“丿”。 ②带“辶”的汉字,以去掉“辶”后的末笔为整个字的末笔。如:“进” 的末笔应取“丨”;“廷”的末笔应取“一”。 ③对于字根“力、刀、九、匕”,鉴于这些字根的笔顺常常因人而异,“五笔字型”中特别规定,当它们参加“识别”时,一律以其“伸”得最长的“折”笔作为末笔。如:仇、化、男等字都以“折”为末笔。 ④“我”“戋”“成”等字的“末笔”,由于因人而异,故遵从“从上到下”的原则,一律规定“丿”为其末笔。 关于字型又有如下约定: ①凡单笔画与字根相连者或带点结构都视为杂合型。 ②字型区分时,也用“能散不连”的原则,如:矢、卡、严都视为一下型。 ③内外型字属杂合型,如:困、同、匝、,但“见”为上下型。 ④含两字根且相交者属杂合型,如:电、串、东、无、农、里。 ⑤下含“辶”的字为杂合型,如:逞、延、远、进。 ⑥以下各字为杂合型:司、床、厅、龙、尼、后、包、反、处、办、皮、习、死、疗、压、,但相似的左、右、有、看、者、布、友、冬、灰等视为上下型。
|
|||||||||||||||||||||||||||||||||||||||||
| 首页>>教材自学>>附录>> 五、 五笔字型单字编码规则 |