一、“橫豎撇點”四類
漢字是由單筆畫組成的,了解與分析漢字的基本筆畫是漢字字形編碼、排序與檢索研究的基礎。
組成漢字的基本筆畫有二十多種,如橫(一)、豎(丨)、撇(丿)、點(丶)、捺(乀)、多種橫折(乛乁乙)、多種豎折(亅乚)、多種撇折(く纟)等等,利用這些基本筆畫就可以對漢字進行編碼、排序與檢索。但在漢字中,這些基本筆畫的使用頻度很不均衡,如橫(一)豎(丨)撇(丿)點(丶)四種筆畫分布很廣,而十多種不同的折筆畫分布很稀,這樣的編碼與排檢方法不僅效率低而且使用困難。
對于基本筆畫多而雜且分布不均勻的問題,一個合理的解決方法是把基本筆畫分為幾類,把每個類作為分辨單元應用于漢字的編碼與排檢中。
對漢字基本筆畫怎樣進行分類呢?最簡單直觀的分類是按基本筆畫起筆的走向來分,分為四類:
1.起筆畫是從左到右:橫,橫提,各種橫折筆畫;
2.起筆畫是從上到下:豎,各種豎折;
3.起筆畫是從右上到左下:撇,各種撇折;
4.起筆畫是從左上到右下:點,捺,捺鉤。
通過筆畫“橫豎撇點”的四個走向來分,分類標準明確,概括性好,容易理解,各個基本筆畫的歸類都沒有二義性。
把漢字基本筆畫分為“橫豎撇點”四類,各類在漢字中的分布情況如何呢?下表是對漢字第一筆畫(第一碼)的類別進行統(tǒng)計的數據,統(tǒng)計對象是三個字符集:一是常用2500字,二是GB2312的6763個字,三是GBK的21003個字。

可以看到,由于類數少,每類都包含了大量的漢字,并且分布不均勻。撇類與點類中的漢字數與平均數(25%)相當,但橫區(qū)、豎區(qū)與平均數都相差約9%。
二、“橫豎撇點折”五類
以“橫豎撇點”四類為基礎,把橫與橫折、豎與豎折、撇與撇折分開,把分出來的橫折、豎折與撇折筆畫另作為一類(折類),就形成了“橫豎撇點折”五類的分類方法。
這種分類方法的優(yōu)點是增加了一個類別,也減少了各類中的漢字數目,也就增加了每個類別對漢字的分辨率。
缺點是失去了基本筆畫分類的明確準則,既不是按筆畫的走向分類,如橫折(乛)與豎折(乚),橫折撇(乛)與撇折點(く),收筆的走向也不同;也不是按筆畫的形狀來分類,因為橫折(乙)與撇折(く)等形狀都很不同。
把這些不同的折筆畫歸為一類,主要的原因應該是增加分類數,減少各類中漢字的數目,以提高字形編碼和排序檢索方法的效率。
同樣以三個字符集為統(tǒng)計對象,對漢字第一筆畫(第一碼)的類別進行統(tǒng)計,“橫豎撇點折”五類在漢字中的分布情況如下表所示:

可以看出,橫區(qū)與折區(qū)中漢字數目與平均數相差很大(9%)。
把漢字基本筆畫分為“橫豎撇點折”五類,已寫入1965年中華人民共和國文化部和中國文字改革委員會發(fā)布的《印刷通用漢字字形表》,以及隨后的有關國家語言文字標準與規(guī)范中,并被廣泛地應用于漢字字形編碼與排序檢索等中文信息技術處理領域。
漢字字形編碼方案已申請專利的有百多種,已形成產品使用的也有十多種,這些方案都采用了漢字基本筆畫分“橫豎撇點折”五類的國家語言文字標準規(guī)范,實際的效果如何呢?以下以具有代表性的兩種形碼方案為例進行分析。
“五筆字型”漢字輸入法是字根類形碼輸入法,其字根表排布規(guī)則是把字根按其第一筆畫的“橫豎撇點折”分五個區(qū),按字根第二筆畫的“橫豎撇點折”在區(qū)內分五個位,形成25個碼。其結果是漢字在各個碼中的分布極不均勻,如第一筆畫是橫,第二筆畫是豎的字根有:十扌土艸木等;第一筆畫是撇,第二筆畫是豎折的字根有冂口囗日目見貝等,這些碼上集中了太多的漢字,而第一筆是橫,第二筆是折的字根卻很少。如果要保持字根排布的規(guī)律性,即保持字根表的易記性,那么重碼就太多,使得編碼的效率很低,低過拼音輸入法,而沒有意義。為此五筆字型對字根做了大量的跨區(qū)跨位調整,重碼率降低了,但字根表的序性破壞了,難學難記了。失去了嚴格序性的字根表,不適合用數字做編碼符號,也就不能適用于數字鍵盤與手機。
其它的字根碼類輸入法也都同樣地采用了基本筆畫按“橫豎撇點折”分五類的規(guī)范,不同是選用的字根有所不同,字根所在的位置有所不同,方案的實際效果與“五筆字型”相似。
“二筆”漢字輸入法是雙筆畫類輸入法,即把兩個筆畫的組合作為輸入碼,字根表也按第一筆畫的“橫豎撇點折”分五個區(qū),按第二筆畫的“橫豎撇點折”在區(qū)內分五個位,形成25個輸入碼,其結果同樣是漢字在各個碼上的分布極不均勻。二筆輸入法為了克服重碼的問題,把字音做為補充碼。由于拼音字母與數字沒有直接的對應關系,因此二筆輸入法也只適用于電腦的字母鍵盤,而不能適用于數字鍵盤與手機。
20多年的漢字字形編碼方案研究的實踐,都遵循了漢字基本筆畫分為“橫豎撇點折”五類的國家標準,用它來規(guī)范形碼字根表的分區(qū)排位,結果都沒有做到漢字形碼易學易記與快速高效的統(tǒng)一,都沒有做到同一個方案在電腦字母大鍵盤、數字小鍵盤和手機上的統(tǒng)一通用。
三、“橫豎撇點”四類、“橫橫豎撇點”五區(qū)
“和碼”漢字輸入法把漢字基本筆畫分為“橫豎撇點”四類,因橫類集中了太多的漢字,在字根表分區(qū)上,將橫類分為兩個區(qū),即把與其它筆畫相離相接的橫或橫折作一個區(qū),把與其它筆畫相交的橫(如扌土艸大木等)作為另一個區(qū),在區(qū)內把字根按由簡到繁的順序排位。“和碼”輸入法的字根區(qū)位表如下:

和碼字根表的分類分區(qū)方法,保留了基本筆畫分“橫豎撇點”四類的標準明確、概括性直觀性好等優(yōu)點,字根表有嚴格的順序規(guī)則。把這個順序用12345五個數字表示,就形成了25個數字碼,數字化后的和碼,不僅易學易記,還能在電腦的字母鍵盤與數字鍵盤上使用,也能在手機鍵盤上使用,從而實現了和碼在不同的輸入設備上完全的統(tǒng)一通用。
同樣以三個字符集為統(tǒng)計對象,對漢字第一筆畫(第一碼)的區(qū)號進行統(tǒng)計,和碼的“橫橫豎撇點”五區(qū)在漢字中的分布情況如下表所示:

以GB2312字符集(6763字)為統(tǒng)計對象,對漢字第一筆畫(第一碼)的類別或區(qū)號進行統(tǒng)計,把三種不同分類分區(qū)方法在漢字中的分布情況,按漢字分配比例數由大到小順序排列,比較如下:

可以看到,和碼的分類分區(qū)方法,使?jié)h字在各區(qū)中的分布更為均勻,從而為漢字在25個碼上的均勻分布,為減少重碼提高輸入速度提供了可能。從實際的編碼統(tǒng)計數據來看,“和碼”與“五筆字型”和“二筆”輸入法相比,重碼更少些,輸入速度更快些。
四、總結
從上面的對比分析可以看出,因采用的基本筆畫分類方法的不同,漢字形碼編碼方案的效果有著很大的差別。只有改變基本筆畫的分類方法,漢字形碼方案才會有突破。
把漢字基本筆畫分為“橫豎撇點折”五類,從分類的概念上看,有標準不明確的問題,從字形編碼的應用效果上看,沒有“和碼”采用的分類分區(qū)效果好,把這種基本筆畫分類方法作為國家語言文字標準規(guī)范,用于“對中文信息處理,特別是對漢字鍵盤輸入方法”起規(guī)范作用,其合理性值得進一步探討。
參考文獻:
[1]GB2312-1980.信息交換用漢字編碼字符集—基本集[S].1981.
[2]現代漢語常用字表[S].
[3]漢字內碼擴展規(guī)范(GBK)[S].1.0版
[4]GF2001—2001.GB13000.1字符集漢字折筆規(guī)范[S].2001.
[5]王永民.規(guī)范王碼漢字電腦輸入法及其鍵盤[P].中國專利號,98100684.1.
[6]陳勁松.漢字陰陽雙極聲韻形碼輸入系統(tǒng)[P].中國專利號,96103095.X.
[7]歐陽貴林.和碼漢字數字輸入法[P].中國專利號:ZL2004 1 0017084.6.
[8]馮志偉.信息時代漢字的標準化與共通化[EB/OL].http://www.china-language.gov.cn/doc/fengzhiwei-lectures/02.pps
(歐陽貴林,軟件工程師,現居住加拿大渥太華市)