劉 永 許燁婧 武利紅 周文迪
(1.鄭州航空工業管理學院;河南 鄭州 450015;2.河南省信息智能處理工程技術研究中心;河南 鄭州 450015;3.鄭州大學;河南 鄭州 450015)
漢字輸入法主要有自然輸入法和鍵盤輸入法。自然輸入法是指手寫、聽、聽寫、讀聽寫等方式。目前主要是使用手寫筆、語音識別、手寫加語音識別、手寫語音識別加OCR 掃描閱讀器等。鍵盤漢字輸入方案是運用標準(QWERTY)鍵盤錄入漢字的各種方法。
對鍵盤漢字輸入法的規范,我國在1980年至2003年先后頒布4個國家標準。
①1980年我國頒布了第一個漢字編碼字符集標準,即GB 2312-80《信息交換用漢字編碼字符集基本集》。該標準共收了6 763個漢字及常用符號,奠定了中文信息處理的基礎,并應用至今[1]。
②1993年國際標準化組織發布了ISO/IEC 10646-1-1993《信息技術通用多八位編碼字符集第一部分體系結構與基本多文種平面》。我國等同采用此標準制定了GB13000.1-1993。該標準采用了全新的多文種編碼體系,收錄了中、日、韓20902個漢字,相當于是對GB 2312-80標準中的字集進行擴充[2]。
③信息產業部和原國家質量技術監督局于2000年聯合發布了GB 18030-2000《信息技術信息交換用漢字編碼字符集基本集的擴充》和GB/T 1803l-2000《信息技術數字鍵盤漢字輸入通用要求》,這兩個標準是科學實用的評測標準,規定了輸入法必須達到的性能指標,對如何規范輸入法起到重要的指導作用。目前,GB18030有兩個版本:GB18030-2000 和GB18030-2005。GB18030-2000是全文強制性標準,市場上銷售的產品必須符合,但它僅規定了常用非漢字符號和27 533個漢字(包括部首、部件等)的編碼。2005年發布的GB18030-2005 在GB18030-2000 的基礎上增加了42 711個漢字和我國多種少數民族文字的編碼。GB18030-2005的主要特點是在GB18030-2000 基礎上增加了CJK 統一漢字擴充B 的漢字。GB18030-2005為部分強制性標準,自發布之日起代替GB18030-2000。
④2003年信息產業部又頒發GB/T 19246-2003《信息技術通用鍵盤漢字輸入通用要求》,對原有標準進行完善和豐富。
在上述四個標準中,GB2312-80、GB13000.1-1993和GB18030-2005應該說是對基本漢字的范圍進行規范,在對輸入法的規范性和評測方面GB18031-2000 和GB/T 19246-2003 起著重要作用,如對輸入法的系統評測可以從易學性、漢字輸入平均碼長和重碼字詞鍵選率三個方面進行評測。GB18031-2000 和GB/T 19246-2003 對輸入法的規范作用表現在以下幾個方面:
1.3.1 對平均碼長和重碼字詞鍵選率的界定
GB18031-2000和GB/T 19246-2003都認為平均碼長(average code length)為“在輸入給定的測試樣本時,測得的輸入每個漢字的平均擊鍵次數”。平均碼長=輸入測試樣本的擊鍵次數/測試樣本總字數(鍵/字)(其中,上式中的“擊鍵次數”包含編碼輸入、選字輸入及其他輔助操作的所有擊鍵操作)。認為重碼字詞鍵選率(coincident code key selecting rate of Chinese character and word)指“在輸入給定測試樣本過程中,通過重碼選擇鍵確認的漢字字數與測試樣本總字數的百分比。重碼字詞鍵選率=(重碼選擇鍵確認的字數/測試樣本總字數)X100%(其中,采用輪換單個顯示重碼字、詞人工確認輸入的漢字計入“重碼選擇鍵確認的字數”)。
1.3.2 對易學性的界定
GB18031-2000認為易學性指“學會使用漢字數字編碼輸入系統的時間應盡量短,并應符合使用漢語作為母語的使用者的思維習慣,做到上手能用”。GB/T 19246-2003認為易學性主要指“學會使用漢字編碼輸入系統的時間應盡量短,并應符合使用漢語作為母語的使用者的思維習慣”。
1.3.3 對漢字輸入平均碼長的規范
GB18031-2000 認為“逐字字段輸入平均碼長應小于6 鍵/字。字、詞混合輸入平均碼長應小于4 鍵/字”。GB/T 19246-2003 認為“通用鍵盤漢字輸入系統采用漢語拼音(雙拼除外)或以筆畫為主的簡易編碼方式輸入現代漢語常見文本時,平均碼長應小于3.2 鍵/字。通用鍵盤漢字輸入系統采用漢語雙拼、部件編碼或以部件為主的編碼方式輸入現代漢語常見文本時,平均碼長應小于2.2鍵/字”。
1.3.4 對重碼字詞鍵選率的規范
GB18031-2000認為“逐字字段筆畫碼輸入重碼字鍵選率應小于8%,字、詞混合筆畫碼輸入重碼字詞鍵選率應小于10%;逐字字段部件碼輸入重碼字鍵選率應小于8%,字、詞混合部件碼輸入重碼字詞鍵選率應小于10%;逐字字段拼音輸入10 鍵位重碼字鍵選率應小于13%,8鍵位重碼字段選率應小于15%;字、詞混合拼音輸入10鍵位重碼字鍵選率應小于12%,8鍵位重碼字段選率應小于14%”。
GB/T 19246-2003 認為“通用鍵盤漢字輸入系統采用漢語拼音(全拼、雙拼)或以筆畫為主的簡易編碼方式輸入現代漢語常見文本時,重碼字、詞鍵選率應小于6%。通用鍵盤漢字輸入系統采用以部件為主的形碼、音形碼等方式輸入現代漢語常見文本時,重碼字、詞鍵選率應小于1.5%。”
從上文可以看出,雖然GB2312-80、GB13000.1-1993和GB18030-2005應該說是對基本漢字的范圍進行規范,在對輸入法的規范性和評測方面GB18031-2000 和GB/T 19246-2003 起著重要作用,如對輸入法的系統評測可以從易學性,漢字輸入平均碼長和重碼字詞鍵選率三個方面進行評測。但是在執行這些標準和規范時仍存在一定問題,缺乏通用的輸入法評價體系,漢字編碼設計人員缺乏程序化的指導,對漢字進行編碼的主觀成分居多,具體可闡述如下:
GB/T 18031 中對易學性的第一個要求是“學會使用漢字編碼輸入系統的時間應盡量短”,這是一個很模糊的說法。學習的對象不同,測試結果也不一樣,學習者的年齡、文化水平、地域不一樣,結果也將不同。所以對易學性的第一個要求判定性不強,感性成分較多。
原有規范對平均碼長和重碼字是量化評價,但沒有對量化標準的評測條件做出定義,如字庫的大小、類型,導致各輸入法在評測時并不規范。雖然2009年出臺的GF0013現代常用獨體字規范對不能拆分字作補充,但很多細節仍需完善。
原有輸入法評測標準與規則沒有考慮文字在形碼拆分時要保留文字本身含義,才導致很多輸入法在拆分時各自為政的局面,如不加以規范,我國的文字財富的傳承與發展將會受到影響。
因此,亟需完善舊標準和增加新標準。從而指導編碼設計人員設計符合用戶需求、符合國家需求的優秀輸入法,為輸入法系統設計人員提供標準和依據,促進輸入法市場的健康發展。
在我國輸入法標準的發展中,各個標準都為其時代需求發揮了應有的作用,為漢字輸入法的逐步標準和規范起到了重要作用,因此,在課題組的研究中,一方面要分析各個標準的時代特點和貢獻,另一方面,要結合當代漢字輸入的發展需求,擬定新的評測標準與規則。
通過對輸入法發展歷史上有影響的幾種輸入法如微軟拼音輸入法、搜狗拼音輸入法、QQ 拼音輸入法等的分析與測試,分析原有國家標準中的部分性能指標存在的不合理和不完善之處,尋求更為合理的輸入法評價指標,為修訂現行國家標準和增加新的國家標準提供依據。
由于GB/T 18031 對易學性的要求是學會使用漢字編碼輸入系統的時間應盡量短,并應符合使用漢語作為母語的使用者的思維習慣,“做到上手能用”。沒有一個量化的評價指標,使得在具體執行過程中,形同虛設。因此,在本項目的研究中,要對該標準的評價指標量化,制定出一個可操作的指標,讓其在具體的評價中發揮應有的作用。
首先,對如何抽樣得到被測試的人群進行選擇,比如,對被測人群的年齡、文化程度、地域分布、性別比例等做出具體規定;其次,被測人員的學習時間和達到的水平做出具體規定,比如,應該經過多少時間的學習,利用給定測試樣本對被測人員進行測試達到何種輸入速度或正確率其易學性達到國家標準;再次,對測試文本給出具體說明,比如,是隨機抽取GB2312/GBK/GB18030 中的多少漢字進行測試,還是隨機從網上抽取何種類型和大小的文本進行測試。
由于GB/T 18031在對輸入法評價的三個標準:易學性、漢字輸入平均碼長和重碼字詞鍵選率方面,對漢字輸入平均碼長和重碼字詞鍵選率是兩個量化的指標,但是如何測試這兩個指標,在怎樣的測試條件下進行測試,GBl803l中并未說明。
由于測試文本不同平均碼長也會不同,如測試文章類型不一樣,測試結果也會不一樣。輸入法研究人員在測試自己輸入法的平均碼長時,無據可依。因此,國家標準應該對測試文本的類型、大小具體說明,建立如字庫的大小、類型,字頻、詞頻、分級詞庫、專業詞庫等國家標準。
對輸入法的性能指標方面,有關性能指標測試的方式應該具體加以規定。例如,首先,對測試各性能指標所采用的字庫、詞庫大小明確規定,不同的字庫、詞庫不同的性能指標;其次,對測試樣本,包括測試樣本的來源、類型、大小做出具體的規定;再次,對輸入系統采用的輸入方式做出明確的規定。
明確輸入法中應具備哪些基本功能、可選哪些功能、標點符號的輸入方式、字母、數字的輸入方法的規范和標準等。
目前輸入法發展的趨勢是:簡單易學變得越來越重要。為了達到易學,各形碼輸入法拆分漢字的方式不一,但有些拆分,明顯失去漢字本身意義,與中小學基礎教育中漢字規律相違背,不僅造成要重新學習輸入法的高成本,更重要的是,在中國文化傳播的過程中,會使我們變得更“忘本”。因此,研究和建立規范的文字拆分標準勢在必行。
[1]道客巴巴.信息交換用漢字編碼字符集基本集(EB/OL).http://www.doc88.com/p-6324178319021.html,2015.
[2]道客巴巴.信息技術通用多八位編碼字符集第一部分體系結構與基本多文種平面(EB/OL).http://www.doc88.com/p-7048386049440.html,2015.