閻 嘉,耿 楠,鐘經華
(北京聯合大學 特殊教育學院,北京 100075)
現代語料庫從20世紀60年代開始發展,已經成為語言研究、語言信息處理不可或缺的基礎性資源。我國漢語語料庫建設從20世紀80年代開始,至今已有國家語委現代漢語平衡語料庫、北京大學現代漢語語料庫和《人民日報》標注語料庫、臺灣“中研院”現代漢語平衡語料庫等具有較大影響力的成果面世,在自然語言處理、規范標準制定、語言基礎研究等方面得到了重要應用。
漢語盲文與明眼文之間在語法、語義層面是一致的,但在字符和詞匯層面存在顯著差別。漢語盲文的分詞連寫和標調問題是導致盲文翻譯準確率低、存在歧義的主要原因。漢語盲文研究難以直接使用漢語語料庫的已有成果,需要建立專門的盲文語料庫來了解漢語盲文的全貌,促進盲文的基礎研究和應用研究,特別是盲文信息化的相關研究。
我國盲文研究尚屬薄弱領域,多數研究以盲文使用的感性認識為基礎,而以語料庫為基礎的研究,特別是具備一定規模并以真實盲文語料為主體的能夠全面服務于盲文基礎研究、規范化研究和信息化研究的盲文語料庫建設尚未進入盲文研究者的視野。黨的十八大以來,習近平總書記對語言文字工作作出了一系列重要論述,體現了黨中央對語言文字事業的高度重視,也為新時代語言文字事業的改革和發展提供了堅實的理論基礎和行動指南。2021年6月,由中國殘聯、中央宣傳部等多部門聯合制定的《第二期國家手語和盲文規范化行動計劃(2021—2025年)》中特別強調了要加快推進手語和盲文規范化、標準化、信息化建設的任務目標,其中建設手語和盲文語料庫、手語和盲文信息平臺及提高信息化水平是主要措施之一。
一是理論研究。對漢語盲文語料庫的理論地位和實際功能進行深入研究,明確漢語盲文語料庫作為一種具有鮮明特色的漢語語料庫,要擴展漢語語言資源類型和功能,要具備服務盲文本體研究、盲文教學、盲文信息化、盲文教材編寫、盲文詞典編纂等多種功能[1]。
二是盲文語料的采集與校對。根據語料采集原則和抽樣方法,采集盲文圖書1 100余種、盲校教材26種、盲文刊物1種、報紙(轉寫)2種。對于電子版的盲文語料,直接上傳到語料庫建設的專用網站。針對無電子版的單面盲文語料,以圖片方式采集了4屆全國殘疾人高等教育單考單招盲文作文試卷241份,經信息化預處理后,進行人工校對。早期《毛澤東選集(一至四卷)》盲文版由于版本陳舊及保護的需要,無法掃描識別,聘請盲文出版社盲人手動錄入采集,并進行了二校一審。
三是研制盲文語料標注規范。盲文語料庫從3個維度進行標注:第一個維度是盲文—拼音—漢字的對照標注[2],真實呈現漢語盲文的現狀;第二個維度是盲文語料庫特有的觸覺信息標注,為了反映觸覺的真實屬性,給予連珠型、密點型、中空型、假空方、破方等最高優先標注等級[3];第三個維度是根據現行盲文的特點進行語言學標注,包括聲調標注和分詞連寫標注(只標不切)。針對單方標注進行過4類試驗,對整體標注進行過6類試驗,并邀請多所重點高校語言學專業的師生進行標注,經多次試驗,反復修改,形成了盲文語料庫的標注規范。首先,利用“五重校驗法”對語料進行標注和檢查,再使用自主研發的標注一致性檢測系統,最后進行人工審核和修改。在不間斷的調查試驗中,建成了富內容關聯的六層精標注漢語盲文語料庫。
四是研發計算機輔助軟件。在語料庫的建設研究過程中,根據盲文特點設計開發計算機輔助軟件,提高了盲文語料庫建設的質量、效率和管理水平。研究過程中研發的輔助軟件主要包括:盲文語料采集軟件、漢語原文采集軟件、拼音—漢字對照標注輔助軟件、語言信息標注輔助軟件、觸覺標注軟件、人工校對平臺、一致性檢測平臺以及語料庫檢索系統。
漢語盲文語料庫通過對現行盲文頒布60多年來的盲文出版物語料、非出版物語料以及盲人的個人盲文語料進行調查篩選,采集了盲文語料1 171萬方,超額完成采集任務17.1%[4],完成了1 031萬方盲文語料觸覺(單方—整體)、對照(漢字—拼音)、語言學(聲調—分詞連寫)的三維六層標注,并對其中691萬方核心語料進行精標注校對。
在6 916 953方精標注語料中,字均約為1.91方,方均約為2.84點。以靜態單方為單位,“完善、上層、下層、中空、單點、破方、單列、單行”型符號的出現頻率分別為:27.98%、26.46%、15.98%、11.38%、9.18%、4.69%、2.83%、1.50%。以動態連寫塊為單位,包含一方及以上完善型符號的塊占66.76%,方間形成完善參照的塊占23.75%,缺陷符號約占8.83%,嚴重缺陷符號約占0.63%(破方、假空方、連珠、單行、單列)。
早期《毛澤東選集》語料的標調率為6.40%,近期標調率為12.39%。大幅度上升的標調率主要集中在聲韻母自成的音節上。
標調不一致現象普遍存在,其中“研、司、即、怨、維、咨、緣”等標調率和非標調率均接近50%(±2%)。15 715個雙音節詞有多形現象,出現573 159次,其中239個詞達到一詞四形的理論極限,出現20 370次。5 081個多音節詞有多形現象,出現49 565次,例如,“愛因斯坦”有5種標調形式。
盲文塊平均詞長為1.74字,字均空方率為0.57方。單音節塊有684 905個,占35.45%。連續20個及以上的單音節塊出現了5組,最多可達22塊。10個字及以上的連寫塊有3塊,最長的為15個字。
四字格成語全連的占41.86%,二分的占36.30%,三分的占18.06%,四分的占3.78%。同一個成語存在多種寫法,其中615個成語有兩種寫法、51個成語有3種寫法、8個成語有4種寫法,如:不/以為/然、不以/為/然、不以為/然、不以為然。還有的成語內部分寫,其首尾又與其他詞連寫,如:不信以/為/真、雨/后/春筍般、萎靡/不振得、欲/說/還休著。
同一語義單元被拆分的現象屢見不鮮,頻次較高的有:一席/話、一時/間、一/轉眼、剎那/間、突然/間。也有跨語義單元的分詞連寫,同一個語義單元內分寫,兩個不同語義單元之間連寫,例如,后三分/之/一處、雖然/說到/頭/來。
除專有名詞外,2.36%的塊為詞典詞的分寫塊,共32 835塊,被分寫的詞類頻次由高到低依次為:名詞、動詞、助詞、連詞、副詞、量詞、數詞、形容詞、介詞、代詞。高頻分寫詞有:的/話、別/說、尚/未、之/所以、一口/氣。
盲文中有些連寫詞組(稱為假詞)與某個詞典詞外形相同,例如,四周/MN、學會/VV、馬上/NNf。普通假詞會增加詞義,增加義項。特殊的假詞還會增加讀音,變成多音多義詞,例如,假詞“總長”(chang2)在盲文中連寫,與詞典詞“總長(zhang3)”同形。這是標注的難點,也是盲文翻譯需要特別注意的地方,這種假詞在盲文詞典中需要增列條目。
基于漢語盲文語料庫,以聲母分組的聲調使用頻率為基礎數據,打破音節界限,按陰平、陽平、上聲、去聲分成4組,綜合考慮每組的使用頻率、摸讀習慣、構詞能力、觸覺品質、輕聲等多種因素,選擇一組省寫聲調,形成了按聲母省寫的《國家通用盲文方案》。《國家通用盲文方案》基本上實現了漢語盲文字字帶調,避免現行盲文的猜調問題,提高了盲文的表意功能,同時解決了因字字標調而產生的篇幅增加問題。
漢語盲文語料庫是盲文研究領域的重大基礎建設,是具有長遠性意義的學術資源庫,具有原創性、開拓性、集成性,是綜合性重大現實研究成果,具有學科跨度大、協同創新程度高等特點,在盲文研究領域具有重大意義。
一是填補了盲文語料庫的國際空白。漢語盲文語料庫首次揭示了多維度盲文統計特征,包括:標調率、標調一致性、分詞連寫一致性、平均詞長、字均方數、方均點數、一形多詞、一詞多形,一語多分等一大批以前未知的重要數據,建立了盲文—漢字—拼音之間多層次、富內容關聯的全息存儲模式,是世界首例規模較大的6層精標注盲文語料庫,填補了國內、國際盲文語料庫的空白。
二是推進了盲文規范化和信息化進程。漢語盲文語料庫是特殊標調的漢語注音語料庫,是對我國漢語拼音語料庫的一個有益補充,也是首個采用特殊分詞連寫的漢語語料庫。盲文原始的分詞連寫得以保留,將大于漢語詞的連寫單位按照內部語法結構標注詞性,揭示了其構成成分;將小于漢語詞的分寫語素綴合成詞標注詞性,揭示了其整體的語法特征。對語料庫中真實的盲文語言材料進行觀察、比較,在統計分析的基礎上得出盲文運用的概率信息,為盲文規范化提供了基礎數據平臺。基于大量盲文語料,制定了《國家通用盲文方案》并經國家語委規范標準審定委員會審定,由教育部、國家語委、中國殘聯發布實施,解決了幾十年來盲文讀音不準的問題,實現了盲文由“猜”到“讀”的轉變,是盲文規范化繼往開來的里程碑,進一步推進了盲文規范化的進程。同時,漢語盲文語料庫還具備了轉寫為國家通用盲文語料庫的基礎。漢語盲文語料庫規模大、設計合理、標注精細,可為漢盲雙向翻譯、盲文自動校對等技術的研發提供關鍵性的數據支持,并成為本領域重要的基礎資源,對相關技術的發展產生深遠影響。以漢語盲文語料庫部分精標注語料為基礎,基于人工智能和機器學習技術的漢語盲文雙向翻譯實踐,充分體現了大規模精標注語料庫在盲文計算機處理中的優越性和重要性,對盲文信息化進程起到了推動作用。
三是占領了盲文研究的國際制高點。漢語盲文語料庫為漢語盲文研究帶來一個強有力的工具及大規模基礎數據,能夠為全面分析漢語盲文的詞匯、標調、觸覺品質等提供檢索及統計等多項功能[5]。因為布萊爾6點盲文符號的基本結構國際通用,觸覺信息不涉及盲文字符含義,漢語盲文語料庫的觸覺品質功能可以跨語種通用,能夠進行跨語種盲文觸覺品質的定量研究與評價[6]。現階段國際上其他盲文研究還停留在內省法和誘導法的階段,我國將引領盲文研究從抽象轉向實用,使之達到國際領先水平。
四是增進了盲人群體的語言文字權益。漢語盲文語料庫建設投入了大量人力和技術,克服了重重困難,盲文語料庫多層標注數據是盲文理論研究和實踐研究的寶貴資源,讓廣大盲人切實感受到了國家對盲人語言文字權益的高度重視。語料庫展現出了盲文在分詞連寫的一致性、成語分寫、連續零散單音節等方面存在的突出問題,為盲文規范化研究指明了方向。此外,漢語盲文語料庫為盲文詞典編纂提供了堅實的基礎,對提升詞典的文化擔當及社會責任有重要意義。
一是輕聲符號的探索。漢語盲文語料庫建設是在現行盲文輕聲沒有符號的主背景下進行的,輕聲與現行盲文不標調同形。在語料庫建設后期(2018年)發布的《國家通用盲文方案》中,輕聲與通用盲文省寫同形,輕聲有了特殊地位,但語料庫建設方案已經來不及調整,沒有為輕聲設計標注符號[7]。輕聲造成的混淆問題較少,但是在后續研究中還需繼續探索輕聲符號的處理問題,減少或避免盲文語料中的讀音混淆問題。
二是盲文分詞連寫規則需要修訂。為了保持語料庫的中立,忠實呈現盲文語料的原始狀態,在語料庫建設中只對分詞連寫筆誤進行了最小限度的修改。在漢語盲文語料庫中存在盲文分詞連寫問題多、一致性差、語義邏輯被打破的現象,零散的單音節大量存在。有的分法誤導讀者,有的規則沒有被執行,也有的是規則本身存在問題[8]。分詞連寫不一致是盲文規范化的攔路虎,是盲文信息化的絆腳石,迫切需要對盲文分詞連寫規則進行本體研究和可操作性研究。
三是漢語關鍵節點需要分詞。漢語中一直缺少表示邏輯停頓的空格,尤其是在專有名詞和歧義字段等關鍵節點上[9]。人名、地名復雜多變,特別是兩端的字與相鄰字可組成常用詞時,更難以區分。關鍵節點分詞(借鑒盲文的空格)是有效的解決辦法[10]。關鍵節點分詞有利于信息處理突破歧義字段、地名、人名等瓶頸,關鍵節點加空格后,對網絡搜索、機器翻譯(盲文翻譯)等計算機自然語言處理將起到至關重要的作用;關鍵節點分詞還有利于為學生減負,例如:“我國的煤都是XXX”,需要防范“都是”這個陷阱,只需在“都”和“是”之間加一個空格,學生就不會答成“黑的”,為學生減去不應有的負擔;關鍵節點分詞能夠降低閱讀難度,將精力聚焦于內部理解,而不是表層切分。此舉對普通讀者有利,對聽力障礙、智力障礙、孤獨癥和閱讀困難等特殊群體更有利,同時,也有利于對外漢語教學,有利于促進漢語國際化。
四是消極殘疾用語需要警示。漢語盲文語料庫中發現“瞎子”12次、“聾子”4次、“啞巴”5次、“殘廢”5次、“傻瓜”23次,這些強烈傷害殘疾人情感的消極詞語被當作普通詞語使用,許多殘疾用語還保留著污名化痕跡。社會大眾無從知曉“瞎”不等于盲的消極內涵,這需要辭書補位,將其消極內涵予以明確警示[11]。
五是外來字母詞需要消化。漢語盲文使用布萊爾符號拼寫漢語音節,外來字母詞的危害非常顯著。中外文都使用布萊爾6點符號,外形上無差別,漢字與外來字母混排是盲文摸讀的陷阱[12]。英語盲文的大寫號與漢語盲文的黑體號相同,是盲文信息化的絆腳石。盲人讀到外文字母會突然停頓,再改用外文的方式重讀。漢英混排給盲文造成很大混亂,盲文語料庫需要中英文兩套盲文標點符號。外來字母詞對盲文造成了嚴重沖擊,盲文已經發出了預警。盡管漢字不像盲文那么脆弱,但也必須積極應對國際文化交流帶來的挑戰。對外來字母詞進行消化、吸收、規范,保持漢語的規范與純潔,既有利于漢語盲文閱讀,更能筑牢文化自信建設的根基。