劉善濤, 王 曉
(南開大學 文學院,天津300071)
語料庫語言學被稱作現代語言學甚至后現代語言學[1]的重要特征。“自從COBUILD詞典問世以后,建立語料庫已經成為當代編纂原創性詞典的必要條件”。[2][p.27-29]語料庫語言學和詞典學結合所形成的新型交叉學科——語料庫詞典學已成為辭書現代化建設的重要“法寶”。[3]語料庫詞典學主要指以語料庫為基礎的詞典編纂和詞典研究兩方面的內容。目前,我國語料庫詞典學的研究多集中在計算機輔助辭書編纂的理論性研究以及基于語料庫的個案性、小范圍內的詞條編纂實踐研究,“我國語料庫、知識庫等基礎資源庫建設相對滯后,多數出版社主要還是靠手工編纂,技術比較落后,我國迄今尚沒有真正意義的使用語料庫編寫的辭書”[4]。因此在加快詞典語料信息化、數據化發展,推進語料庫的深加工或數據化研究及開發[5]的同時,對已出版的、不同類型辭書的信息化處理和對比分析也是語料庫詞典學研究的重要課題,它將使我們更為清晰地認識詞典編纂現狀,了解我國詞典編纂和國外同類型詞典編纂的具體差距,從而進一步推動我國的辭書編纂理論和實踐研究。
面向對外漢語教學的外向型學習詞典的編纂是漢語辭書編纂的一個重要分支,尤其是在當前漢語國際推廣的大背景下,學習詞典的編纂是做好漢語國際傳播,提高我國辭書的國際地位,把我國建設成為辭書強國的重要途徑。但是,調查表明,國內出版的漢語詞典只有6.8%的留學生擁有;93.2%的外國留學生不購買國內出版的漢語學習詞典;40.18%的留學生不知道這些詞典的存在。同時,國內英語學習詞典的市場基本為英國出版的5大詞典所占據,2009年的市場份額達93.19%。[6]數據上的巨大差異迫使我們需要進一步加強對漢語學習詞典的系統深入研究。
語料選取的典型性和代表性是語料庫建設的核心問題,本研究中,我們選取了我國第一部專門為具有中級漢語水平的外國人編的漢語原文詞典[7][8][9],同時也是在對外漢語教學界和詞典學界廣受好評[10][11][12][13]的《商務館學漢語詞典》(簡稱《學漢》,下同)作為語料來源,對詞典正文部分進行電子化處理,建設成完整系統的中型學習詞典信息庫,進而對信息庫中的各種屬性進行定量分析,以期對本詞典有一個較為系統的認識,對漢語學習詞典的編纂和研究有所幫助。
信息庫的建設和對庫中屬性的定性定量分析是一個復雜系統的工程,既需要手工的紙質文本電子化處理,也需要在一系列思想和原則的指導下對信息庫屬性信息進行整體設計和分步描述,同時還需要一定的電腦技術手段對材料進行半智能化處理。具體步驟和做法如下:
本詞典分為雙色本和四色本兩個版本,由于四色本的印刷質量更為優越,不同板塊的顏色標記和詞典插圖的畫面質量也更為清晰,因此,我們將四色本作為將要處理的紙質文本。
1.詞典文本的掃描和編號。用專業掃描儀將紙質文本逐頁掃描到計算機,儲存成電子圖片,并按照詞典的頁碼順序對其進行編號。
2.詞典圖片的處理。用專門的圖片處理軟件對所掃描的電子圖片進行處理,檢查圖片的完整性和清晰度,保證圖片質量。同時對掃描過程中所形成的圖片邊框冗余成分進行切除,以便提高圖片OCR(Optical Character Recognition,光學字符識別)處理過程中的軟件運行速度和文字識別的正確率。
3.詞典圖片的OCR識別。使用專業的OCR軟件ABBYY FineReader Pro 10.0版對圖片文本進行自動識別,并按照圖片名稱逐個保存為word文檔。
4.詞典文檔的校對和整理。軟件的自動化處理并非一勞永逸,還需要將零散的word文檔按順序進行合并,并和詞典文本進行對照,逐字逐句校對,統一符號和格式,保證文檔處理的真實可信,為后續工作打下堅實的基礎。
1.全面真實地描述詞典正文的全貌。本詞典在正文前后雖在前置頁和后置頁部分設有說明、附錄等內容,但正文是詞典的主體,也是信息庫建設的全部來源。本信息庫除全面反映詞典中的條目、注音、釋義、例證等要素外,還真實呈現本詞典的某些特色,如聲旁字、逆序詞、語素義統領詞條,以及豐富的詞目辨析、注意和插圖等。
2.宏觀、中觀、微觀相結合。詞典正文是在一定的編纂宗旨的指導下,按照一定的體例把相關的構成要素合理布局形成的有機整體。信息庫的建立既需要將有關構件進行合理切分,同時也不能切斷各構件之間的聯系,打破正文結構的整體性和系統性。在綜合前人[14][15][16][17]理論研究的基礎上,結合本信息庫建設的實際,我們將詞典正文分為宏觀、中觀、微觀三個交錯呼應、相互聯系的有機系統。
3.分條目、逐義項單獨標注。紙質詞典限于其編纂傳統、編纂理念、生產成本等方面的要求,在排版印刷方面顯得較為緊湊,而出于研究目的的詞典信息庫則需要使研究對象盡量明確、具體,保證各微觀要素都能在庫中找到恰當的位置,進而體現出該要素的編纂價值。在具體的建庫實踐中,我們將一個條目(聲旁字除外)對應一個語音(注音)、語法(詞性或語素性質)、語義(義項)、語用(例證)、逆序、另見、注意等屬性,其中語音和語義屬性是必有屬性。
上述思想和原則可用下圖1加以表示:*本圖在設計過程中參考了Hartmann的詞典結構圖。[16]

圖1 詞典信息庫建設的思想和原則示意圖
在上述思想和原則的指導下,我們為本信息庫共確立了12種屬性信息,分別為:條目、注音、語法屬性、釋義、例證、逆序、另見、注意、辨析、插圖、參見、源詞等。最終將詞典正文內容按照上述12種屬性信息填入由微軟發布的關聯式數據庫管理系統Microsoft Office Access 2007中。信息庫界面部分內容如圖2所示:
信息庫的建立是為了更為全面系統地認識本詞典,進而對外向型漢語學習詞典的編纂和研究有所幫助。下面我們將從宏觀、中觀、微觀三個方面對詞典正文的各屬性信息進行分析。
詞典是“詞的一份單子”,[14][p.49-66]收詞與立目對詞典的宏觀結構有著重要影響。義項的確立和多義義項的切分關系到對所收詞目意義區域的劃分和詞典的體系性問題。
《學漢》共立條目12372個,總義項數17721個(包括聲旁字),平均每個條目設置1.43個義項。條目單位大致分為下面幾類:
聲旁字76個,占條目總數的0.6%,在詞典中單獨立條,并用網文標出。其作用是使讀者體會漢字讀音時的規律,在詞典中只標記讀音,沒有釋義和例證。
單音節條目3645個,占條目總數的29.5%,分列義項數7204個,占義項總數的40.7%。其中義項數最多的為“下”,共19個義項,其次為“打”和“點”,各18個義項。各義項數所占有的條目數量和在條目總數中的比重如下表1所示:

表1 詞典各義項數所占有的條目數量和在條目總數中的比重表
信息庫的建設是以義項為單位的,在7204個義項所統領的單音節條目中,詞典中標記為“素”的實語素項2609個;詞典中標為“尾”(詞尾)和“頭”(詞頭)的虛語素項分別為16個和8個;詞典中沒做屬性標注,表示具有構詞能力的單字有274項;作為特定語境下的口語變體,詞典中沒有做屬性標記的成詞條目2個(哪、那);其他條目為能自由使用的成詞語素,共計4295項。
多音節成詞條目8435個,占條目總數的68.2%,分列義項數10203個,占義項總數的57.6%。其中義項數最多的為“起來”,8個義項;其次為“什么、下來”,各6個義項,見表2:

表2 詞典義項數、條目數與所占條目總數比值對照表
信息庫中,短語條目213個,*詞典正文中有9個條目(頭疼、往后、一度、一方面、一會兒、一下、有點兒、有些、干嗎),雖出自同一詞條,但在有的義項上沒有標記詞性,視為短語,有的義項上標記了詞性,視為詞。短語義項共計11條。占條目總數的1.8%,分列義項數238個,占義項總數的1.3%。在238個義項所統領的短語條目中,成語80項,待嵌格式26項。
詞典中觀結構不是一種順序性結構,而是用以連接分布在不同位置上的信息的網絡狀結構,旨在重現自然語言以及學習者心里詞庫中的關系網絡,在詞典中最終表現為一種具有多維性、發散性的網絡關系。[18]在本詞典的正文部分,中觀系統又表現為條目之間的中觀聯系和同一條目之內的中觀聯系。前者指以本條目為基點所引發的與他條目之間的聯系,如:逆序詞、條目辨析、和……相對、另見……頁、參見……頁等;后者指本條目內的附屬信息與該條目的聯系,如:插圖、外來詞的源詞形式等。
為了幫助擴大讀者的詞匯量,本詞典在單音節條目的每個義項下分別列出了逆序和正序兩類詞語。據統計,詞典共為單音節條目的2838個義項設立了6863個逆序詞,每個義項平均2.42個逆序詞,設立逆序詞的義項數占單音節條目義項總數的39.4%。設立逆序詞數最多的義項為“人(二)”,共40個;其次為“語(一)”共36個。詞典中逆序詞的數目與所在條目義項總數的數值對照表,如表3:

表3 詞典中逆序詞的數目與所在條目義項總數的數值對照表
為了深入區分近義語素或近義詞之間的差異,詞典專門設立了詞目辨析欄,共142組,形成了近義現象之間的互相參照。其中有139組為兩個詞語之間的辨析,占詞目辨析總數的98%;有3組為3個詞語之間的辨析,占詞目辨析總數的2%,如“被——叫——讓、懲辦——懲罰——懲治、小時——鐘頭——點鐘”。
在提示條目的反義語素或反義詞中,詞典設有“(和……相對)”的標記,形成反義現象之間的互相參照,本詞典中共有669處。在提示多音字或多音詞的其他讀音中,詞典這有“另見……相對”的標記,形成了多音現象之間的互相參照,本詞典共有584組字或詞設有語音另見的互參標記。同時,詞典還專設了“參見”項,以便有關詞語或詞條和詞典中的附錄等信息相互參照,此類設置共有21處。
為了更為形象地理解詞義,也為了方便留學生將漢語詞與其母語詞形成對照,加深對漢語外來詞理據的理解,詞典還設置了一定數量的插圖,并在釋義或例證之后用括號標注了該外來詞條目的源詞形式,形成詞條內部的相互參照。其中插圖共有636副,外來詞所標示的源詞108個。*有部分外來詞標注在某些條目的釋文和例證中如:“佛”和“迦”的釋文和例證中都出現了“釋迦牟尼(Shìjiāmóuní,梵文:Sakyamuni)”,“普”的例證中有“吉普(jípǔ,英文:jeep)”,形成了外來詞標記體例以及詞典立目的不統一,本文不計入外來詞的數量。
微觀結構是詞典的基本結構單位和功能單位,是詞典的主體,[14][p.68-83]它按照一定的格式提供詞目詞所蘊涵的全部或主要信息,主要包括注音、詞類、釋義、例證、注意等相關信息,其中釋義是詞典的核心,例證是對釋義的補充和延伸。
《學漢》本著“易懂、易查、易學”[9]的目標,在詞典注音方面有3點變通:一是把CH、SH、ZH從C、S、Z中分出來,單獨設部;二是在L、N兩部中的lǘ、lǚ、lǜ、lüè和nǚ、nüè分別排在兩部的最后;三是按字頭的義項統領詞目,詞目按照音序排列和注音。
《學漢》將同詞性的多音節成詞條目在詞頭前標記一個詞性;將兼類詞和同音詞設在一個條目之中,不同詞性分別設立不同的義項;對同形詞則分立條目,用“另見……頁”標示。詞典為單音節條目和多音節成詞條目的詞性設置情況如下表4:

表4 詞典中單音節條目和多音節成詞條目的詞性設置數據表
詞典正文所標記的詞性總數為14498個,其中643個短語詞又分為動——賓式502個、動——結式94個、動——趨式42個、動——介式5個。
除聲旁字外,《學漢》為每個條目都進行了釋義,我們使用從中國語言文字網所下載的“MyZiCiFreq字詞頻率統計工具”軟件對釋文語言進行分析可知,釋文總字數為186079個,所用漢字共2875個,其中只使用一次的漢字有456個,占所用漢字總數的15.8%;使用兩次的漢字有320個,占所用漢字總數的11.1%。釋文中所使用詞語總數為133882個,出現不同詞語的個數為7297個,其中只使用一次的詞有2340個,占所用詞語總數的32.1%;使用兩次的詞語有1065個,占所用詞語總數的14.6%,見下表5:

表5 詞典釋文所用漢字數量和詞語數量出現次數對照表
《學漢》為14681條義項設置了例證,占義項總數的82.8%,共設例證數為55793,平均每條義項設置3.8個例證,其中例證數最多的為“周(六)”,共13個例證,其次為“風(一)”,共12個例證,再次為“柜、國(一)、某(一)、工業、革命(二)”,各有11個例證。下表6為例證數量和義項數量的對應表:

表6 詞典例證數量和義項數量的對應表
《學漢》為了更為準確地描述條目的意義和用法,深入揭示詞的微觀要素,還設立了“注意”欄,共511個,進一步提示了不同條目的語法搭配條件,詞義色彩,文化內涵、使用條件等。
詞典是教材的補充和延伸,是使用者解疑答惑的良師益友。在信息技術迅猛發展的環境下,[19]外向型漢語學習詞典的編纂是推動漢語進一步走向世界的有效工具。但是,我們“對辭書理論研究不夠”,還“缺少有針對性編寫的學習型辭書”[4]。本文選取了當前學習詞典中的代表為語料來源,結合現代語言學研究的數理化、計量化趨勢,建立了一個封閉的詞典信息庫,并對詞典正文中的各屬性信息進行了初步統計分析。在后文的研究中,我們將對各信息進行深入挖掘,并與內向型漢語詞典的典范(以《新華字典》、《現代漢語詞典》為代表)和英語學習詞典的代表(5大家族:牛津、劍橋、朗文、麥克米倫、柯林斯)進行對比,探討漢語外向型詞典在編纂過程中所應注意的問題以及應體現出的特色等。
[參 考 文 獻]
[1] 盧磊.語料庫語言學:后現代語言學的興起[J].湖北大學學報(哲學社會科學版),2006,(4).
[2] 楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.
[3] 李宇明,龐洋.關于辭書現代化的思考[J].語文研究,2006,(3).
[4] 王鐵琨.規范化、現代化與辭書強國——中國辭書事業發展的思考[J].辭書研究,2007,(1).
[5] 章宜華.國際辭書現代化技術的新理念:辭書語料數據化[J].辭書研究,2012,(2).
[6] 章宜華.漢語學習詞典與普通漢語詞典的對比研究[J].學術研究,2010,(9).
[7] 江藍生.商務館學漢語詞典·序[Z].北京:商務印書館,2007.
[8] 陸儉明.商務館學漢語詞典·序[Z].北京:商務印書館,2007.
[9] 魯健驥,呂文華.編寫對外漢語單語學習詞典的嘗試與思考——《商務館學漢語詞典》編后[J].世界漢語教學,2006,(1)
[10]鄭艷群.《商務館學漢語詞典》插圖評析[J],世界漢語教學,2009,(1).
[11]楊金華.突出“對外”特性的釋義和用法說明——析《商務館學漢語詞典》的釋詞[J].辭書研究,2009,(6).
[12]高慧宜.一部易查易懂的對外漢語學習詞典——《商務館學漢語詞典》評論[J].辭書研究,2009,(6).
[13]劉曉梅.淺析《商務館學漢語詞典》例證的文化傳播功能[J].辭書研究,2011,(4).
[14]黃建華.詞典論[M].上海:上海辭書出版社,1987.
[15]袁世全.三個結構與第三結構——九論辭書框架,兼與三種觀點商榷[J].辭書研究,2000,(4).
[16]Hartmann.詞典學教學與研究[M].北京:外語教學與研究出版社,2005.
[17]章宜華,雍和明.當代詞典學[M].北京:商務印書館,2007.
[18]章宜華.學習詞典的中觀結構及其網絡體系的構建[J].現代外語,2008,(4).
[19]孔輝.新形勢下高校圖書館特色文獻資源建設探析[J].大理學院學報,2012,(1).