王 敬,楊麗姣,蔣宏飛,蘇靖杰,付靜玲
(北京師范大學 中文信息處理研究所,北京 100875)
漢語二語教學領域詞義標注語料庫的研究及構建
王 敬,楊麗姣,蔣宏飛,蘇靖杰,付靜玲
(北京師范大學 中文信息處理研究所,北京 100875)
詞匯教學在漢語二語教學領域占有極為重要的地位,其中多義詞又是詞匯教學的重點和難點。該研究通過分析三部經典領域詞表,選取了1 181個重點多義詞,以《現代漢語詞典(第6版)》為標注體系,制定了適合實際標注的多義詞標注規范和形式,在197冊經典漢語二語教材上進行了多義詞詞義標注,構建了一個規模約350萬字的面向漢語二語教學領域的詞義標注語料庫,并在此基礎上對1 811個多義詞、4 323個多義詞義項進行了計量統計,分析了多義詞不同詞義的出現情況及其分布規律。為了更好地服務于漢語二語教學,開發了語料庫檢索系統,設計并實現了多義詞義項的查詢功能。
漢語二語教學;語料庫;多義詞標注
對外漢語教學領域主要包括語音、詞匯、語法等方面的教學,詞匯教學在其中占有極為重要的地位。李如龍,吳茗認為學習語言,詞匯是基礎,詞匯體現了語音的結構和變化,組成語句又體現了種種語法關系,詞匯教學的效果直接影響著留學生漢語的整體水平。其中多義詞的教學又是詞匯教學的重點和難點。在自然語言處理領域,如何識別文本中多義詞的詞義也一直是一個重要課題,詞義消歧任務最早與1950年作為機器翻譯的一個任務被提出。隨著語料庫語言學的興起,語料庫開始在無論是漢語二語教學領域和自然語言處理領域起到了至關重要的作用,因此需要建立一個高質量的多義詞詞義標注語料庫。
詞義標注語料庫是指根據某個詞典對多義詞各個義項的定義,在真實語料上標注多義詞的正確義項。Leech指出詞義標注是最實用的語義標注。詞義標注語料庫是機器翻譯、信息檢索等自然語言處理系統的基礎性資源,在語言研究、詞典編纂等方面也有重要應用。例如,Sinclair等提出在COBUILD詞典編纂中利用詞義標注語料庫統計得到詞義頻率信息編排義項。
詞義標注語料庫已經經過了十幾年的建設,無論是英語還是漢語都有了自己的詞義標注語料庫。目前已經建設的詞義標注語料庫主要以采用詞義知識庫WordNet為主,著名的有SemCor語料庫、SenseVal語料庫和DSO語料庫等。采用傳統語言詞典進行詞義標注的語料庫數量很少,不成規模。
漢語的詞義標注語料庫建設起步較晚,主要有北京大學漢語詞義標注語料庫(Chinese Word Sense Tagging Corpus,STC ) 。該語料庫由北京大學計算語言學研究所建設,所選語料是2000年1~3月和1998年1月的《人民日報》,共計642萬字,所用詞典是該所開發的《現代漢語語義詞典》。該語料庫標注了966個多義名詞和動詞的義項。其中名詞794個、動詞168個;肖航將新加坡國立大學“華文教材語料庫”中的中小學語文教材作為語料庫,選擇傳統語言詞典——《現代漢語詞典(第5版)》作為詞義體系,對該語料庫添加詞義標記,該語料庫總字數約為200萬字。
目前,國內的面向漢語二語教學的語料庫主要集中在中介語語料上,例如,北京語言大學開發的“HSK動態作文語料庫”,中山大學開發的“漢字偏誤標注的漢語連續性中介語語料庫”、南京大學開發的“外國留學生漢語口語縱向語料庫”和“美國學生漢語作文縱向語料庫”,中介語語料庫主要是對語料進行字、詞、句的偏誤標注等。
但是國內目前還沒有專門的面向漢語二語教學的詞義標注語料庫,因此本文選取《現代漢語詞典》(第6版)為標注詞典,《現代漢語規范詞典》作為補充,在漢語二語教材語料庫上進行詞義標注,在標注實踐的基礎上,制定了一個比較完善的詞義標注體系,規范了詞義標注標準,并對標注結果進行了數據分析和統計,在此基礎上設計了一個多義詞詞義檢索系統。本研究彌補了漢語二語教學領域語料庫類型單一的缺陷,并填補了漢語二語教學領域的基于語料庫進行詞義研究的空白。
2.1 標注語料
本研究使用北京師范大學中文信息處理研究所開發的漢語國際教育動態語料庫*漢語國際教育動態語料庫由北京師范大學中文信息處理研究所和漢語文化學院共同建設,主要收錄對外漢語教學領域經典教材和新HSK樣卷文本語料,并提供多層次的語言信息標注,目前規模約14萬句,240余萬詞次。中的外漢語教學領域經典教材部分,包括經典教材58套,共189冊,約350萬字(含字母、數字和漢字),12萬句。圖1是教材信息庫的部分截圖。

圖1 漢語二語教材語料庫教材信息庫
動態語料庫在采集教材時充分考慮了教材類型、適用水平、出版年代、影響因子等屬性特征。所選教材分別從出版年份、學習者適用年齡、學習者漢語水平以及教材性質、教材類型、適用課型等方面做了考慮。所有教材均是1989年到2012年共21年間的典型教材,學習者的使用年齡覆蓋到兒童、小學、中學和成人,學習者的漢語水平也從零基礎、初級、中級到高級水平,適用課型包括口語、聽力、閱讀、寫作和綜合課型,這些教材大部分是用來教授語言技能的,一小部分是醫學漢語和商務漢語。
2.1 多義詞的選取
本研究所說的多義詞是廣義概念下的多義詞,即同一詞形具有多種詞義可能的均視為多義詞。從詞義標注和詞義消歧角度來說,機器無法只從詞形上判斷兩個詞形相同的詞是否為兩個不同的詞,這對留學生來說是一樣的,因此采用廣義多義詞概念更適用于詞義標注和漢語二語教學。
語料庫詞義標注根據標注詞的不同,可分為部分詞詞義標注和全詞(all-words)詞義標注兩種類型。本文的研究是部分詞詞義標注,選取了1 181個多義詞進行標注。這1 181個多義詞來自《新漢語水平考試大綱HSK詞匯》、《漢語國際教育用音節漢子詞匯等級劃分》、《1700對近義詞語用法對比》,我們將這1 181個多義詞成為多義詞詞義標注詞表(以下簡稱詞表)。
詞表中雙音節詞占多數,共812個,單音節詞占少數,共517個,多音節詞最少,只有八個。詞表中多義詞音節數和多義詞的HSK等級分布如表1所示。

表1 詞表多義詞音節數和HSK詞匯等級分布情況
語料庫詞義標注在語義體系和詞典資源的選擇上有多種不同做法,主要包括傳統語言詞典(例如《辭海》《現代漢語詞典》)、語義詞典(例如《同義詞詞林》)、用于信息處理用的詞義知識庫(例如WordNet、HowNet)等。本文選擇在釋義方面具有代表性的、使用最為廣泛的《現代漢語詞典(第6版)》作為詞義體系。《現代漢語詞典》(以下簡稱《現漢》)是漢語語言研究、研究教學等使用最為廣泛的詞典。
《現代漢語詞典(第6版)》對詞義和語素義進行了區分。圖2是《現漢》對多義詞“白”的釋義。圖2中“白”的義項(1)、(3)、(6)、(7)、(10)和(11)是詞義,而(2)、(4)、(5)、(8)和(9)是語素義。符淮青指出為了分析多義詞不同義項的意義,首先要區分詞義和語素義,詞義能作為詞獨立運用,語素義只能存在于它所構成的詞和固定結構中。詞典對詞義和語素義的區分,便利了語料庫的詞義標注和計算機的詞義消歧。因為計算機詞義消歧的輸入(通常情形下)是經過了詞語切分,因此真正成為消歧對象的是詞義,而語素義則可以在詞語或固定組合中自動得到消解。因此我們在進行多義詞詞義標注時,只標注詞義,不標注語素義。

圖2 《現代漢語詞典(第6版)》對多義詞“白”的釋義
4.1 標注形式
對于一個包含n個義項S的詞WORD,它在一定的上下文中被標注上詞義WS,其標注形式為:
@DUOYI_WORD/POS#WS(WS=Si、MH、UN)
其中,WORD代表一個詞,@DUOYI表示這個詞需要進行多義詞義項標注,POS是這個詞的詞性,WS是這個詞在其所在句子中的詞義(WS的取值將在下文說明)詞性和詞義用#隔開。
肖航從為語料庫標注多義詞詞義的實踐來看,詞典普遍存在詞義可區分性不足的情況,根據對《現代漢語詞典》的分析,他認為詞典中多義詞的義項之間存在重疊、相離、包含等關系。本文根據該文獻,以及在多義詞詞義試標注過程中的實踐,對多義詞在詞典中的義項和語料中的義項進行了形式化的表示,如下:
假設一個多義詞在詞典中一共有n個義項,則其第i個義項就表示為Si(i=1,2,3,…,n)。其中,詞義WS和義項的關系有幾種形式:
1.義項i可以準確表示詞義,則WS=Si;
2.義項i無法準確表示詞義,則WS=MH,其中MH的取值有三種:
A義項i和義項j的交集表示詞義,則MH=Si+Sj;
B義項i和義項j共同表示詞義,但是義項i包含義項j,則MH=Si>>Sj;
C義項i或義項j表示詞義,則MH=Si|Sj;
3.無法為語料中的多義詞找到合適的義項,則WS=QS,QS的取值為:
A義項i釋義過窄,則QS=Si-
B合適的沒有義項,則QS=addS(n+i) (其中,QS參照《現代漢語規范詞典》進行義項補充)
4.義項i是語素義,無需進行標注,則WS=UN(無需標注)
4.2 標注方式
多義詞標注采用機器和人工結合的方式進行。首先進行機器標注,再進行人工標注。機器標注是對多義詞中可以通過詞性決定詞義的義項進行標注,例如,“安定”這個詞,凡是詞性是形容詞的都選擇義項①,凡是詞性是動詞的都選擇義項②。

【安定】①_【形】(生活、形勢等)平靜正常;穩定:生活~|情緒很~|~的社會秩序。②_【動】使安定:~人心。
為了保證多義詞詞義的標注質量,我們組織了20名語言學及相關專業本科生、研究生參與人工標注,標注人員經過培訓和試標注檢驗合格后,進入正式標注。標注結果需要經過兩次人工校對,存疑處由專家討論確認。如上文所述的詞典中存在的義項重疊、相離、包含等關系,也在標注過程中不斷地進行詞表修訂,以使結果更符合實際情況。具體工作可以分為以下幾個步驟:
步驟1 對語料進行分詞和詞性標注;
步驟2 對分詞和詞性標注記性人工校對;
步驟3 對可以通過詞性決定詞義的義項進行機器標注;
步驟4 對剩余的多義詞進行人工標注;
步驟5 對標注了MH和QS的義項進行討論并修訂詞表;
步驟6 根據更新的詞表修訂標注結果;
步驟7 初次校對多義詞詞義標注結果;
步驟8 終校標注結果,收集討論結果,確認標注詞表;
為了方便進行人工標注,我們開發了輔助詞義標注的工具,該詞義標注工具的界面如圖3所示。

圖3 多義詞詞義標注工具
該軟件將多義詞詞義標注詞表加載于其中,通過點選的方式對每個詞進行詞義標注。
4.3 標注過程中特殊語言現象的處理
在多義詞詞義標注過程中,會涉及很多特殊語言現象,需要有一定的規范對這些現象進行統一處理,才能對多義詞進行標注(圖2)。
1.多義離合詞的處理:多義的離合詞在沒有分離時和普通的多義詞一樣進行標注,當離合詞分離之后,只對分離出來可以單獨成詞的那一部分進行標注,不成詞的部分不進行標注,另外,可離合的趨向動詞在分離后都不進行標注。

表2 多義離合詞的標注規范及示例
例1中,多義離合詞“過去”沒有分離,因此按照詞典,將此句中的“過去”標注上詞義。例5中,多義離合詞“過去”分離為“過”和“去”,那么此時就將它們的詞性標注為“語素g”,并標注上“UN”表示無需標注。
2.多義重疊詞的處理:一個多義重疊詞是否要進行標注,要看這個詞的重疊形式是否能拆分成獨立的詞,能拆分出獨立的詞就進行標注,不能拆分或拆分后不能獨立成詞就不進行標注,是否拆分以《現漢》的收詞標準進行判斷,拆分規則如表3所示。

表3 多義重疊詞的標注規則及示例
按照上述步驟,我們將在340萬字語料上進行1 181個多義詞的詞義標注,并對這1 181個多義詞的義項標注數據進行了統計和分析,希望從中能夠挖掘出其中的規律,并解釋其中的原因,希望對漢語教學尤其是教材編寫提供一定的參考。
1.多義詞義項復現情況統計
詞表中共1 181個多義詞,根據《現代漢語詞典(第6版)》,共包括4 213個義項,平均每個義項出現3.57次。在所有語料中,待標注多義詞共538 159詞次,其中需要標注的多義詞共537 493詞次,無需標注的多義詞共666詞次。本文將每個義項出現的次數按照100的距離進行了統計,其結果如圖4a)所示。

圖4 多義詞義項在語料中的分布情況
從圖4中可以看出,出現次數在100以內的義項是最多的,為2 831個,共占總義項的78.70%。其中出現次數排在前10位的詞的義項分為別:在1 000次以上的詞分別為“在/p#⑦”(20 173次)、“你/r#①”(18 191次)、“有/v#①”(8 796次)、“和/c#[2]-③”(7 790次)、“看/v#[2]-①”(7 288次)、“有/v#②”(6 664次)、“能/vu#④”(6 180次)、“會/vu#[2]-⑤”(5 403次)、“把/p#[1]-”(5 124次)、“什么/r#①”(5 079次),其中,“在/p#⑦”出現次數最多,為20 173次。
再此基礎上,本文又統計了出現次數在1-100次之間的義項,并以10為距離再次進行了統計,其結果見圖4b)。其結果表示,出現次數在1-10的義項最多,一共出現了1 466次,占總義項的51.78%,并且隨著出現次數的增加,義項逐漸減少。
隨后,本文繼續統計了出現次數在1~10次之間的義項,其結果如圖5所示。

圖5 出現次數小于10的義項在語料中的的分布情況
這表明,所有義項中,出現一次的義項最多,為370個,占總義項的25.44%。
2.高頻義項及低頻義項的分布統計及分析
根據對多義詞在真實語料下的詞義情況分析,絕大部份多義詞的義項頻率分布是不均衡的。具體表現為只有個別義項高頻,其他義項低頻,對義項進行義頻的統計分析,可以反映出教材中選擇詞義的狀況,結合新漢語水平考試(HSK)詞匯等級大綱中的詞匯等級,可以為以后的編寫者提供客觀的數據基礎。以下的數據,本文只統計了773個復現次數在100次以上的義項。高頻義項及低頻義項的統計如表4所示。

表4 語料中高頻及低頻義項分布情況
從表4可以看出,當高頻閾值設置為70%時,有45.02%的多義詞義項是高頻義項,并且當詞匯的等級是四級時,高頻義項出現的最多。通過低頻義項的分布可以看出,無論低頻閾值設置為30%、20%還是10%,詞匯等級是一級的詞匯所包含的低頻義項最多。
多義詞義項頻率分布的兩個極端情況是:①一個多義詞有多個詞典義項但除一個高頻義項外其他義項不出現; ②一個多義詞中個別義項不會出現在語料中。
對于第一種情況,通過調查發現,共有35個多義詞只在語料中出現了一個義項,其他義項沒有出現,并且這35個多義詞只包括2—3個義項,除了出現的那個義項,剩下的1—2個義項基本都是不常見義項。
在所有的義項中,一共有1 367個義項沒用出現在語料中,涉及699個多義詞,這1 367個義項所屬詞匯的HSK等級分布如表5所示。

表5 詞表中多義詞的HSK等級分布
通過分析語料,發現造成這種現象主要有以下幾點原因:
1) 該義項為其所在詞的不常用義項,比如“扒”的第[2]-④個義項:烹調方法,現將原料煮到半熟,再用油炸,最后用文火煮爛:~羊肉|~白菜。這些義項主要是方言義、文言文義等,通過統計,這1 381個義項中,共有方言義63個,文言義24個,口語義11個,舊時義12個,少數民族用語1個,用作姓氏180個,統計291個;
2) 多義詞義項釋義太窄,導致該義項的適用范圍太小,比如:“編輯”的第二個和第三個義項:“②_【名】做編輯工作的人”;“③_【名】新聞出版機構中編輯人員的中級專業職稱。”第三個義項就是將義項限定的太窄,導致語料中出現“編輯/n”90%都都會選擇義項②,只有在上下文很明確的條件下,才會選擇義項③;
3) 語料的限制,因為語料是來自漢語二語教學的教材,有一部分語料是面向初中級的留學生,一小部分是面向高級留學生,所以語料中出現的多義詞的義項總是會集中在一些基本義或詞的最常用義。例如, 義項“把/p#[1]-”就一共出現了5 000多次,而其他詞義基本上很少出現或不出現。這在一定程度上也顯示了教材選詞和詞義的局限性,以及程度不均的詞義復現率。
通過系統的、大規模的語料標注實踐,我們構建了一個面向漢語二語教學的詞義標注語料庫。資源的開發需要面向實際的需求,為了更好地服務于漢語二語教學及相關的研究工作,我們對該領域的用戶需求進行了分析,開發了語料庫檢索系統*語料庫檢索系統網址:www.aihanyu.org。,并依此設計并實現了了多義詞義項的查詢功能。圖6不完全顯示了多義詞詞表,通過詞表可以查詢某個多義詞的義項。如圖7所示,在檢索框中輸入“阿姨”,會顯示出“阿姨”這個詞所包含的義項。點擊“阿姨”的義項1,將會顯示出義項1所包含的所有語料,如圖8所示。

圖6 漢語國際教育動態語料庫檢索系統——多義詞檢索功能

圖7 多義詞“阿姨”的檢索結果

圖8 標注了“阿姨”義項1 的語料詳情
如圖8所示,“阿姨”的義項1共包含13條語料,在所有包含“阿姨”的中占比7.34%。當點擊第一條語料時,會顯示出這條語料的詳情,包括該語料的來源、詞性標注信息、多義詞標注信息,以及該語料所包含的語法點信息。
多義詞是漢語二語教學領域詞匯教學中的重點和難點。本文根據三張經典領域詞表,篩選出1 181個重點多義詞,在197冊經典漢語二語教材上,以《現代漢語詞典(第6版)》為標注體系進行了標注,制定了一套多義詞標注規范和形式,構建了一個包含約350萬字的面向漢語二語教學的詞義標注語料庫。在該語料庫上,本文對1 181個多義詞及其4 323個多義詞義項進行了數量統計,分析了多義詞義項復現情況、高頻及低頻義項分布情況及其規律。并在此基礎上研發了一個原料庫檢索系統,實現了多義詞詞義查詢功能。
基于上述研究工作,我們希望從以下幾個方面做出嘗試,以改進和提升現有的資源,并探索新的應用空間:第一,擴大語料庫規模,目前語料庫僅包含漢語二語教學領域的教材語料,并未包含真正的母語語料,希望以后的工作中能夠加入一些新聞語料、網絡語料等,使語料覆蓋更廣;第二,加入更多的多義詞,實現全詞標注。因為人力物力有限,目前僅在語料上實現了部分詞標注,有很多多義詞并沒有被標注上;第三,在第二部的基礎上,開展多義詞詞義消歧研究,以節省人力,豐富現有的資源庫建設維度和應用空間。
[1] Ide N,Wilks Y.Making sense about sense[J].Word Sense Disambiguation.Dordrecht::Springer,2007,33:47-73.
[2] Leech G.Corpus annotation schemes[J].Literary and Linguistic Computing,1993,8(4):275 -281.
[3] Sinclair J.Corpus,concordance,collocation[M].Oxford:Oxford University Press,1991.
[4] 符淮青.現代漢語詞匯 (增訂本第二版)[J].北京:北京大學,2004:63.
[5] 國家漢辦/孔子學院總部.新漢語水平考試大綱[M].北京:商務印書館,2009.
[6] 金澎,吳云芳,俞士汶.詞義標注語料庫建設綜述[J].中文信息學報,2008,22(03):16-23.
[7] 李如龍,吳茗.略論對外漢語詞匯教學的兩個原則[J].語言教學與研究,2005,2(41):21.
[8] 劉英林,馬箭飛.漢語國際教育用音節漢字詞匯等級劃分[M].北京:北京語言大學出版社, 2010.
[9] 吳云芳,俞士汶.信息處理用詞語義項區分的原則和方法[J].語言文字應用,2006, 2:126-133.
[10] 肖航,楊麗姣.基于詞典的語料庫詞義標注研究[J].語言文字應用, 2010, 2:135-141.
[11] 肖航.基于詞典的語料庫詞義標注[D].新加坡:新加坡國立大學, 2009.
[12] 楊寄洲,賈永芬.1700 對近義詞語用法對比[M].北京:北京語言大學出版社,2005.
[13] 中國社會科學院語言研究所詞典編輯室.《現代漢語詞典》(第6版)[M].北京:商務印書館, 2012.
A Word Sense Annotated Corpus for Teaching Chinese as Second Language
WANG Jing,YANG Lijiao,JIANG Hongfei,SU Jingjie,FU Jingling
(Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875,China)
In field of teaching Chinese as a second language,the teaching of word is very important,in which polysemous word is a challenging issue.After a survey of 3 classical vocabularies in this field,this paper selects 1 181 polysemous words.Then an annotation specification is designed,with a reference to Modern Chinese Dictionary (Edition 6).Tagging the 1 181 words appeared in 197 popular Chinese textbooks yields a corpus with word senense annotation over 3.5 million characters.A quantitative study on the 1 811 polysemous words is also made,with an analysis of the distribution of total 4 323 word senses.
teaching Chinese as a second language;corpus;polysemous words annotation

王敬(1988—),博士,主要研究領域為中文信息處理。E-mail:wangjing1204@foxmail.com楊麗姣(1973—),副教授,主要研究領域為漢語國際教育、詞匯語義學、語料庫語言學,對外漢語教學。E-mail:yanglijiao@bnu.edu.cn蔣宏飛(1982—),博士后,主要研究領域為自然語言處理、智能問答、文本挖掘、機器翻譯。E-mail:jianghongfei@dinfo.cn
1003-0077(2011)00-0221-09
2016-09-15 定稿日期:2016-10-10
國家語委“十二五”科研規劃項目(YB125-124);國家高技術研究發展計劃(863)(NO.2012AA011104);中國博士后科學基金第53批面上資助(一等)(2013M530026)
TP391
A