麥熱哈巴·艾力,吐爾根·依布拉音,加米拉·吾守爾
(新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)
依存句法以形式簡單、易于理解、側重于反映句子中各成分之間的語義關系等特點,一直備受國內外研究者的青睞。構建相應句法樹庫無疑是句法分析處理的基礎,雖然耗時、耗力,但卻是利在當今、功在千秋的工作。目前國內外相應研究機構相繼構建并發布了很多相關語言的依存樹庫,包括瑞士語[1]、希臘語[2]、俄語[3]、日語[4]、漢語[5]、捷克語[6]、土耳其語[7]、德語[8]及斯洛文尼亞語[9]等。
近年來,維吾爾語的信息處理研究也得到了快速發展,包括維吾爾語詞法分析器、校對系統、維漢機器翻譯以及維吾爾語短語句法分析等方面。本文在已有的研究成果之上探討了現代維吾爾語依存樹庫的構建過程。即: 從維吾爾語的詞法、句法特點出發,分析維吾爾語的結構特性,選定維吾爾語依存樹庫中依存單元粒度,確定依存關系及標注原則,設計樹庫存儲結構等,并從不同角度對人工標注的依存樹庫做了統計分析。
作為黏著性語言,維吾爾語的詞法、句法特性主要體現在以下幾點: (1)在詞干后綴接詞尾構成不同的形態,附加語素數量多且攜帶一定的語義信息; (2)維吾爾語屬于主語可省略(pro-drop)型語言,省略的主語可從動詞詞尾判斷出來; (3)雖然維吾爾語的主要句法結構為SOV型,但也有SVO型(如詩詞等)的情況。同時,維吾爾語的語序比較靈活。如: ikki yash yigit (兩個年輕人)和 yash ikki yigit(年輕的兩個人)是同一個意思,但所強調的內容不一樣: 前者強調年紀,后者強調人數。
構建依存樹庫的目的之一是為計算機的語義分析打基礎,服務于計算機“理解”自然語言。所以構建依存樹庫時,根據維吾爾語的特點盡可能地保留或體現語義信息是本文構建依存樹庫時所重視的要點。維吾爾語中某個單詞在句子中起到的語法功能往往受到綴接其后詞尾的影響,從而也影響它的依存角色: 支配詞(head word)或從屬詞(dependent word),如圖1所示。

圖1 同一個詞不同形態的不同依存角色
圖中左邊詞對“tamaq ber” (給飯)中“ber”是支配詞,右邊詞對“bergen kitab”(給的書)中的“bergen”(ber+gen)則為從屬詞(此處詞尾“-gen”使其語法功能發生了變化)。所以我們認為詞尾在決定依存角色時起到不可忽視的作用。
同時,一個質量高、規模大、覆蓋面廣的標注樹庫為相應語言的信息處理可以提供豐富的信息。我們期望所構建的樹庫能夠受到更多“消費者”的青睞。既為語言學家提供研究語言形態結構及分布、句法結構、語序等方面的信息,又可為計算語言學家建立語言模型、研究句法分析評價標準等提供便利。
考慮到以上因素,本文的維吾爾語依存樹庫的構建過程采用了以下流程: (1)依存單元粒度的確定及表示; (2)依存關系的確定及標注原則; (3)依存樹庫存儲結構的確定; (4)依存標注工具的開發。
維吾爾語中,在詞干后接詞尾使其具有不同的形態且具有不同的語法功能。例如,ket(走,v.),ket+ken(走的,adj.);kongül(心靈,n.),kongül+lük(開心的,adj.)。通常,一個發生形態變化的詞在句子中只有的語法功能往往是由它最后的詞尾來決定的。例如,“zamaniwilashturush (現代化)”一詞的結構為‘zamaniwilash(現代化,v.)+tur+ush’,是最后詞尾“-ush”使其具有名詞功能。中間詞尾雖不具有最終語法功能決定權,但卻搭載著某種語義信息。如果把詞尾簡單地看成是詞干后面的追隨者,則不僅造成數據稀疏問題,更嚴重的還會失去一些重要的語法語義信息。例如,分析短語“balilarning eng kichiki(孩子們中最小的)”的依存情況的分析結果如圖2所示。

圖2 詞尾在依存關系中的作用
圖2中可看出,最后一詞“kichiki(小的)”有兩層組成: “kichik(小,adj.)+i(詞尾,第三人稱單數)=kichiki (n.)”。仔細分析不難發現,副詞“eng”(最)修飾的不是kichiki而是kichik,因為副詞只能修飾動詞或形容詞,不能修飾名詞;詞“balilarning”(注: 中間有個弱化音位)中“+ning”從屬于“+i”。可見,依存關系中充當支配詞或從屬詞的不僅是某個單詞也可能是某個詞尾。
經過以上分析,本文認為在維吾爾語依存樹中以詞素(即詞干及詞尾)而不是單詞來表示依存單元更能體現此語言的結構特性,且以這種方式表示的依存關系更具有代表性。例如,分析以上實例“balilarning”與“kichiki”之間的依存關系時,可獲得依存模板“n.+ning n.+i”(表示誰的什么,n.表示名詞)及其之間的依存關系,此模板能代表其他具有類似結構的兩個詞之間的依存關系,例如,“Alimning topi (阿里木的球)”,“gülning yopurmiqi (花兒的花瓣)”等。
維吾爾語中還有很多固定搭配詞,也稱作多詞表達,包含對偶詞、復合詞、習語、成語等。例如,bara(去)和barmay(不去)構成的對偶詞bara-barmay(一去就…)。維吾爾語中多詞表達的結構很靈活,其中包含的詞可有多種形態,詞之間還可以插入其他詞,對有些語塊是否為多詞表達還存在爭議。對此我們采取以《維吾爾語詳解詞典》(2008年版)為主要依據,以詞典中出現的語塊視為多詞表達并以下劃線連接成一詞,再判斷它與其他詞之間的依存關系;若不在詞典中,則視為一般詞處理。
句法分析的輸入是一串詞,輸出的是詞串按某種關系呈現的結構。依存語法中的關系就是句子中詞串之間的依存關系。語言不同,則其詞性集以及依存類型、數量也不同。捷克語依存樹庫 PDT 采用了7種依存類型, 德語依存樹庫 TIGER 采用了49個依存類型。漢語依存樹庫中,清華大學計算機學院依存樹庫一開始采用了106個依存類型,后來減為44個;同時,依存數量的多少也很重要,數量多,對計算機的識別及分析帶來一定的影響,增加時間、空間復雜度;數量少,則不足以描述語言現象,降低模型的表現能力。
傳統的維吾爾語句法指定的關系主要為主語、賓語、定語、狀語、補語及謂語。顯然,它們具有重要的參考價值。但它們不能全面地刻畫句子中詞之間的關系,需要指定既能覆蓋維吾爾語句子的語法結構,又能符合計算機處理的依存關系集。我們借鑒國內外發布的依存樹庫,特別是一些黏著性語言,例如,日語、韓語、土耳其語在這方面的研究成果,再結合維吾爾語的特性制定了維吾爾語依存關系并標注句子以嘗試其合理性。通過反復幾次修改,最后制定了23種依存關系,分別為以下所示:
ABL(Ablative Adjunct) —起因關系
APPOS(Apposition)—同位關系
ATT(Attributive Modifier)—定中關系
ADV(Adverbal modifier)—狀中關系
AUX(Auxiliary Verb)—體助關系
CLAS(Classifier)—分類關系
COLL(Collocation)—詞串關系
CONJ(Conjunction)—連詞關系
COORD(Coordination)—并列關系
DAT(Dative Adjunct)—指向關系
INST(Instrumental Adjuncts)—工具關系
LOC(Locative Adjunct)—時位關系
OBJ(Object)—賓動關系
POSS(Possessor)—領屬關系
POST(Postpositions)—后置關系
QUOT(Quation)—引用關系
ROOT(Root of Sentence)—主管關系
PRED(Predicate)—表語關系
SUBJ(Subject)—主謂關系
CL(CLause)—從句關系
IND(Independent component)—獨立關系
COP(Copula)—表系關系
COM(Comparison)—對比關系
為了給標注者提供可參考的標注依據、保證標注的一致性,我們還制定了《維吾爾語依存樹庫標注手冊》,其中講述了每一種依存關系的定義、出現形式、判斷依據以及相應的實例。同時,又根據在測試過程中所遇到的情況以及國內外相應樹庫建設中所積累的經驗,制定了在標注語料時必須遵守的幾點原則。
(1) 單純節點規則: 依存樹中不允許存在游離于集體之外的成分。
(2) 獨根節點規則: 一個依存樹只能有一個根節點(Root),它是依存樹中唯一沒有父節點的節點,根節點支配著其他的所有的節點。
(3) 單一父節點規則: 在依存樹中,除了根節點沒有父節點之外,其他節點都只有一個父節點。
(4) 非交規則: 依存樹中的樹枝不能彼此相交。
(5) 有向條件: 依存關系本質上是一種非對稱的,有向的同現關系。在維吾爾語依存關系標注中,從屬成分(子節點)的方向指向支配成分(父節點),而不是相反。
(6) 起點規則: 依存關系的起點是從屬(子節點)詞語的最后一個附加成分,結束點是支配(父節點)詞語的詞干(或在詞根上附加詞尾的部分)
所有參與依存樹標注人員需在參加按此手冊進行的培訓、測試后方能標注。
為了讓維吾爾語依存樹包含更多的語言信息以及為以后的擴展提供便利,借鑒國內外相關樹庫的構建經驗,本文規定維吾爾語依存樹中每個單詞應包括表1所示的信息。

表1 依存單元屬性表
表1中,ID表示當前詞索引(下標從1開始), Morph表示當前詞的形態結構,其格式為: Stem+Af1+Af2+…+Afn(其中Stem為詞干,Af為詞尾,下標為詞尾索引,從1開始);Lem表示當前詞的詞典形式;Inf表示當前詞在綴接詞尾后的屈折組信息;Rel為當前詞與支配詞之間的依存關系,它是三元組
根據表1,以上短語balilarning eng kichiki 的依存信息如表2所示。

表2 依存單元屬性描述
表2中第一行最后Rel字段的值為三元組<3,2,CLAS>,表示當前詞“balilarning”從屬于第三個詞“kichiki”的第二個屈折組(此處為-i),“CLAS”表示其依存關系。
最后本文以XML文件形式保存了依存樹庫,樹庫中每個句子作為一個節點保存,它由每一個詞的以上信息構成,例如:
…
依存樹的標注是一件費時、費力的過程。為了減少語言學家或標注者的標注工作量以及加快標注的速度,開發一個可視、可控的標注工具很有必要。雖然也有一些開源的標注工具,但語言特性、標注要求等方方面面的不同,這促使我們開發一個適合維吾爾語依存樹的標注工具。根據維吾爾語依存樹標注規范提及的相關要求及實際需求,我們設計了維吾爾語依存樹庫標注工具軟件應有的功能模塊: 可單獨/批量輸入、查重、帶箭頭的鏈接線來表示依存角色(箭頭表示支配詞,另一頭表示從屬詞)、不同顏色表示不同依存關系、以XML格式保存結果、重現已標注樹以便修改。最后我們以C#作為開發工具,實現了可在Windows平臺下工作的維吾爾語依存樹庫標注工具。圖3為此工具的截面圖一例,為節省篇幅此處省略了工具的工作流程及更多使用實例。

圖3 依存樹庫標注工具軟件
維吾爾語依存樹庫的構建過程與其他樹庫的構建過程一樣,首先確定語料的來源,然后標注者根據《維吾爾語依存樹庫標注手冊》予以相應培訓后進行人工標注。本文選定新疆維吾爾自治區中小學所使用的雙語教材“語文”(維吾爾文)中故事、新聞、事件類文本作為生語料。選擇中小學生課文的原因是其語言通俗、簡單、易懂、層次顯明、具有一定的普遍性。這使標注者能從中得出具有一定代表性的結構,以從簡單到復雜、從淺層到深層的原則做標注。
本文使用新疆大學新疆多語種信息技術重點實驗室開發的維吾爾語詞性標注器做了單詞的形態分解。根據前面的考慮,句子中每個詞應該按其詞干、詞尾的形式出現。但實際操作時本文受到了一些客觀條件的限制: (1)目前維吾爾語自動詞性標注器對詞尾的分解程度不夠理想(準確率達不到要求); (2)維吾爾語詞尾特別是動詞詞尾的分解上還存在一定的爭論;某個詞的詞性以詞干為主,不能對形態變化后的部分做標注(例如,bergen(給的)一詞是詞干“ber”(給,V.)和詞尾“-gen”結合而成。對它標注詞性時以詞干為主標為“V.”,忽略了添加“-gen”后變成了形動詞即具有形容詞的特點; (3)當句中每個單詞分解后,例如,“kitabliringlardiki =kitab+lar+inglar +diki”(在你們書中的), 句子的長度變得過長,特別是詞數比較多的長句中此情況變得尤為突出。分析實際情況,最后決定現階段采取對句中每個詞暫時不考慮形態,等條件成熟時再把這些細節信息加進來的方案。
目前構建的樹庫所包含的句數為3 456條,其中句子長度最長的為54(以空格作為自然分界符),最短的為2,句子平均長度為11.6。為了了解當前樹庫結構相關的信息,本文從以下三方面做了統計分析: (1)樹庫中不同依存關系之比; (2)依存距離及依存方向的計量分析; (3)詞性與依存關系之間的關系。
(1) 依存關系比例分析
統計得到目前樹庫所包含的依存關系總數是31 356個。其中,每一種依存關系及其所占的比例如圖4所示。(注: 為了處理標注時所遇到的疑難依存關系,我們增加了依存關系OTHER,所以圖中共顯示24種依存關系)。

圖4 依存關系比例圖
從比例圖可以看出,所占比例排在前面的5個依存關系依次為ATT、ADV、ROOT、SUBJ及OBJ。出現這種比例關系是合理的。因為,ROOT是依存樹的根節點。凡是依存樹肯定有一個ROOT關系,而ROOT的數量大于SUBJ的數量也能說明樹庫中存在沒有主語的句子,這又與維吾爾語作為主語可省略(pro-drop)語言的特性相吻合;同時,OBJ的數量少于前幾種關系也是可想而知。ATT與ADV的數量遠大于ROOT、SUBJ與OBJ。原因是某個句子中可以出現多個ATT及ADV,使得其數量增加。雖然,修飾關系在語義層面不像ROOT、SUBJ及OBJ一樣決定句子關鍵內容。但它進一步描述事物之間精細的關系,傳達更深、更廣的信息,是符合人類使用語言的特性。
圖4顯示關系COP和AUX的數量并不在少數,這兩種依存關系是由N-V和V-V型詞對構成。其中,第二個動詞在此處失去自己的語義,起助動詞的作用。維吾爾語中很多主動詞都可作為助動詞,應用非常靈活。這種靈活性往往也是確定其依存關系的難點。維吾爾語助動詞、輕動詞等也是目前維吾爾語語法研究中爭議最多的部分,語料中出現的數量之多又說明對其研究的緊迫性。
(2) 依存距離及依存方向的分析
本文對樹庫做了句法計量的分析,包括依存距離、依存方向等。雖目前樹庫規模及覆蓋面還很小,得出的結論還未具有代表性。但計量分析可以基本反映目前語料庫中句子結構、依存傾向等信息,也為以后相關研究提供可比的信息。
本文中依存距離(標示為Dsr)定義為支配詞與從屬詞之間的詞數,如式(1)所示。
Dsr=Indh-Indd
(1)
用式(1)來計算依存距離值,其中Indh表示支配詞的索引值,Indd表示從屬詞的索引值。根據支配詞出現在從屬詞之前(|Indh|<|Indd|)或之后(|Indh|>|Indd|),依存距離就有正負值,可用于表示依存方向。若支配詞出現在從屬詞之后,則Dsr得正值,定為正向依存,標示為Rel+;若支配詞出現在從屬詞之前,則Dsr得負值,定為反向依存,標示為Rel-;用依存距離的絕對值計算出一個句子的依存距離均值。同時,若樹庫中有n個句子,m個依存關系,則整個樹庫的依存距離如式(2)所示。
(2)
由式(2)得出,其中Ri為第i個依存關系。對依存樹庫做了以下若干項的統計,其計算結果如表3所示。

表3 依存樹庫的統計結果
表3中“Num、Avdis”指的是樹庫中依存關系總數及樹庫平均依存距離;“Rel+、Rel-”指的是不同方向依存所占百分比;“NBRel、NNBRel”分別指相鄰詞之間依存關系百分比和非相鄰詞之間依存關系百分比;“Averdis+、Averdis-”分別指不同方向依存關系的平均依存距離
從表3中可知,目前依存樹庫的平均依存距離Avdis、正向依存關系的平均依存距離Avdis+、反向依存關系平均依存距離Avdis-值分別為2.76、2.44、3.14,即維吾爾語依存樹中支配詞與從屬詞之間一般有1到2個詞;表中依存方向百分比值得注意及分析,其中Rel+的百分比為99%遠大于Rel-的百分比。雖然目前樹庫規模不足以對維吾爾語句子結構的傾向性下定義,但我們認為這么大比例的反差可以說明維吾爾語是支配詞傾向于靠后的語言,即: 一個句子中幾乎所有的詞都傾向依存于其后出現的詞。另外,維吾爾語句子結構屬于SOV型,我們認為Rel+數量如此之高不僅僅是由于謂語(謂詞)出現在句末的原因,它還說明句子中其他像名詞短語等語塊的依存關系也是傾向于后面。需要注意的是,維吾爾語依存樹庫標注規范中所規定的與后置詞、助動詞、系動詞等非內容詞(non-content word)構成的依存對中,這些詞標為支配詞,例如,oqup boldi (讀完了) 中,主要內容為 oqup (讀), boldi 為助動,但根據目前依存關系標注規范oqup標為從屬詞,boldi標為支配詞。從語言的流利度出發這種規定是可行的,但在標注過程中發現它的一些不合理性。與其他相關語言在處理這種情況的方式作比較后,我們決定應該對此加以修改。若這些依存關系的方向由原來的Rel+改為Rel-,顯然會增加Rel-的數量,但新增加的數量不足以改變Rel+與Rel-之間如此懸殊的差別,所以我們認為對維吾爾語句子依存傾向性的結論仍然成立。另外,相鄰依存關系(即相鄰兩個詞之間形成的依存關系)百分比大于非相鄰依存關系,但非相鄰依存關系的百分比也在40%左右,表示樹庫中不相鄰詞之間形成的依存關系不是少數。此數量是樹庫平均依存距離接近3的原因之一,同時說明“只采用相鄰同現來構建人類語言復雜網絡的方法可能是不恰當的”[10]。
目前的樹庫中我們還未發現交叉依存(即: wi→wn,wj→wm,其中i (3) 依存關系與詞性之間的關系 作此統計的意圖是試圖將依存關系描述為兩種詞性之間的關系,從而能否制定或列出某種依存關系的模板。下面的分析中使用了詞性二元組一詞,其意思是: 由構建當前依存關系的兩個詞詞性構成的二元組,結構為 此統計中本文還觀察了不同詞性二元組在不同依存關系中所占的比例即二元組在依存關系中的分布。比較后發現雖然在樹庫中總共出現112種不同詞性二元組,但很大部分二元組的出現頻率極低,而構成依存關系最活躍的詞性二元組主要集中到三種,分別為 圖5 不同詞性在依存關系中比例 與此同時,本文注意到了一些奇怪的現象。例如,構成ATT關系的詞性二元組中 圖6 詞性二元組與依存關系 可見,詞尾是加以區分依存關系非常重要的特征之一。若要用詞性二元組來描述依存關系即構造依存關系的模板在不考慮詞尾的情況下是不完整的。這再次強調了詞尾在依存關系中的重要性。但詞尾層次的完全分離導致的詞長度也是需要考慮的問題,特別是長句中此現象尤為突出。那么詞尾的分離用什么標準為合理呢?要每層分離還是選擇性的分離(只分離對依存關系起作用的詞尾)?若是,那么哪些詞尾對依存關系起至關重要的作用?這些都是我們需要進一步研究的問題。 本文闡述了維吾爾語依存樹庫的構建過程,包括維吾爾語依存粒度的確立、依存關系的制定、依存樹庫標注原則、數據庫存儲結構的制定及標注工具的設計與實現,最后對人工標注的3 000多條維語依存樹從三個方面做了統計,并對結果做了相應分析。目前以自動句法分析的方式擴大了樹庫,其規模達到了一萬多條依存樹,需進一步評價其準確率。同時,對上一節中所分析及留下的問題做進一步探討、找出適合于維吾爾語依存句法分析的方法以便快速擴建維吾爾語依存樹庫規模是我們下一步研究的重點。

3 總結與展望