阿依克孜·卡德爾,開沙爾·卡地爾
(新疆大學 a.人文學院;b.信息科學與工程學院,烏魯木齊 830046)
基于語料庫的維語名詞研究理論框架
阿依克孜·卡德爾a,開沙爾·卡地爾b
(新疆大學 a.人文學院;b.信息科學與工程學院,烏魯木齊 830046)
現代維吾爾語信息處理研究工作開展以來,已取得了一定的成果,但從另一個角度來看,忽視了信息技術研究成果在語言研究及教學領域中的有效利用。因此,先構建維吾爾語名詞語料庫,并在此基礎上對名詞的形態、句法、語義及語用特點進行量化分析,可以實現現代信息技術與語言研究的有機結合。
名詞;語料庫;維吾爾語
現代維吾爾語信息處理及語料庫研究,需要更多語言學知識的注入,而維吾爾語言本體的研究,也需要運用語言信息處理及語料庫研究的成果和新技術來提供更有說服力的數據和研究方法。著眼于這一趨勢,本文擬建構維吾爾語名詞語料庫,將計算機技術和語言本體研究合理地結合起來,研究維吾爾語名詞的基本理論框架。
本課題的研究現狀和趨勢,可以從語言信息處理與語料庫研究以及維吾爾語名詞研究(即語言本體的研究)等兩個方面來分析。
1.1 維吾爾語信息處理及語料庫研究的現狀
現代維吾爾語信息處理研究工作,從20世紀80年代到今天的這一段時間內,基本上完成了文字處理階段的工作。目前,現代維吾爾文字的信息處理技術早已達到可使用階段。有關研究機構先后研發了一系列維、哈、柯、漢、英DOS多語種處理平臺,一系列Windows多文種和純維文處理平臺,以及Linux維文處理平臺。1989年,公布了GB2312-80信息處理交換用維吾爾文編碼圖形字符集[1];2004年,由清華大學與新疆大學合作研制成功的“維哈柯(漢英)阿(英)雙向印刷文檔識別系統”也通過了教育部組織的技術鑒定[2]。在維吾爾語料庫研究方面,有關研究機構各自建立了具有一定規模的維吾爾語料庫,在語料庫的加工,比如分詞(對于維吾爾語來說指的主要是詞干提取問題)與詞性標注,句法分析及其在其他領域的應用等方面,都展開了全面研究。其中新疆大學多文種信息處理重點實驗室與新疆經濟日報社、新疆日報社、新疆維吾爾自治區人民政府翻譯室等多家單位聯合建設中的維吾爾語語料庫,也具有了一定的規模,到2009年,其詞性標注語料庫XJU UPOS Corpus中已有36470個名詞詞條,已標出一定的詞性信息、附加成分信息、詞干等[3]。這些成果為維吾爾語料庫的建設和研究奠定了基礎。目前,本課題可運用的語料庫,有200萬詞級的現成維吾爾文語料庫,現成維吾爾文正字詞匯庫(電子版),面向政府文獻的維漢平行語料庫等①。
1.2 維吾爾語名詞的研究現狀
在綜述性研究方面,從20世紀60年代前蘇聯哈薩克斯坦科學院編寫的《現代維吾爾語》(1966),到八九十年代我國出版的有關維吾爾語語法的論著,比如圖爾地·阿合默德、安賽爾釘·木沙、乃斯如拉·由力布爾地等編著的《現代維吾爾語》(1985),哈米提·鐵木爾的《現代維吾爾語語法》(1987),陳世明、熱扎克等編著的《維吾爾語實用語法》(1991),程適良等編著的《現代維吾爾語語法》(1996)等,以及教材中涉及維吾爾語名詞的綜合論述,都對維吾爾語名詞的定義、分類、數、人稱、格等語法范疇及其在句法結構中的作用、構詞特點等方面,進行了綜合論述。
在專題研究方面,已有成果都是散見于各類期刊上的論文,主要涉及名詞的語法范疇,即名詞的數、人稱、格等形態變化系統。尤其是維吾爾語名詞的“格”問題,一直是學者們關注的熱點。最近,也有人運用現代語言學的研究方法,分析名詞的其他范疇和部分句法功能,但是,有關維吾爾語名詞專題研究的專著尚未問世[4]11,只是有一部分學位論文而已。
2.1 本課題研究的基本內容
2.1.1 維吾爾語名詞語料庫的構建
在電子詞典和大型語料庫的基礎上構建維吾爾語名詞語料庫,是本課題的關鍵。我們主要以《維吾爾語詳解詞典》(縮編本)[5]中的所有名詞作為初期語料來源,構建一個包括名詞的詞法、句法、語義信息的名詞語料庫。
2.1.2 維吾爾語名詞形態特點研究
名詞的形態特點包括構詞特點和構形特點。維吾爾語是粘著語,主要靠詞根上粘連詞綴的派生法來構詞。但是運用復合法構造的新詞也在大量涌現,本課題通過語料庫統計分析來驗證派生法和復合法在維吾爾語名詞的構成過程中所占的實際比例,從而揭示維語在名詞詞匯擴展途徑中表現出的語言特征。在構形方式方面,名詞有數、人稱、格等形態范疇,對此也通過語料庫統計分析來進行深入細致的量化分析,驗證維吾爾語的形態特征。
2.1.3 維吾爾語名詞句法特點研究
維吾爾語名詞的句法特點主要包括名詞的句法位置(名詞所充當的句法成分)和名詞被其他成分修飾等兩種情況。維吾爾語表示句法關系的主要手段是形態。在名詞充當句法成分的問題上,其形態格對句法成分的決定作用很大,大多數句法成分有形態標志。語序和虛詞的作用次于形態手段,但它們也是必不可少的。本課題通過語料庫統計分析來驗證這幾種手段的使用頻率和名詞所擔當的句法成分的比例。
2.1.4 維吾爾語名詞語義特點研究
維吾爾語名詞的語義特點主要可以從兩個方面來分析。一是語義結構中名詞所擔當的語義格(角色)及其在句法結構中的體現形式?!罢Z義格”的概念是由美國語言學家菲爾墨(Charles J.Fillmore)最先提出來的。他根據句中動詞與名詞的關系,將名詞或名詞性短語所擔當的語義角色分為若干個語義“格”[6]。二是語義結構中名詞的配價問題。配價的概念初期在語言學領域用于描述動詞與其他成分的搭配關系,后來擴展到描述名詞、形容詞等其他成分的搭配關系。這兩個方面的體現手段基本上是名詞的形態格和后置詞[4]131-141。本課題通過語料庫統計分析來驗證這一特點。
2.1.5 維吾爾語名詞語用特點研究
維吾爾語名詞在語用平面表現出的特點中凸現其語法特點的主要問題,包括名詞的有定和無定,篇章中的回指、話題化等[4]143-165。所謂的有定與無定,指的是在言語交際當中,發話人根據受話人特定的信息知曉度而對名詞性成分進行加工處理的特定方式[7]。維吾爾語作為無冠詞語言,其指示代詞是體現名詞有定性的有效手段。由于維吾爾語是形態發達的語言,因此還有名詞的格、人稱和動詞的態等其他一些手段也可以表示名詞的有定。在語句、語篇或話語里,語言使用者總要不止一次地提到特定的人物、事物或事件。某個成分引進語句、語篇或話語之后,如果需要再次提及它們,說話人有可能重復使用這個成分,也可能不再重復使用這個成分,而用另一個成分來指稱前一個成分,這一前一后兩個成分之間的關系我們稱為回指關系[8]。從維吾爾語名詞的回指情況來看,先行詞和回指詞在人稱上的相互一致的特點是回指關系的重要標志。關于話題化,朱德熙先生在《語法講義》中討論主語與謂語的關系時也曾指出:“說話人選來作主語的是他最感興趣的話題,謂語則是對于選定了的話題的陳述?!保?]在這一問題上,維吾爾語中賓語、定語、狀語等大部分句法成分都可以通過話題化充當句子的話題。本課題通過語料庫統計分析來歸納解釋維吾爾語名詞有定和無定、回指、話題化等語用特點的表現方式。
2.1.6 軟件的選擇
根據語料庫統計結果,在以上進行的細致分析的基礎上,擬立足于語言形態分類的理論高度,以統計數據為基礎,對維吾爾語名詞及其有關語法現象從一個比較新的角度給予總結,用Access數據庫來存儲名詞和它們的信息。Access是微軟公司推出的基于 Windows的桌面關系數據庫管理系統(RDBMS),是Office系列應用軟件之一。它具備表、查詢、窗體、報表、頁、宏、模塊7種用來建立數據庫系統的對象;可提供多種向導、生成器、模板,把數據存儲、數據查詢、界面設計、報表生成等操作規范化;為建立功能完善的數據庫管理系統提供方便,普通用戶不必編寫代碼,就可以完成大部分數據管理的任務。用Java編程語言可以開發一個能實現名詞詞干上附加詞尾和大型語料庫中進行名詞詞干提取等兩項任務的“維語名詞形態分析軟件”。 之所以選擇Java作為開發工具,因為Java是一種跨平臺開發語言,能開發出跨平臺的應用對象和應用程序。
2.2 本課題語料分析的基本方法
維吾爾語以詞形變化來確立句法關系,但語序和虛詞的運用有時也很重要,這種特性將在基于語料庫的具體研究中被驗證。本課題的語料庫分析過程是人機互助的動態分析過程。首先借助《維吾爾語詳解詞典》,建立名詞信息庫。該庫初步框架包括詞典所有名詞的詞義、意義分類、構詞方式等內容,可以按照表1形式來手工建構。

表1 名詞分類及構詞特征信息庫
然后將所有名詞與實際語料庫相匹配,統計實際語料庫中名詞的其他信息(包括本課題將研究的幾個方面的信息),從而獲取表2中幾個方面的數據。

表2 名詞語法信息擴充庫
在匹配過程中,盡量不斷擴充原有名詞信息庫,不斷完善名詞的相關信息,從而提高獲取數據的典型性和科學性。擴充語料將通過鍵盤輸入,用掃描儀和數碼照相機輸入后進行文字識別等途徑獲取。其語料思路如圖1所示:

圖1 語料分析思路
一方面,雖然維吾爾語信息處理及語料庫研究工作在文字處理(包括文字識別)、語料庫建設中的詞干提取、詞頻統計、詞性標注等方面已有了一定的成果,但是這些成果目前尚未真正運用到具體語言研究工作當中。也就是說,維吾爾語言研究尚未運用現代計算機技術,即語言信息處理及語料庫研究工作已獲得的成果,而本課題就試圖運用語料庫來量化研究名詞這一主要詞類的形態、句法、語義、語用等方面的特點及其相關的語法現象,使現代計算機技術服務于具體語言研究。這正是必須突破的一個難點。
另一方面,維吾爾語信息處理及語料庫研究工作起步比較晚,還處于初步階段。雖然在研究過程中也參考了部分語言學知識,但這遠遠不夠,語言信息處理及語料庫研究工作要求更多的語言學知識的注入。但這一方面的工作目前還沒得到全面重視。而本課題就試圖使語料庫服務于具體語言研究的同時,以語言研究的成果促進語言信息處理工作。這是本課題在研究過程中必須突破的另一個難點。
綜上所述,本課題轉變語言研究的傳統描寫模式,用一種較新的方法來研究名詞,從而揭示維吾爾語作為交際工具的運行機制。借助大型語料庫并且在三個平面的語法觀的指導下,借鑒現代語言學的前沿理論和方法,從多方面對維吾爾語的名詞進行分析,根據從語料庫獲取的科學性較高的實際數據揭示維吾爾語語法特點,實現現代信息技術與語言研究的有機結合。
首先,研究過程中引進的新理論、新方法將促進維吾爾語言的理論研究。在本課題中借助的“三個平面的語法觀”“格語法”“配價理論”是現代語言學的前沿理論。更重要的是基于語料庫的分析方法對于維吾爾語來說,是比較新的研究方法。這些理論和研究方法的運用,有利于維吾爾語研究的進一步深化,這種研究注重語料選擇的廣泛性,注重定量分析,從而保證語料的典型性,分析結構的科學性,使靜態分析變成動態分析。因此,不僅可以促進維吾爾語語法研究的發展,還能促進維吾爾語語義、語用等方面的研究。
其次,從語言形態類型的高度去認識維吾爾語作為粘著語的本質特點,從而為豐富語言形態分類和句法特征分類的理論提供例證,同時又以豐富的實例證實形態分類和句法特征分類的局限性。這將為普通語言學、類型語言學的研究提供語言事實。
再次,本課題的研究成果可以運用于辭書編寫、語言規范化、第二語言教學、翻譯理論與實踐等領域,為這些領域的相關工作提供直接的理論依據和科學的統計數據。
最后,本課題的研究對維吾爾語語料庫的深入研究非常有益。通訊網絡技術和電子出版技術的迅速發展,對多渠道獲取語料提供了極大方便。然而語料庫并非是語言材料的任意堆積,而應該是經過專門加工,具備人們可以利用它各種統計、分析檢索、歸納性能的語料存儲庫。本課題作為語料庫在語言研究中具體運用的范例,將促進維吾爾語語料庫相關理論和技術的進一步完善,促進語料庫語言學的發展。
[1] 繆成.基于紅旗Linux的維、漢、英多語種操作系統的設計與實現[D].烏魯木齊:新疆大學,2004.
[2] 全球首款維哈柯(漢英)阿(英)雙向印刷文檔識別系統問世[J].中國經濟信息,2004(17):57.
[3] 早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構形詞綴有限狀態自動機的構造[J].中文信息學報,2009,23 (6):120.
[4] 阿依克孜·卡德爾.現代漢語與現代維吾爾語名詞對比研究[D].烏魯木齊:新疆大學,2006.
[5] 海木都拉·阿布都熱合曼,等.維吾爾語詳解詞典[M].縮編本.烏魯木齊:新疆人民出版社,2011.
[6] 菲爾墨C J.“格”辨[M].胡明揚,譯.北京:商務印書館,2002:32.
[7] 范曉,張豫峰,等.語法理論綱要[M].上海:上海譯文出版社, 2003:319.
[8] 徐赳赳.現代漢語篇章回指研究[M].北京:中國社會科學出版社,2003:1.
[9] 朱德熙.語法講義[M].北京:商務印書館,1982:96.
Study on Theoretical Framework of Uyghur Nouns Based on Corpus
Aykiz·KADIRa,Kaysar·KADIRb
(a.College of Humanities;b.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)
Since the produce of the modern Uyghur information processing research,certain achievements have been made.But looking from another perspective,the effective use of information technology research achievements in language research and teaching field is ignored.So,a Uyghur nouns corpus is built,and on this basis,a quantitative analysis on the morphological,syntactic,semantic and pragmatic characteristics of nouns is made,which can realize the combination of modern information technology and language studies.
noun;corpus;Uyghur
H215;H085.5
A
1009-3907(2015)03-0040-04
2014-07-24
國家社會科學基金項目青年基金(11CYY054);新疆多語種信息技術自治區級重點實驗室開放課題:商業供求信息雙語自動翻譯(無編號)
阿依克孜·卡德爾(1974-),女(維吾爾族),新疆烏魯木齊人,副教授,博士,主要從事語言教學、語言信息處理研究。
①由新疆多語種信息技術自治區級重點實驗室提供。
柳 克