999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的維語名詞研究理論框架

2015-10-23 02:11:16阿依克孜卡德爾開沙爾卡地爾
長春大學學報 2015年3期
關鍵詞:句法語言研究

阿依克孜·卡德爾,開沙爾·卡地爾

(新疆大學 a.人文學院;b.信息科學與工程學院,烏魯木齊 830046)

基于語料庫的維語名詞研究理論框架

阿依克孜·卡德爾a,開沙爾·卡地爾b

(新疆大學 a.人文學院;b.信息科學與工程學院,烏魯木齊 830046)

現代維吾爾語信息處理研究工作開展以來,已取得了一定的成果,但從另一個角度來看,忽視了信息技術研究成果在語言研究及教學領域中的有效利用。因此,先構建維吾爾語名詞語料庫,并在此基礎上對名詞的形態、句法、語義及語用特點進行量化分析,可以實現現代信息技術與語言研究的有機結合。

名詞;語料庫;維吾爾語

現代維吾爾語信息處理及語料庫研究,需要更多語言學知識的注入,而維吾爾語言本體的研究,也需要運用語言信息處理及語料庫研究的成果和新技術來提供更有說服力的數據和研究方法。著眼于這一趨勢,本文擬建構維吾爾語名詞語料庫,將計算機技術和語言本體研究合理地結合起來,研究維吾爾語名詞的基本理論框架。

1 本課題研究現狀

本課題的研究現狀和趨勢,可以從語言信息處理與語料庫研究以及維吾爾語名詞研究(即語言本體的研究)等兩個方面來分析。

1.1 維吾爾語信息處理及語料庫研究的現狀

現代維吾爾語信息處理研究工作,從20世紀80年代到今天的這一段時間內,基本上完成了文字處理階段的工作。目前,現代維吾爾文字的信息處理技術早已達到可使用階段。有關研究機構先后研發了一系列維、哈、柯、漢、英DOS多語種處理平臺,一系列Windows多文種和純維文處理平臺,以及Linux維文處理平臺。1989年,公布了GB2312-80信息處理交換用維吾爾文編碼圖形字符集[1];2004年,由清華大學與新疆大學合作研制成功的“維哈柯(漢英)阿(英)雙向印刷文檔識別系統”也通過了教育部組織的技術鑒定[2]。在維吾爾語料庫研究方面,有關研究機構各自建立了具有一定規模的維吾爾語料庫,在語料庫的加工,比如分詞(對于維吾爾語來說指的主要是詞干提取問題)與詞性標注,句法分析及其在其他領域的應用等方面,都展開了全面研究。其中新疆大學多文種信息處理重點實驗室與新疆經濟日報社、新疆日報社、新疆維吾爾自治區人民政府翻譯室等多家單位聯合建設中的維吾爾語語料庫,也具有了一定的規模,到2009年,其詞性標注語料庫XJU UPOS Corpus中已有36470個名詞詞條,已標出一定的詞性信息、附加成分信息、詞干等[3]。這些成果為維吾爾語料庫的建設和研究奠定了基礎。目前,本課題可運用的語料庫,有200萬詞級的現成維吾爾文語料庫,現成維吾爾文正字詞匯庫(電子版),面向政府文獻的維漢平行語料庫等①。

1.2 維吾爾語名詞的研究現狀

在綜述性研究方面,從20世紀60年代前蘇聯哈薩克斯坦科學院編寫的《現代維吾爾語》(1966),到八九十年代我國出版的有關維吾爾語語法的論著,比如圖爾地·阿合默德、安賽爾釘·木沙、乃斯如拉·由力布爾地等編著的《現代維吾爾語》(1985),哈米提·鐵木爾的《現代維吾爾語語法》(1987),陳世明、熱扎克等編著的《維吾爾語實用語法》(1991),程適良等編著的《現代維吾爾語語法》(1996)等,以及教材中涉及維吾爾語名詞的綜合論述,都對維吾爾語名詞的定義、分類、數、人稱、格等語法范疇及其在句法結構中的作用、構詞特點等方面,進行了綜合論述。

在專題研究方面,已有成果都是散見于各類期刊上的論文,主要涉及名詞的語法范疇,即名詞的數、人稱、格等形態變化系統。尤其是維吾爾語名詞的“格”問題,一直是學者們關注的熱點。最近,也有人運用現代語言學的研究方法,分析名詞的其他范疇和部分句法功能,但是,有關維吾爾語名詞專題研究的專著尚未問世[4]11,只是有一部分學位論文而已。

2 本課題研究的內容及方法

2.1 本課題研究的基本內容

2.1.1 維吾爾語名詞語料庫的構建

在電子詞典和大型語料庫的基礎上構建維吾爾語名詞語料庫,是本課題的關鍵。我們主要以《維吾爾語詳解詞典》(縮編本)[5]中的所有名詞作為初期語料來源,構建一個包括名詞的詞法、句法、語義信息的名詞語料庫。

2.1.2 維吾爾語名詞形態特點研究

名詞的形態特點包括構詞特點和構形特點。維吾爾語是粘著語,主要靠詞根上粘連詞綴的派生法來構詞。但是運用復合法構造的新詞也在大量涌現,本課題通過語料庫統計分析來驗證派生法和復合法在維吾爾語名詞的構成過程中所占的實際比例,從而揭示維語在名詞詞匯擴展途徑中表現出的語言特征。在構形方式方面,名詞有數、人稱、格等形態范疇,對此也通過語料庫統計分析來進行深入細致的量化分析,驗證維吾爾語的形態特征。

2.1.3 維吾爾語名詞句法特點研究

維吾爾語名詞的句法特點主要包括名詞的句法位置(名詞所充當的句法成分)和名詞被其他成分修飾等兩種情況。維吾爾語表示句法關系的主要手段是形態。在名詞充當句法成分的問題上,其形態格對句法成分的決定作用很大,大多數句法成分有形態標志。語序和虛詞的作用次于形態手段,但它們也是必不可少的。本課題通過語料庫統計分析來驗證這幾種手段的使用頻率和名詞所擔當的句法成分的比例。

2.1.4 維吾爾語名詞語義特點研究

維吾爾語名詞的語義特點主要可以從兩個方面來分析。一是語義結構中名詞所擔當的語義格(角色)及其在句法結構中的體現形式?!罢Z義格”的概念是由美國語言學家菲爾墨(Charles J.Fillmore)最先提出來的。他根據句中動詞與名詞的關系,將名詞或名詞性短語所擔當的語義角色分為若干個語義“格”[6]。二是語義結構中名詞的配價問題。配價的概念初期在語言學領域用于描述動詞與其他成分的搭配關系,后來擴展到描述名詞、形容詞等其他成分的搭配關系。這兩個方面的體現手段基本上是名詞的形態格和后置詞[4]131-141。本課題通過語料庫統計分析來驗證這一特點。

2.1.5 維吾爾語名詞語用特點研究

維吾爾語名詞在語用平面表現出的特點中凸現其語法特點的主要問題,包括名詞的有定和無定,篇章中的回指、話題化等[4]143-165。所謂的有定與無定,指的是在言語交際當中,發話人根據受話人特定的信息知曉度而對名詞性成分進行加工處理的特定方式[7]。維吾爾語作為無冠詞語言,其指示代詞是體現名詞有定性的有效手段。由于維吾爾語是形態發達的語言,因此還有名詞的格、人稱和動詞的態等其他一些手段也可以表示名詞的有定。在語句、語篇或話語里,語言使用者總要不止一次地提到特定的人物、事物或事件。某個成分引進語句、語篇或話語之后,如果需要再次提及它們,說話人有可能重復使用這個成分,也可能不再重復使用這個成分,而用另一個成分來指稱前一個成分,這一前一后兩個成分之間的關系我們稱為回指關系[8]。從維吾爾語名詞的回指情況來看,先行詞和回指詞在人稱上的相互一致的特點是回指關系的重要標志。關于話題化,朱德熙先生在《語法講義》中討論主語與謂語的關系時也曾指出:“說話人選來作主語的是他最感興趣的話題,謂語則是對于選定了的話題的陳述?!保?]在這一問題上,維吾爾語中賓語、定語、狀語等大部分句法成分都可以通過話題化充當句子的話題。本課題通過語料庫統計分析來歸納解釋維吾爾語名詞有定和無定、回指、話題化等語用特點的表現方式。

2.1.6 軟件的選擇

根據語料庫統計結果,在以上進行的細致分析的基礎上,擬立足于語言形態分類的理論高度,以統計數據為基礎,對維吾爾語名詞及其有關語法現象從一個比較新的角度給予總結,用Access數據庫來存儲名詞和它們的信息。Access是微軟公司推出的基于 Windows的桌面關系數據庫管理系統(RDBMS),是Office系列應用軟件之一。它具備表、查詢、窗體、報表、頁、宏、模塊7種用來建立數據庫系統的對象;可提供多種向導、生成器、模板,把數據存儲、數據查詢、界面設計、報表生成等操作規范化;為建立功能完善的數據庫管理系統提供方便,普通用戶不必編寫代碼,就可以完成大部分數據管理的任務。用Java編程語言可以開發一個能實現名詞詞干上附加詞尾和大型語料庫中進行名詞詞干提取等兩項任務的“維語名詞形態分析軟件”。 之所以選擇Java作為開發工具,因為Java是一種跨平臺開發語言,能開發出跨平臺的應用對象和應用程序。

2.2 本課題語料分析的基本方法

維吾爾語以詞形變化來確立句法關系,但語序和虛詞的運用有時也很重要,這種特性將在基于語料庫的具體研究中被驗證。本課題的語料庫分析過程是人機互助的動態分析過程。首先借助《維吾爾語詳解詞典》,建立名詞信息庫。該庫初步框架包括詞典所有名詞的詞義、意義分類、構詞方式等內容,可以按照表1形式來手工建構。

表1 名詞分類及構詞特征信息庫

然后將所有名詞與實際語料庫相匹配,統計實際語料庫中名詞的其他信息(包括本課題將研究的幾個方面的信息),從而獲取表2中幾個方面的數據。

表2 名詞語法信息擴充庫

在匹配過程中,盡量不斷擴充原有名詞信息庫,不斷完善名詞的相關信息,從而提高獲取數據的典型性和科學性。擴充語料將通過鍵盤輸入,用掃描儀和數碼照相機輸入后進行文字識別等途徑獲取。其語料思路如圖1所示:

圖1 語料分析思路

3 本課題應解決的主要難點

一方面,雖然維吾爾語信息處理及語料庫研究工作在文字處理(包括文字識別)、語料庫建設中的詞干提取、詞頻統計、詞性標注等方面已有了一定的成果,但是這些成果目前尚未真正運用到具體語言研究工作當中。也就是說,維吾爾語言研究尚未運用現代計算機技術,即語言信息處理及語料庫研究工作已獲得的成果,而本課題就試圖運用語料庫來量化研究名詞這一主要詞類的形態、句法、語義、語用等方面的特點及其相關的語法現象,使現代計算機技術服務于具體語言研究。這正是必須突破的一個難點。

另一方面,維吾爾語信息處理及語料庫研究工作起步比較晚,還處于初步階段。雖然在研究過程中也參考了部分語言學知識,但這遠遠不夠,語言信息處理及語料庫研究工作要求更多的語言學知識的注入。但這一方面的工作目前還沒得到全面重視。而本課題就試圖使語料庫服務于具體語言研究的同時,以語言研究的成果促進語言信息處理工作。這是本課題在研究過程中必須突破的另一個難點。

4 結語

綜上所述,本課題轉變語言研究的傳統描寫模式,用一種較新的方法來研究名詞,從而揭示維吾爾語作為交際工具的運行機制。借助大型語料庫并且在三個平面的語法觀的指導下,借鑒現代語言學的前沿理論和方法,從多方面對維吾爾語的名詞進行分析,根據從語料庫獲取的科學性較高的實際數據揭示維吾爾語語法特點,實現現代信息技術與語言研究的有機結合。

首先,研究過程中引進的新理論、新方法將促進維吾爾語言的理論研究。在本課題中借助的“三個平面的語法觀”“格語法”“配價理論”是現代語言學的前沿理論。更重要的是基于語料庫的分析方法對于維吾爾語來說,是比較新的研究方法。這些理論和研究方法的運用,有利于維吾爾語研究的進一步深化,這種研究注重語料選擇的廣泛性,注重定量分析,從而保證語料的典型性,分析結構的科學性,使靜態分析變成動態分析。因此,不僅可以促進維吾爾語語法研究的發展,還能促進維吾爾語語義、語用等方面的研究。

其次,從語言形態類型的高度去認識維吾爾語作為粘著語的本質特點,從而為豐富語言形態分類和句法特征分類的理論提供例證,同時又以豐富的實例證實形態分類和句法特征分類的局限性。這將為普通語言學、類型語言學的研究提供語言事實。

再次,本課題的研究成果可以運用于辭書編寫、語言規范化、第二語言教學、翻譯理論與實踐等領域,為這些領域的相關工作提供直接的理論依據和科學的統計數據。

最后,本課題的研究對維吾爾語語料庫的深入研究非常有益。通訊網絡技術和電子出版技術的迅速發展,對多渠道獲取語料提供了極大方便。然而語料庫并非是語言材料的任意堆積,而應該是經過專門加工,具備人們可以利用它各種統計、分析檢索、歸納性能的語料存儲庫。本課題作為語料庫在語言研究中具體運用的范例,將促進維吾爾語語料庫相關理論和技術的進一步完善,促進語料庫語言學的發展。

[1] 繆成.基于紅旗Linux的維、漢、英多語種操作系統的設計與實現[D].烏魯木齊:新疆大學,2004.

[2] 全球首款維哈柯(漢英)阿(英)雙向印刷文檔識別系統問世[J].中國經濟信息,2004(17):57.

[3] 早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構形詞綴有限狀態自動機的構造[J].中文信息學報,2009,23 (6):120.

[4] 阿依克孜·卡德爾.現代漢語與現代維吾爾語名詞對比研究[D].烏魯木齊:新疆大學,2006.

[5] 海木都拉·阿布都熱合曼,等.維吾爾語詳解詞典[M].縮編本.烏魯木齊:新疆人民出版社,2011.

[6] 菲爾墨C J.“格”辨[M].胡明揚,譯.北京:商務印書館,2002:32.

[7] 范曉,張豫峰,等.語法理論綱要[M].上海:上海譯文出版社, 2003:319.

[8] 徐赳赳.現代漢語篇章回指研究[M].北京:中國社會科學出版社,2003:1.

[9] 朱德熙.語法講義[M].北京:商務印書館,1982:96.

Study on Theoretical Framework of Uyghur Nouns Based on Corpus

Aykiz·KADIRa,Kaysar·KADIRb

(a.College of Humanities;b.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)

Since the produce of the modern Uyghur information processing research,certain achievements have been made.But looking from another perspective,the effective use of information technology research achievements in language research and teaching field is ignored.So,a Uyghur nouns corpus is built,and on this basis,a quantitative analysis on the morphological,syntactic,semantic and pragmatic characteristics of nouns is made,which can realize the combination of modern information technology and language studies.

noun;corpus;Uyghur

H215;H085.5

A

1009-3907(2015)03-0040-04

2014-07-24

國家社會科學基金項目青年基金(11CYY054);新疆多語種信息技術自治區級重點實驗室開放課題:商業供求信息雙語自動翻譯(無編號)

阿依克孜·卡德爾(1974-),女(維吾爾族),新疆烏魯木齊人,副教授,博士,主要從事語言教學、語言信息處理研究。

①由新疆多語種信息技術自治區級重點實驗室提供。

柳 克

猜你喜歡
句法語言研究
FMS與YBT相關性的實證研究
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
遼代千人邑研究述論
述謂結構與英語句法配置
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
讓語言描寫搖曳多姿
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
主站蜘蛛池模板: 爆操波多野结衣| 色网站免费在线观看| 国产91导航| 亚洲一区波多野结衣二区三区| 国产黄色视频综合| 国产精品伦视频观看免费| 老司国产精品视频91| 久久香蕉国产线看精品| 日日噜噜夜夜狠狠视频| 欧美精品v| 免费午夜无码18禁无码影院| 国产成人亚洲毛片| 国产福利大秀91| 日韩欧美中文字幕一本| 国产欧美中文字幕| 欧美精品亚洲精品日韩专区va| 国产又粗又爽视频| 亚洲综合婷婷激情| 国产午夜精品一区二区三| 日韩免费毛片视频| 亚洲三级影院| 色老二精品视频在线观看| 国产成熟女人性满足视频| 国产91丝袜在线播放动漫 | 成人a免费α片在线视频网站| 国产成人综合欧美精品久久| 国产精品部在线观看| 精品久久久久久中文字幕女| 亚洲美女一级毛片| 国产夜色视频| 四虎亚洲国产成人久久精品| 婷婷五月在线| 91视频99| 日本不卡在线视频| 国产色图在线观看| 亚洲欧洲一区二区三区| 亚洲第一成人在线| 高清无码不卡视频| 色精品视频| 久久午夜夜伦鲁鲁片不卡| 精品少妇人妻av无码久久| 亚洲精品高清视频| 2021国产乱人伦在线播放 | 国产日韩欧美在线视频免费观看| 成人一区专区在线观看| 被公侵犯人妻少妇一区二区三区| 亚洲免费毛片| 亚洲成年人网| 99re这里只有国产中文精品国产精品| 欧美日韩福利| 2021国产精品自产拍在线观看| 99尹人香蕉国产免费天天拍| 热思思久久免费视频| 免费无码又爽又刺激高| 在线国产毛片| 日韩天堂在线观看| 青青草一区| 永久天堂网Av| 国产成人av一区二区三区| 亚洲毛片一级带毛片基地| 色男人的天堂久久综合| 免费高清a毛片| 国产伦片中文免费观看| 欧美日本一区二区三区免费| 萌白酱国产一区二区| 免费一级毛片不卡在线播放| 精品国产一区91在线| 午夜精品福利影院| 欧美国产综合视频| 欧美在线伊人| 波多野结衣一区二区三区四区视频 | 老司机久久99久久精品播放| 精品少妇人妻av无码久久| 91精品综合| 老司国产精品视频| 天天综合网色| 国产综合亚洲欧洲区精品无码| 欧美三级视频在线播放| 在线看片国产| 囯产av无码片毛片一级| 国产成人AV大片大片在线播放 | 国产特一级毛片|