999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新的句法標(biāo)注模型探索

2007-04-29 00:00:00李良炎

摘 要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在。基于大規(guī)模標(biāo)注語料庫的語義處理已經(jīng)成為發(fā)展趨勢,語料標(biāo)注本質(zhì)上就是語言知識(包括語義)形式化。現(xiàn)有句法標(biāo)注模型主要包括基于短語結(jié)構(gòu)語法(PSG)和基于依存語法(DG)的句法標(biāo)注模型,還存在一些局限性。文章在現(xiàn)有句法標(biāo)注模型的基礎(chǔ)上結(jié)合認知語法(CG)的有關(guān)理論提出改進思路,以探索新的句法標(biāo)注模型。

關(guān)鍵詞:語料庫語言學(xué);語義處理;句法標(biāo)注模型

中圖分類號:H043 文獻標(biāo)志碼:A 文章編號:1008-5831(2007)03-0131-04

人類社會發(fā)展的基本軌跡是:原始社會—農(nóng)業(yè)社會—工業(yè)社會—信息社會。人工智能的目標(biāo)是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會的制高點。語言是人思維的物質(zhì)外殼,人不可能離開語言而具備真正屬于人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預(yù)見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分復(fù)雜,而基于現(xiàn)有計算機軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標(biāo)注模型,進行大規(guī)模的語義標(biāo)注,基于語料庫進行語義知識獲取和自然語言處理。

一、句法標(biāo)注模型

語言的復(fù)雜性在于語言與認識的關(guān)系。語言具有意義,而意義是入對主客觀世界的認識結(jié)果。主客觀世界的復(fù)雜性決定了意義的復(fù)雜性,進一步?jīng)Q定了語言的復(fù)雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認識活動,是人對語言的認識。由此可見,語言離不開認識。人對主客觀世界的認識可以如此描述:認識主體借助認識工具按照認識方法處理認識對象獲得認識結(jié)果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動,認識結(jié)果是這一活動的產(chǎn)物,被多種認識因素共同決定,任何一種認識因素的改變必然導(dǎo)致認識結(jié)果出現(xiàn)或大或小的差異。顯然,認識結(jié)果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀能動性。從這個意義上講。認識不可能也不應(yīng)該去被動地還原認識對象,而是從符合主體目的性出發(fā),力求簡單有效地描述和預(yù)測認識對象。借用模型的概念,認識結(jié)果就是認識對象的模型(model),認識就是建立認識對象的模型,簡稱建模(modeling)。這是一種實用主義認識觀。

模型一般分為心理模型(psychological model)、數(shù)學(xué)模型(mathematical model)和物理模型(physical model)。心理模型是認識對象在人認識中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認識對象在人認識中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認識對象的數(shù)學(xué)模型實現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識能力是有限的,表現(xiàn)在:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實用主義特點,建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進制數(shù)學(xué)模型成功實現(xiàn)為晶體管物理模型,并開發(fā)出越來越復(fù)雜和先進的計算機軟件和硬件,從而進入信息時代。20世紀(jì)以來一些主要或次要的語言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語言計算的語言理論。隨著計算機技術(shù)的飛速發(fā)展,人們對計算機自動或輔助處理語言信息的需求越來越大。但計算機的根本缺陷在于,凡是不能建立數(shù)學(xué)模型的信息都無法處理。傳統(tǒng)語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語言,稱為語言數(shù)學(xué)模型,簡稱語言模型(1anguage model)。統(tǒng)計語言模型(sta-tistical language model)就是一個成功的例子。但統(tǒng)計語言模型的性能取決于訓(xùn)練語料的規(guī)模和質(zhì)量。目前,由于語料的不斷積累和計算機技術(shù)的不斷進步,語料規(guī)模已不成問題,語料中包含語言知識的數(shù)量和質(zhì)量才是關(guān)鍵。

計算機的語言知識主要來源于人。將語料中包含的語言知識標(biāo)注出來,有助于計算機獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標(biāo)注(corpus tagging)。一般認為主要包括詞匯標(biāo)注(1exical tagging,分詞、詞結(jié)構(gòu)標(biāo)注、詞性標(biāo)注、詞義標(biāo)注等)、句法標(biāo)注(syntax tagging,語法樹標(biāo)注、語義樹標(biāo)注等)、語篇標(biāo)注(discourse tagging,語體標(biāo)注、領(lǐng)域標(biāo)注等)等內(nèi)容。經(jīng)過標(biāo)注的語料還可以用于語言學(xué)研究、語言教學(xué)、語言測試、詞典編撰等諸多理論研究和實踐應(yīng)用領(lǐng)域,越來越受到人們重視,并形成一門新興學(xué)科——語料庫語言學(xué)(corpus linguistics)。目前,相對句法標(biāo)注,詞匯標(biāo)注有更成熟的規(guī)范、準(zhǔn)確率更高的技術(shù)和更大的標(biāo)注規(guī)模。句法標(biāo)注的主要困難在于,沒有一個真正成熟的語法或語義標(biāo)注模型。句法結(jié)構(gòu)尤其是語義結(jié)構(gòu)很難統(tǒng)一描述,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一規(guī)范,標(biāo)注主觀性很大,自動標(biāo)注準(zhǔn)確率比較低。因此,句法標(biāo)注成了語料標(biāo)注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:如果有了大規(guī)模、高質(zhì)量的句法標(biāo)注語料庫,圍繞語料庫的各種研究和應(yīng)用有可能在現(xiàn)有基礎(chǔ)上產(chǎn)生質(zhì)的飛躍。因此,研究句法標(biāo)注模型應(yīng)是當(dāng)務(wù)之急。語料庫語言學(xué)屬于交叉學(xué)科,句法標(biāo)注模型是語料庫語言學(xué)的基礎(chǔ)理論,又與語言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語料庫語言學(xué)的角度研究句法,提出新的句法標(biāo)注模型。

二、現(xiàn)有句法標(biāo)注模型

句法標(biāo)注(Syntax Tagging,ST)以句子的語法知識和語義知識為標(biāo)注對象,是語料標(biāo)注的重點、難點所在,要以一定的語法理論為基礎(chǔ)。根據(jù)語法理論制定的句法標(biāo)注規(guī)則、過程和結(jié)果,稱為句法標(biāo)注模型(Syntax Tagging Model,STM)。短語結(jié)構(gòu)語法(PhraseStructure Grammar,PSG)和依存語法(DependencyGrammar,DG)是現(xiàn)有句法標(biāo)注的兩種基礎(chǔ)語法理論,彼此卻有很大的不同。基于PSG的句法標(biāo)注模型稱為短語結(jié)構(gòu)句法標(biāo)注模型(PSG—based Tagging Mod—el,PSGTM),基于DG的句法標(biāo)注模型稱為依存句法標(biāo)注模型(DG—based Tagging Model,DGTM)。根據(jù)現(xiàn)有語料標(biāo)注的實踐結(jié)果來看,PSGTM與DGTM都存在一定缺陷。

美國語言學(xué)家喬姆斯基(Noam Chomsky)于1957年出版專著《句法結(jié)構(gòu)》,從而奠定了短語結(jié)構(gòu)語法(PSG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG)、廣義短語結(jié)構(gòu)語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標(biāo)注基礎(chǔ)理論,為世界上眾多語料庫項目所采用和發(fā)展。法國語言學(xué)家特思尼耶爾(Lucien Tesnire)于1959年出版專著《結(jié)構(gòu)句法基礎(chǔ)》,從而奠定了依存語法(DG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如詞匯依存語法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重于語義,在CD、KD上表現(xiàn)得十分明顯。另外,DG更簡潔、直觀、經(jīng)濟,適應(yīng)性更強,因此反而有后來居上之勢,目前已經(jīng)成為世界上較為通用的句法標(biāo)注基礎(chǔ)理論。不過,在具體的句法標(biāo)注實踐中DGTM還是暴露出一些問題,“對一些沒有明確依存關(guān)系的成分,標(biāo)注起來則有些力不從心”,存在“依存失敗”現(xiàn)象,最突出的是難以標(biāo)注缺省結(jié)構(gòu)。缺省結(jié)構(gòu)一直是句法標(biāo)注中經(jīng)常出現(xiàn)而且很難解決的問題。

人類的自然語言符合經(jīng)濟性原則,而缺省結(jié)構(gòu)恰恰體現(xiàn)了這一原則。借助句子的前后上下文省略一些成分,人們?nèi)匀荒軌蚶斫猓珜τ嬎銠C來說卻是一種挑戰(zhàn)。句法標(biāo)注的根本目的是讓計算機能夠正確提取句子的語法和語義知識。缺省結(jié)構(gòu)在真實語料中大量出現(xiàn),常常使得原本正常的句法結(jié)構(gòu)變得異常,難以按已有規(guī)則進行標(biāo)注。這是任何句法標(biāo)模型都必須面對的問題,目前PSGTM和DGTM都還沒能夠很好地解決。以DGTM為例,在很多情況下,DGTM不但不能正確標(biāo)注缺省結(jié)構(gòu),反而在一些語言規(guī)則的強制限定下給出違背真實語法或語義結(jié)構(gòu)的標(biāo)注結(jié)果,形成干擾信息。請看以下4個句子:

句1:我看一下下書

句2:(真是好書啊?)我看一下

句3:我看一本書

句4:(好多書啊!)我看一本

句2是句1的賓語省略句,句4是句3的賓語省略句。(為簡便起見,把“一下”、“一本”作為一個詞處理)。

問題出在句4。句1和句3的依存結(jié)構(gòu)是不同的,然而句2和句4卻有了相同的依存結(jié)構(gòu)。因為句4省略了“書”,根據(jù)DG理論,“一本”必須依存于獨立謂語成分“看”。于是“看一本”和“看一下”依存結(jié)構(gòu)相同,實際上違反了句3的正確結(jié)構(gòu)。當(dāng)然,我們可以采取補救措施,為d1標(biāo)注一個特殊的依存關(guān)系屬性Cerror(即依存失敗),但這不是好辦法。

三、改進DGTM

美國認知語言學(xué)家蘭蓋克(Ronald w.Langach.er)分別于1987年、1991年出版專著《認知語法基礎(chǔ)》一、二卷,開創(chuàng)了認知語法(CG)理論,關(guān)于語法結(jié)構(gòu)有如下觀點:如果一個構(gòu)件A使另一構(gòu)件B的一部分抽象變?yōu)榫唧w,那么構(gòu)件A就叫做概念自主(coneep.tually autonomos)的構(gòu)件,構(gòu)件B就叫做概念依存(conceptually dependent)的構(gòu)件。

舉例來說:獨立地看,“一本”隱含一個抽象的、可數(shù)的、可用“本”量化的事物,可表示為“一本(x)”。“書”使“x”變得具體,因此“書”是概念自主的,“一本”是概念依存的。從信息表達的角度來看,“書”表達了相對完整而具體的信息,因此是概念自主的;“一本”表達了不完整不具體的信息,因此是概念依存的。從數(shù)學(xué)表達式的角度來看,“一本”類似函數(shù),“書”類似參數(shù),函數(shù)的地位顯然是第一位的,決定了對參數(shù)的處理過程和返回參數(shù)。例如,“舊書”與“一本書”的區(qū)別不在“書”,而在“舊”和“一本”。再從閱讀認知過程來看,當(dāng)人們讀到“一本”時,實際上已經(jīng)在期待“一本”后面那個具體事物跟著出現(xiàn)。為什么我們覺得“我看一本”是缺省句?因為“看”和“一本”相對“書”都是概念依存的,因此人們會判定,“我看一本”的缺省成分可能是“書”。而讀到“我看書”時,人們不會認為這是一個省略句,因為“書”表達的信息已經(jīng)自足了。

由此有足夠的理由認為:在句法結(jié)構(gòu)中,“一本”應(yīng)是“書”的父結(jié)點,而不是按傳統(tǒng)的補足中心原則,中心成分總是限定成分的父結(jié)點。依存成分是自主成分的父結(jié)點,這一原則可以稱為依存中心原則(Dependency Head Principle,DHP)。采取這種原則的DGTM必然會有不同的標(biāo)注結(jié)果。

深入研究發(fā)現(xiàn),僅僅采用DHP是不夠的,DGTM的其他參數(shù)也需要改變。例如,“看(x)”和“一本(x)”這兩個表達式在與其他詞語組合時是有區(qū)別的。“看(x)”與“我”組合時由“看”與“我”產(chǎn)生聯(lián)系。“看”與“一本(x)”組合時卻是“x”(書)與“看”發(fā)生聯(lián)系。代表表達式與其他詞語組合的成分稱為返回參數(shù),不同表達式的返回參數(shù)是不同的。例如。“一本(x)”返回參數(shù)為“x”,“看(x)”返回參數(shù)為“看”。正因為如此,表達式“看(一本(書))”成立,“一本(看(書))”不成立。另外,表達式“(x)一下”的返回參數(shù)為“x”,即“看”;表達式“(x)看”的返回參數(shù)為“看”。根據(jù)這些定義,句1、2、3、4的改進DGTM。

根據(jù)函數(shù)、輸入?yún)?shù)、返回參數(shù)的關(guān)系,各句結(jié)構(gòu)的逆構(gòu)造過程如下:

句1:我看一下書:(((我)看(x))一下)(書)=((看(x))一下)(書)=看(x)(書)=看(x=書)

句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)

句3:我看一本書:((我)看(x))(一本(書))=看(x)(書)=看(x=書)

句4:我看一本:(我)看(一本(x))=看(x)

句1和句3的x有明確取值,為完整句。句2和句4則是缺省句。基于看(x)和一本(x)的知識,可以預(yù)測并判定缺省結(jié)構(gòu)及其成分。

直觀看來,改進DGTM與原DGTM的標(biāo)注結(jié)果有了很大的差異由于不采用補足中心原則,因此改進DGTM標(biāo)注結(jié)果并不符合在補足中心原則影響下人們長期以來形成的語感。但更符合人們閱讀認知經(jīng)驗,而且可以按函數(shù)標(biāo)準(zhǔn)給出形式化地解釋,其解釋結(jié)果符合句子本身的語法和語義結(jié)構(gòu),沒有錯誤和干擾信息。因此,改進DGTM更適合計算機處理,更符合句法標(biāo)注的本來目的。

四、結(jié)語

PSGTM的語法理論基礎(chǔ)是PSG,DGTM的語法理論基礎(chǔ)是DG,改進DGTM的DHP受CG的啟發(fā),其語法理論基礎(chǔ)應(yīng)該是CG。但CG只是從理論上提出了“概念自主”和“概念依存”的概念,并沒有嚴(yán)格定義和證明依存成分與自主成分之間的主從關(guān)系。在CG的實際應(yīng)用中,存在有時自主成分為短語中心語,有時依存成分為短語中心語的情況。

根據(jù)CG理論,“above”是“above the table”的中心語。“l(fā)amp”是“l(fā)amp above the table”的中心語。然而,根據(jù)CG對概念自主和概念依存的界定,相對“ta-ble”和“l(fā)amp”,“above”是概念依存的,具有兩個抽象部分“(x)above(y)”,“l(fā)amp”使“x”具體化,“table”使“y”具體化。如果嚴(yán)格執(zhí)行DHP,“above the table”和“l(fā)amp above the table”的中心語都應(yīng)該是“above”。但這樣一來,怎樣解釋“move the lamp above the table”中“move”直接依存“l(fā)amp”的關(guān)系?根據(jù)改進DGTM,可以定義“(x)above(y)”的返回參數(shù)是“x”以解決這一問題,但CG不會這樣處理,而是將“l(fā)amp”限定為“l(fā)amp above the table”的中心語,從而與“move”直接聯(lián)系,這樣就不符合DHP的要求。

因此,改進DGTM的語法理論基礎(chǔ)不可能是CG,必須構(gòu)建一種新的語言模型。目前我們正融合哲學(xué)二元論與本體論、心理學(xué)、信息科學(xué)、網(wǎng)絡(luò)通信模型、離散數(shù)學(xué)、語言學(xué)(依存語法、認知語法、范疇語法)、藝術(shù)學(xué)等理論的相關(guān)概念和原理,結(jié)合人的一般認知經(jīng)驗,建立一種新的句法標(biāo)注模型,并初步用于經(jīng)典漢語句式的表征,取得了較好效果。

主站蜘蛛池模板: 精品国产99久久| 本亚洲精品网站| 日韩精品一区二区深田咏美| 毛片免费在线视频| 一本久道热中字伊人| 女人一级毛片| 国产亚洲高清在线精品99| 一本大道视频精品人妻 | 都市激情亚洲综合久久| 国产91丝袜在线观看| 欧美一级高清片欧美国产欧美| 九九热视频在线免费观看| 久久女人网| 国产精品亚欧美一区二区| 欧美午夜视频在线| 日本国产精品一区久久久| 国产69囗曝护士吞精在线视频| 亚洲第一精品福利| 538国产在线| 欧美专区在线观看| 久久香蕉国产线看精品| 国产乱码精品一区二区三区中文 | 日日碰狠狠添天天爽| 亚洲av成人无码网站在线观看| 色国产视频| 大学生久久香蕉国产线观看| 亚洲综合婷婷激情| 一区二区三区成人| 欧美一级视频免费| 国产日韩欧美一区二区三区在线 | 99国产在线视频| 久久精品国产一区二区小说| 六月婷婷综合| 最新国语自产精品视频在| 麻豆精品在线播放| 丰满人妻久久中文字幕| 好吊色妇女免费视频免费| 67194成是人免费无码| 天堂久久久久久中文字幕| 美女被狂躁www在线观看| 天天干伊人| 18禁高潮出水呻吟娇喘蜜芽| 91久久偷偷做嫩草影院精品| 亚洲人精品亚洲人成在线| 国产亚洲精久久久久久无码AV | 亚洲精品视频网| 波多野结衣爽到高潮漏水大喷| 操美女免费网站| swag国产精品| 国产一级毛片在线| 午夜视频www| 国产精品无码影视久久久久久久| 大陆精大陆国产国语精品1024| 欧美日本视频在线观看| 毛片网站在线播放| aⅴ免费在线观看| 国产成人精品日本亚洲| 亚洲男人的天堂久久香蕉网| 四虎永久在线精品国产免费| 亚洲精品成人7777在线观看| 国产小视频免费观看| 国产精品开放后亚洲| 国产精品熟女亚洲AV麻豆| 国产自在线播放| 国产乱子精品一区二区在线观看| 波多野结衣一区二区三区AV| 欧美一区福利| 三级欧美在线| 呦女精品网站| 成AV人片一区二区三区久久| 综合社区亚洲熟妇p| 日韩最新中文字幕| 亚洲精品在线观看91| 久久99精品国产麻豆宅宅| 精品人妻一区二区三区蜜桃AⅤ| 亚洲高清无码精品| 韩日午夜在线资源一区二区| 欧美日韩激情在线| 国产91色在线| 99久久精品无码专区免费| 国产成人亚洲日韩欧美电影| 92精品国产自产在线观看|