999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

R.Hausser的左結合語法

2014-10-24 01:18:47馮志偉
外語學刊 2014年2期
關鍵詞:單詞語言模型

馮志偉

(杭州師范大學,杭州 310036)

●語言學

〇引進與詮釋

R.Hausser的左結合語法

馮志偉

(杭州師范大學,杭州 310036)

本文在“語表組合線性內部匹配”理論和“數據庫語義學”基礎上,介紹Roland Hausser的“左結合語法”。 這種獨具特色的形式語法,對于自然語言的自動分析和自動生成具有重要的指導意義。

語表組合線性內部匹配;數據庫語義學;左結合語法

采用計算機技術來研究和處理自然語言是20世紀 40 年代末期和50年代才開始的。50多年來,這項研究取得長足的進展,成為當代語言學中一個重要的新興分支——自然語言處理(Natural Language Processing,簡稱NLP)。在信息網絡時代,自然語言處理引起包括計算機專家和語言學家在內的越來越多的學者的重視,成為文科和理科緊密結合的一門典型交叉學科(Manaris 1999)。

由于現實的自然語言極為復雜,不可能直接作為計算機的處理對象,為了使現實的自然語言成為可以由計算機直接處理的對象,在眾多的應用領域中,我們需要根據處理的要求,把自然語言抽象處理為一個“問題”(problem),再把這個問題在語言學上加以“形式化”(formalism),建立語言的“形式模型”(formal model),使之能以一定的數學形式,嚴密而規整地表示出來,并且把這種嚴密而規整的數學形式表示為“算法”(algorithm),建立自然語言處理的“計算模型”(computational model),使之能夠在計算機上實現。在自然語言處理中,算法取決于形式模型,形式模型是自然語言計算機處理的本質,而算法只不過是實現形式模型的手段而已。這種建立語言形式模型的研究是非常重要的,它應當屬于自然語言處理的基礎理論研究。(馮志偉 2010)

由于自然語言處理的復雜性,這樣的形式模型的研究往往是一個“強不適定問題”(strongly ill-posed problem),也就是說,在用形式模型建立算法來求解自然語言處理的問題時,往往難以滿足問題解的“存在性”、“唯一性”和“穩定性”這3條最基本的要求,有時是不能滿足其中的一條,有時甚至3條都不能滿足。因此,對于這樣的強不適定性問題求解,應當加入適當的“約束條件”(constraint conditions),使問題的一部分在一定的范圍內變成“適定問題”(well-posed problem),從而順利地求解這個問題,建立自然語言處理的形式模型,以達到自然語言處理的目標。(張鈸 2007:3-7)

我們在本文中介紹的“左結合語法”(Left-Associative Grammar,簡稱LA)就是一種獨具特色的自然語言處理的形式模型。

左結合語法的創始人Roland Hausser是德國愛爾蘭根-紐倫堡大學計算語言學教授。他先后出版了《表面組成語法》、《自然人機交流》、《計算語言學基礎-人機自然語言交流》和《自然語言交流的計算機模型》等多部專著,發表文章近百篇。近年來,Hausser進一步提出了“數據庫語義學”(Database Semantics,簡稱DBS)和完整的“語表組合線性內部匹配”理論(Surface Compositional Li-near Internal Matching,簡稱SLIM),創立了左結合語法,在計算語言學界形成了他自己獨特的風格。

我與Hausser曾有一面之交。2002年聯合國教科文組織(UNESCO)韓國委員會在韓國首爾舉行了一次關于“信息時代的語言問題”的學術研討會,我和Hausser都被邀請參加了這次會議,在會議期間的交談中,我對于Hausser獨特的理論有了初步的了解,回國之后,我又細讀了他的《計算語言學基礎-人機自然語言交流》一書,對于他的理論又有了進一步的認識。我認為Hausser是一位具有獨創精神的計算語言學家。

2006年,Hausser又出版了《自然語言交流的計算機模型-數據庫語義學下的語言理解、推理和生成》一書(Hausse 2006)。在這本書中,他系統地分析了自然語言的主要結構,以英語為例,分析了聽話人模式(hearer mode)和說話人模式(speaker mode)下的示意推導。聽話人模式下的分析主要討論了如何嚴格按照時間線性順序將函詞-論元結構(hypotaxis)和并列結構(parataxis)編碼為命題因子,并把共指(coreference)作為推理基礎上的二級關系來分析。說話者模式下的分析主要討論如何在詞庫內進行以提取內容為基礎的自動導航,如何按照相應語言的語法要求輸出正確的詞形和語序,如何析出適當的功能詞,等等。在這本重要的著作中,Hausser構建了一個功能完整但覆蓋面有限的英語交流體系,為我們提供了一個對自然語言交流進行理論分析的功能框架。

Hausser認為,面向未來的計算語言學的中心任務就是研究一種人類可以用自己的語言與計算機進行自由交流的認知機器。因此,自然語言的人機交流應當是計算語言學的中心任務。計算語言學研究應當通過對說話人的語言生成過程與聽話人解釋語言的過程進行建模,在適宜的計算機上復制信息的自然傳遞過程,從而構建一種可與人用自然語言自由交流的自治的認知機器,這樣的認知機器也就是機器人(robot)。為了實現這一目標,我們必須對于自然語言交流機制的功能模型有深刻的理解。

Hausser提出的“語表組合線性內部匹配”理論以人作為人機交流的主體,而不是以語言符號為主體,突出了人在人機交流中的主導作用,SLIM理論要求通過完全顯化的機械步驟,使用邏輯和電子的方式來解釋自然語言理解和自然語言的生成過程。因此, SLIM理論與現代語言學中的結構主義、行為主義和言語行為等理論是不同的,具有明顯的創新特色。

SLIM理論強調“表層成分”(Surface),以語表組合性作為它的方法論原則;SLIM理論強調“線性”(Linear),以時間線性作為它的實證原則;SLIM理論強調語言的“內部因素”(Internal),以語言的內部因素作為它的本體論原則;SLIM理論強調“匹配”(Matching),以語言和語境信息之間的匹配作為它的功能原則。事實上,SLIM這個名字本身就來自于“表層成分”、“線性”、“內部因素”和“匹配”這4項原則的英文名稱的首字母縮寫。

SLIM理論的技術實現手段叫做“數據庫語義學”(DBS)。DBS是把自然語言理解和生成重新建構為“角色轉換”(turn-taking)的規則體系。角色轉換指的是從“說話人模式”向“聽話人模式”的轉換,或者從“聽話人模式”向“說話人模式”的轉換。

在自然語言的實際交流過程中,第1個過程是聽話人模式中的自然主體從另一個主體或者語境獲得信息,第2個過程是自然主體在自己的認知當中分析信息,第3個過程是自然主體思考如何作出反應,第4個過程是自然主體用語言或者行動做出反饋。

DBS的輸入與第1個過程相似,要求計算機或者機器人具備外部界面。接下來匹配語境和認知的內容,采用左結合語法(LA)來模擬第2個過程,這個左結合語法是處于聽話人模式中的,叫做LA-hear。左結合語法的第二個變體負責在內存詞庫中搜索合適的內容,叫做LA-think,這一部分操作對應于第3個過程。左結合語法的第三個變體的任務是語言生成,叫做LA-speak,模擬第4個過程。如圖1所示:

圖1 角色轉換體系

在圖1中,聽話人模式的LA-hear模擬第2個過程,說話人模式的LA-think模擬第3個過程,LA-speak模擬第4個過程。

DBS的分析結果用DBS圖(DBS graph)來表示。DBS圖是一種樹結構,但是,DBS圖的樹結構與短語結構語法和依存語法的樹結構有所不同。例如,英語的句子The little girl slept(那個小女孩睡著了) 用短語結構語法分析后的樹結構如下:

圖2 短語結構樹

在這個短語結構語法的樹結構中,S(句子)由NP(名詞短語)和VP(動詞短語)組成,NP由DET(限定詞),ADJ(形容詞)和N(名詞)組成,它們分別對應于單詞the, little和girl,VP對應于單詞slept. 句子的層次和單詞之間的前后線性關系都是很清楚的,但是,在組成S的NP和VP之間,沒有說明哪一個是中心詞,在組成NP的DET, ADJ和N之間,也沒有說明哪一個是中心詞,句子中各個成分的中心不突出。

用依存語法分析后的樹結構如下:

圖3 依存結構樹

在這個依存語法的樹結構中,全部結點都是具體的單詞,沒有S, NP, VP, DET, ADJ和N等表示范疇的結點,各個單詞之間的依存關系清楚,這種依存關系是二元關系,支配者是中心詞,被支配者的從屬詞。但是,單詞之間的前后線性順序不如短語結構語法的樹結構那樣明確。

用DBS圖分析后的樹結構如圖4所示:

圖4 DBS圖的樹結構

在DBS圖的樹結構中,著重對語言內容進行分析,因此,沒有表示定冠詞 the 的結點,結點上的單詞都用原型詞表示。DBS圖最突出的特色在于,DBS圖樹結構的結點之間的連線各自有其明確的含義,連線不僅表示結點之間的依存關系,還可以根據連線走向的不同來表示不同的功能:垂直豎線“|” 表示修飾-被修飾關系,例如,圖4中little與girl用垂直豎線相連,表示little修飾girl;左斜線 “/” 代表主語-動詞關系,例如,圖4中girl與sleep用左斜線相連,表示girl是sleep的主語。此外,DBS圖樹結構還使用右斜線 “” 表示賓語-動詞關系,使用水平線 “-”表示并列關系。由于連線走向的不同可以表示不同的功能,這樣的樹結構表示的信息比短語結構語法的樹結構和依存語法的樹結構豐富多了。這是DBS圖樹結構最引人矚目的特點。

上面的DBS圖中表示了little做girl的修飾語,girl做sleep的主語,表達的是句子中單詞之間的語義關系,所以,Hausser把這樣的DBS圖叫做“語義關系圖”(the semantic relations graph,簡稱SRG)。

如果把DBS圖中每個結點上的單詞替換為代表其詞性的字母,那么,語義關系圖就變成了“詞性關系圖”(the part of speech signature,或者簡寫為signature)。上一例句的詞性關系圖如圖5所示:

圖5 詞性關系圖

語義關系圖和詞性關系圖是同一句子內容的不同表示,它們表示的內容相同,表示的形式不同。

Hausser在2011年的新書中還提出了另外兩個圖:一個是“編號弧圖”(the numbered arcs graph,簡稱NAG), 一個是“語表實現圖”(the surface realization)。這兩個圖分別表現如何從內容生成語言的過程和結果。編號弧圖表示激活語義關系圖的時間線性順序,也就是說,編號弧圖在某種程度上可以說是添加了編號弧的語義關系圖。語表實現圖表示如何按照遍歷順序生成語言的表層形式。

例如,英語句子“The little girl ate an apple”(這個女孩吃了一個蘋果)的語義關系圖(SRG)如圖6所示:

圖6 語義關系圖

由于語義關系圖(SRG)只表示句子的內容,所以,在這個SRG中,沒有表示定冠詞the的結點,也沒有表示不定冠詞an的結點,過去時形式ate用不定式動詞eat來表示。

這個句子的詞性關系圖(signature)如圖7所示:

圖7 詞性關系圖

在這個詞性關系圖中,結點上的單詞都替換表示其詞性的字母。

這個句子的編號弧圖(NAG)如圖8所示:

圖8 編號弧圖

由于編號弧圖要表示激活語義關系圖的時間線性順序,這種時間順序用編號弧表示,編號弧用虛線標出,并在虛線旁邊用數字注上時間的線性順序:結點eat首先激活的結點girl(編號弧1);接著,結點girl激活結點little(編號弧2),由于它們之間用垂直豎線“|”相連,因此,可推導出little修飾girl(編號弧3);由于結點girl與結點eat之間用左斜線 “/”相連,因此,可推導出girl是eat的主語(編號弧4);然后,結點eat激活結點apple(編號弧5),由于結點apple與結點eat之間用右斜線 “”相連,因此,可推導出apple是eat的賓語(編號弧6)。可以看出,所有表示推導的編號弧的方向都是自底向上的。

這個句子的語表實現圖如圖9所示:

圖9 語表實現圖

圖9中的數字表示單詞生成的順序。

數據庫語義學(DBS)有兩個基礎:一個是左結合語法(LA-grammar),一個是單詞數據庫(word bank)。左結合語法和單詞數據庫在DBS中緊密結合在一起。Hausser把左結合語法比作火車頭,把單詞數據庫比作火車運行必需的鐵路系統。

單詞數據庫存儲單詞的內容,其存儲形式是一種非遞歸的特征結構,叫做“命題因子”(proplets)。英文 “proplet” 取自 “proposition droplet”,表示命題的構成部分。

一個命題因子是“屬性-值偶對”的集合。每個單詞或者句子元素的句法語義信息都體現為相應的屬性-值矩陣。例如,漢語“學生”這個單詞的屬性-值矩陣如圖10所示:

圖10 屬性-值矩陣

這樣的屬性-值矩陣就是單詞數據庫的“命題因子”。

左結合語法是按照自然語言的時間線性順序自左向右結合進行分析與計算的方法。

具體來講,每個句子的第一個詞為整句分析過程中的第一個“句子起始部分”(sentence start),之后輸入下“一個詞”(next word),二者經過計算構成新的句子起始部分,再繼續與下一個輸入的單詞進行組合計算。這樣不斷地進行分析,直到句子結束或者出現語法錯誤才終止。當出現句法歧義或者詞匯歧義時,左結合語法允許按照不同的推導路徑并行地繼續運算。

Hausser將左結合語法與短語結構語法進行了對比分析。他指出,左結合語法與短語結構語法是同質的語言分析方法。它們之間的差異在于:短語結構語法依據的是“替換原則”(the principle of substitution),而左結合語法依據的則是“可接續性原則”(the principle of continuation)。如果以“a, b, c…” 來代表語言符號,以“+” 代表串連符,那么,左結合語法的計算過程可以表示如圖11:

圖11 左結合語法的計算過程

左結合語法在進行推導時,總是按照自左向右和自底向上的順序,沿著樹結構的左側,一步一步地把單詞逐一地結合起來的。樹結構中的推導順序如圖12所示:

圖12 樹結構中的推導順序

例如,英語句子“Every girl drunk water”(每一個女孩都喝了水)的推導順序如圖13所示:

圖13 推導順序示例

從這個樹結構中可以看出,推導從左側開始,首先把every與girl結合起來,形成(np),然后把(np)與drank結合起來,形成(np’v),最后把(np’v)與(sn)結合起來,形成(v)。

整個推導過程遵循時間線性(time linearity)的原則。所謂“時間線性”,就是“以時間為序,與時間同向”(linear like time and in the direction of time),也就是說,在推導時,要按照時間前后的順序進行,要沿著時間的方向推進。

顯而易見,左結合語法是一種基于短語結構語法的形式模型,同時又吸取了依存語法和數據庫語義學的一些優點,具有明顯的創新特色。這種獨具特色的形式模型,對于自然語言的自動分析和自動生成具有重要的指導意義。

馮志偉. 自然語言處理的形式模型[M]. 北京:中國科學技術大學出版社, 2010.

張 鈸. 自然語言處理的計算模型[J]. 中文信息學報, 2007(3).

Hausser, R.AComputationalModelofNaturalLanguageCommunication:Interpretation,InferenceandProductioninDatabaseSemantics[M]. Berlin:Springer-Verlag, 2006.

Manaris, B.NaturalLanguageProcessing:AHuman-computerInteractionPerspective[J].AdvancesinComputers, 1999(47).

【責任編輯謝 群】

Left-AssociativeGrammarofRolandHausser

Feng Zhi-wei

(Hangzhou Normal University, Hangzhou 310036, China )

Based upon Surface Compositional Linear Internal Matching (SCLIM) and Database Semantics (DBS), this paper introduces the Left-Associative Grammar (LA) of Roland Hausser. LA plays important role in automatic analysis and generation in natural language processing.

Surface Compositional Linear Internal Matching; Database Semantics; Left-Associative Grammar

H043

A

1000-0100(2014)02-0030-5

2012-03-27

猜你喜歡
單詞語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
看圖填單詞
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
我有我語言
主站蜘蛛池模板: 99热这里只有精品免费国产| 色悠久久久| 欧美日一级片| 久久精品国产999大香线焦| 国产欧美精品专区一区二区| 啦啦啦网站在线观看a毛片| 嫩草影院在线观看精品视频| 欧美日韩国产在线人成app| a级毛片免费看| 性视频久久| 日本成人福利视频| 亚洲天堂777| 日本精品视频一区二区| 欧美精品伊人久久| 中日韩欧亚无码视频| 伊人激情久久综合中文字幕| 无码精油按摩潮喷在线播放 | 精品伊人久久久大香线蕉欧美| 国产二级毛片| 性69交片免费看| 日韩欧美中文| 911亚洲精品| 国产精品永久在线| 中日无码在线观看| 欧美人与牲动交a欧美精品| 色天堂无毒不卡| 欧美自慰一级看片免费| 国产高清色视频免费看的网址| 国产在线精品美女观看| 全午夜免费一级毛片| 国产91视频免费观看| 国产欧美日韩专区发布| 国产午夜精品一区二区三区软件| 欧美一级黄色影院| 国产办公室秘书无码精品| 亚洲欧洲日本在线| 国产在线91在线电影| 国产欧美在线观看精品一区污| 四虎影视无码永久免费观看| 亚洲婷婷在线视频| 欧美A级V片在线观看| 婷婷99视频精品全部在线观看| 亚洲男人天堂2020| 日韩美毛片| 国产成人亚洲综合A∨在线播放| 茄子视频毛片免费观看| 国产免费黄| 国产区精品高清在线观看| 无码人妻热线精品视频| 国产福利不卡视频| 亚洲无码91视频| 亚洲精品日产精品乱码不卡| 99久久精品国产自免费| 无码一区二区波多野结衣播放搜索| 日韩精品无码免费一区二区三区 | 国产精品成人一区二区不卡| 亚洲永久精品ww47国产| 亚洲第一国产综合| 国产精品性| 国产第一福利影院| 婷婷成人综合| 丰满的少妇人妻无码区| 综合亚洲网| 中国国产一级毛片| 欧美亚洲欧美| 自慰网址在线观看| 婷婷伊人五月| 国产一级做美女做受视频| 99999久久久久久亚洲| 免费jjzz在在线播放国产| 国产精品视频白浆免费视频| A级毛片无码久久精品免费| 黄色在线网| 亚洲美女一区二区三区| 国产一区二区网站| 欧洲日本亚洲中文字幕| 九九热免费在线视频| 亚洲AV无码乱码在线观看代蜜桃 | 亚洲av无码专区久久蜜芽| 99久久人妻精品免费二区| 综合天天色| 国产精品亚洲天堂|