999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于輕語義λ-演算的漢語陳述句靈活語序研究

2016-05-04 01:15:38劉冬寧鄧春國滕少華張巍梁路
中文信息學報 2016年3期
關鍵詞:語義模型

劉冬寧,鄧春國,滕少華,張巍,梁路

(廣東工業大學 計算機學院,廣東 廣州 510006)

基于輕語義λ-演算的漢語陳述句靈活語序研究

劉冬寧,鄧春國,滕少華,張巍,梁路

(廣東工業大學 計算機學院,廣東 廣州 510006)

目前,自然語言處理已經從句法、語法層面走向輕語義層面。對于漢語陳述句的處理,傳統的方法是采用Lambek演算來進行處理。但是傳統的Lambek演算無法處理漢語中的靈活語序問題,而現有的方法,如加入模態詞、新連接詞等,又因為其進一步使得本已是NP-hard的Lambek演算時間復雜度變大,并不適合當前的計算機處理?;诖?,該文提出了λ-Lambek演算,即采用Lambek演算來對漢語陳述句進行句法演算,并通過Curry-Howard對應理論與λ-演算來對漢語陳述句進行輕語義模型的構建。λ-Lambek演算不僅能夠對漢語陳述句進行輕語義演算,而且還能對漢語陳述句靈活語序進行處理。

Lambek演算;λ-演算;中文陳述句;靈活語序;語義

1 引言

自然語言處理在日常生活當中扮演著重要角色[1-3]。隨著大數據時代的到來,半結構化的自然語言在計算機處理中有著更高的要求[4],如機器翻譯、語義搜索等需要更加快速、準確地處理大量自然語言數據,并且需要涉及自然語言中語義或輕量級語義的處理。傳統的方法已難以滿足大數據時代的要求,例如,基于概率模型的統計方法難以準確地進行語義分析,而一些過于強調語義邏輯的方法又會使計算機進行處理的時間復雜度更高。與此同時,基于Lambek演算的自然語言處理有著許多優點,它是上下文無關的[5-6](context-free)、具有代數語義(Algebra)、關系語義(Relation)的模型,并能通過Curry-Howard對應理論與-演算引入輕量級語義[7]處理。而且由于Lambek演算沒有收縮(contraction)、弱化(weakening)和交換律(exchange)這三條結構規則的特點[8],使得Lambek演算在自然語言處理中是可判定的。但同時也因為其缺少了交換律(exchange)規則,使得不能處理靈活語序。在前人研究中,為了處理漢語陳述句中的靈活語序,分別在Lambek演算中加入了新模態詞和新連接詞。雖然這些方法在邏輯、數學和語言學范疇內形式完美,但其使原本已是NP—Hard的Lambek演算變得更為復雜,在程序處理中運行效率極低,因此并不可行。基于此,本文提出了λ-Lambek演算,通過Curry-Howard 對應理論將Lambek演算和λ-演算結合起來,以解決漢語陳述句靈活語序處理的問題,并且有較高的執行效率。

2 相關技術

2.1 Lambek演算

Lambek演算是由著名的加拿大學者Joachim Lambek在1958年提出,用于自然語言處理中的句法分析。Lambek演算是基于句法類型的演算,即句子片段中每一個詞語都用一個類型表示,形成類型序列,然后通過類型序列來進行演算,從而判定句子的合法性。Lambek演算是上下文無關的(context-free),而且具有代數語義(Algebra)、關系語義(Relation)的模型,它的連接詞只有三個,即積運算(product)“”、左余運算(left residuation)“”和右余運算(right residuation)“/”。Lambek演算擁有四條規則(表1),并具有切割可消除性(cut-free),這些優點使得Lambek演算在形式完美的同時運算簡單,因此適合計算機的處理。

其中,規則Ⅰ描述了類型消去演算,規則Ⅱ描述了Lambek演算的結合性,規則Ⅲ描述了Lambek演算的傳遞性,規則Ⅳ描述了演算中的類型是可以提升的,即從簡單類型提升到復雜類型。

表1 Lambek演算規則

設類型序列S={t1,t2,…,tn},其中tk為類型數組(k=1,2,…,n)。根據表1中的規則,Lambek演算的過程可歸納成以下五步。

Step1 列出句子或句子片段中每一個詞語所有可能的類型,記于數組tk中;

Step2 對類型序列中每一組類型進行組合,得到類型序列數組arrayS;

Step3 選取類型序列數組中一個類型序列arrayS[i]={t1[a],t2[b],…,tn[c]},其中a、b、c分別為類型數組t1、t2、t3的一個取值;

Step4 對每個類型序列組合arrayS[i]進行類型演算;

Step5 if演算結果為s,then結束計算,并輸出句子合法,else 跳到step3直到所有類型序列組合都計算完。

2.2 λ-演算

λ-演算[9-11]是一套用于數學定義、函數應用和遞歸的形式系統,它是由Alonzo Church 和 Stephen Cole Kleene 在 20 世紀30年代提出的,在1936年,Alonzo Church運用其證明了判定性問題(Entscheidungsproblem)的一個否定的答案。λ-演算在自然語言處理中可以對語義模型進行描述。

定義1 設λ-term為λ-演算中的一個表達式,則其BNF定義為<λ-team>∷=|<λ-team><λ-team>|λ.<λ-team>|(<λ-team>)。

在λ-演算中,有三種運算: α-變換,β-歸約和η-變換。α-變換意味著λ表達式中的變元是可以替換的,但不改變原來含義;β-歸約表達了函數代入的語義;η-變換表達了函數的等價性,即如果對于任意的x,如果有f(x)=g(x),則f和g具有函數等價性。

3 λ-演算及其漢語陳述句靈活語序的處理

(1)

(2)

(3)

因為這種足夠弱,使得Lambek演算無法處理漢語陳述句的靈活語序。對于陳述句“劉強愛看言情片[13]”,我們通過Lambek演算,如式(4)所示。

(4)

其中(I)表示使用表1中的規則I,由此可見句子“劉強愛看言情片”是合法的,但是對于其話題句靈活語序“言情片劉強愛看”,我們無法使得該句子通過Lambek演算式

(5)

(5)因此,Lambek演算對于漢語陳述句靈活語序的處理是不可行的。因此,我們必須通過某種方式使得句子的演算順序變得能夠使用Lambek演算來進行處理?,F有的方法是加入模態詞(Modality),如鄒崇理[14]提出的方法Moortgat[15]提出的方法和劉冬寧[16]提出的方法,但是這些加入了模態詞的方法,會使得原已是NP-hard的Lambek演算變得更復雜,從而不適合計算機的計算,而且不能進行輕量級語義處理。針對這個問題,我們通過Curry-Howard對應理論,將Lambek演算和λ-演算對應起來,從而實現漢語陳述句靈活語序的處理。對應后的Lambek演算如式(6)~式(12)所示。

(6)

(7)

(8)

(9)

(10)

(11)

(12)

根據Curry-Howard對應理論及定義1,我們對λ-Lambek演算進行定義。

定義2 設λ-Lambek表達式(簡寫為“λL-team”)為一個二元組,λL-team={λ-team,TYPE },其中TYPE為單詞類型。

定義3 設λ-Lambek演算的句子序列為LS,則LS=(λL-team)*,即句子由若干個λ-team組成。

對應的λ-Lambek演算過程如式(13)所示。λyx.Verb(x,y) Noun

(13)

由此可見句子“劉強愛看言情片”是合法句子。對于其靈活語序“言情片劉強愛看”,其演算模型是無法通過演算得到合法句子類型s,其演算過程如式(14)所示。Noun λyx.Verb(x,y)

(14)

因此,無論是傳統的Lambek演算,還是Lambek演算與λ-演算結合起來的方法都無法對漢語陳述句中的靈活語序進行處理。傳統的方法是在Lambek演算中加入了模態詞,但是其使得本已是NP-hard的Lambek演算變得更復雜,不適合在計算機中進行計算。為此,我們對λ-Lambek演算中的λL-team進行預處理,即修改部分λL-team,從而將靈活語序變成常規語序,以便于進行λ-Lambek演算。整體的演算流程如圖1所示。

圖1 λ-Lambek演算流程圖

(15)

由此可見,句子“言情片劉強愛看”是合法的。

(16)

除此之外,如果陳述句不是簡單句,而是用了形容詞等修飾,則該句子也能通過λ-Lambek演算,例如句子“愛看動人的言情片劉強”,其中形容詞“動人

(17)

由此可見,對于各種靈活語序的λ-Lambek演算, 我們需要對其詞語的λL-team根據其靈活語序

的結構進行修改,然后再對其進行演算。

4 λ-演算及其漢語陳述句靈活語序的處理與應用

傳統的Lambek演算只能對句子進行句法判定,即判定句子句法的合法性,但是不能進行輕語義的演算。而λ-演算不僅對Lambek進行了補充,使之能夠處理漢語言中靈活語序的問題,而且還能進行輕語義的演算。

定義4 設w為輕語義模型中詞語語義的λL-team,函數w=sem(parameters[])為語義函數,其中函數名sem為詞語的語義,parameters[]為詞語集{w1,w2,…},表示單詞w的語義作用在詞語集parameters[]之上。

根據定義4,令“劉強”的λL-team為λx.LIUx,“言情片”的λL-team為λx.xYAN,“愛看”的λL-team為λyx.LIKE(x,y),則句子“劉強愛看言情片”的語義演算如式(18)所示。

(18)

演算最終得到語義單詞LIKE(LIU,YAN),其表示動詞“愛看”的主語是“劉強”,謂語是“言情片”。

定義5 設λ-Lambek演算的樹模型為T,則T的BNF定義為T=(T,T) | leaf,其中left為詞語的語義。

因此,我們可以通過λ-Lambek演算得到一棵語義二叉樹模型T。λ-Lambek演算過程中,每一個詞語是葉子節點,在每一次的E或/E演算都得到父節點,最終生成一棵二叉樹。

二叉樹模型T有兩個性質: 樹的根節點對應的句法類型必為s;語義相同但語序不同的二叉樹模型T形狀不一致,但其根節點一致,即表示含有相同語義。

(19)

對于句子“愛看動人的言情片劉強”,其演算流程如式(20)所示。

(20)

對應的二叉樹模型如圖2(b)所示。

圖2 句子“動人的言情片劉強愛看”和“愛看動人的言情片劉強”的二叉樹模型

5 實驗驗證

Lambda是一個函數式表達式,因此λ-Lambek演算能夠方便地通過計算機程序來實現。

定義6 設λL-team的數據結構為一個三元組,其中name表示λL-team的含義,function表示λL-team的lambda函數,type表示句法類型。

表2 λ-Lambek演算詞匯表

為了通過程序實驗實現λ-Lambek演算,首先需要采集一定的實現數據,即詞匯表,本實驗采用已經經過預處理的詞匯表,選出的部分數據如表2所示。實驗分別對句子“劉強愛看言情片”、“愛看動人的言情片劉強”和“言情片愛看劉強”進行了程序驗證,結果如圖3~圖5所示。

圖3 句子“劉強愛看言情片”的程序判定結果

圖4 句子“愛看動人的言情片劉強”的程序判定結果

圖5 句子“愛看劉強言情片”的程序判定結果

由圖3可以看出,對于簡單句子“劉強愛看言情片”,在演算中只需要進行兩次函數代入操作(/E和E)既可得到合法句子的判定結果。由圖4可以看出,對于復雜靈活語序,如“愛看動人的言情片劉強”,在演算中需要進行三次函數代入操作以及一次β操作。由圖5可以看出,對于語義上錯誤的句子“愛看劉強言情片”,由于“劉強”的lambda函數代入“愛看”中無法消去,從而在程序判定中得到“句子非法”,因此該λ-Lambek演算同樣能夠判定非法句子。通過實驗可以證明lambda演算不僅在形式上能夠對漢語陳述句靈活語序進行判定,還能通過程序進行判定,并且有較高的執行效率。

6 結束語

對于自然語言處理,基于Lambek的演算有著許多優點,它是上下文無關的,具有代數語義(Algebra)、關系語義(Relation)的模型,并能通過Curry-Howard對應理論與λ-演算引入輕量級語義處理。但是由于Lambek演算也存在一些限制,例如由于缺少了Exchange規則,導致不能處理漢語陳述句中的靈活語序?;诖耍疚牟捎昧甩?Lambek演算,即通過Curry-Howard對應理論將λ-演算和Lambek演算結合起來,對漢語陳述句靈活語序進行處理。λ-Lambek演算并不改變Lambek演算的時間復雜度,因此能很好地適應計算機的計算。除此之外,λ-Lambek演算還能進行輕量級語義演算,而且通過演算能得到輕語義的二叉樹模型,從而實現句子的輕量級語義分析,并且能夠通過程序進行判定。在后續的工作中,我們將對漢語陳述句進行語義分析,從而為語義搜索和機器翻譯提供有力的工具。

[1] John Atkinson,Juan Matamala. Evolutionary Shallow Natural Language Parsing[J].Computational intelligence,2012,28(2): 156-175.

[2] Christian Bitter,David A. Elizondo,Yingjie Yang. Natural language processing: a prolog perspective[J].Artificial Intelligence Review,2010,33(1/2): 151-173.

[3] 孫茂松,劉挺,姬東鴻,等. 語言計算的重要國際前沿[J].中文信息學報,2014,28(1): 1-7.

[4] 彭煒明,宋繼華,王寧,等. 漢語傳統語法及其在中文信息處理中的應用展望[J].中文信息學報,2012,26(4): 50-60.

[5] Joachim Lambek. The Mathematics of Sentence Structure[J].The American Mathematical Monthly,1958,65(3): 153-169.

[6] Michal Kozak.Cyclic Involutive Distributive Full Lambek Calculus is Decidable[J].Journal of logic and computation,2011,21(2): 231-252.

[7] 張亮,尹存燕,陳家駿. 基于語義樹的中文詞語相似度計算與分析[J]. 中文信息學報,2010,24(6): 23-30.

[8] Bayu Surarso,H. Ono. Cut elimination in noncommutative substructural logics[J].Reports on Mathematical Logic,1996(30): 13-29.

[9] JL Krivine. Lambda Calculus,Types and Models[M]. Ellis Horwood,1993(98): 105-110.

[10] Hindley R.,Seldom J. Introduction to Combinators and lambda-calculus [M]. London: Cambridge University Press,1986: 87-100.

[11] Gerhard J?ger,Anaphora and Type Logical Grammar[M].Springer Netherlands,2005,24:119-125.

[12] 劉冬寧,湯庸,滕少華,等. 基于時態數據庫的極小子結構邏輯系統[J]. 計算機學報,2013(8): 1592-1561.

[13] 鄒崇理.多模態范疇邏輯研究[J].哲學研究,2006,09: 115-121.

[14] Bernardi,Moortgat.Continuation semantics for the Lambek-Grishin calculus[J].Information & Computation,2010,208(5): 397-416.

[15] 劉冬寧,湯庸,黃昌勤,等. 基于時態查詢語言的并發Lambek演算及范疇語法[J].智能系統學報,2009,6: 245-250.

Research of Flexible Word Order in Chinese StatementsBased on Lightweight Semantic λ-calculus

LIU Dongning,DENG Chunguo,TENG Shaohua,ZHANG Wei,LIANG Lu

(School of Computer,Guangdong University of Technology,Guangzhou,Guangdong 510006,China)

Now natural language processing has shifted from syntactic/lexical level to lightweight semantic level. As for the natural language processing of Chinese narrative sentences,the traditional method is using Lambek calculus,Which to process the Chinese statements with a flexible word order. And the present methods,such as adding modal words or new conjunctions,are not suitable for computer processing because they will increase the complexity of the NP-hard Lambek calculus. In response,this paper puts forward the λ-Lambek calculus,which uses Lambek calculus for the syntactic calculus of Chinese statements,and builds the lightweight semantic model of Chinese statements by Curry-Howard theory and λ-calculus. The λ-Lambek calculus can not only process the lightweight semantic calculus for Chinese statements,but also process the statements of flexible word order in Chinese.

Lambek calculus;λ-calculus;Chinese statements;flexible word order;semantic

劉冬寧(1979-),博士,副教授,主要研究領域為人工智能邏輯、數據庫與協同計算。E?mail:liudn@gdut.edu.cn鄧春國(1988-),碩士研究生,主要研究領域為自然語言處理、數據挖掘。E?mail:cidgee@outlook.com滕少華(1952-),博士,教授,主要研究領域為數據庫與協同計算。E?mail:shteng@gdut.edu.cn

2014-02-24 定稿日期: 2014-06-18

國家自然科學基金(61402118,61272067,61104156,61370229);國家科技支撐計劃課題 (2013BAH72B01)

1003-0077(2016)03-0023-07

TP391

A

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 91精品国产自产在线老师啪l| 国产黑丝一区| 伊人成色综合网| 国产尤物jk自慰制服喷水| 曰AV在线无码| 欧美人在线一区二区三区| 伊人蕉久影院| 成年午夜精品久久精品| 伊大人香蕉久久网欧美| 女同国产精品一区二区| 在线观看国产精品第一区免费 | 影音先锋亚洲无码| 国产内射一区亚洲| 极品国产在线| 国内熟女少妇一线天| 久久国产亚洲偷自| 精久久久久无码区中文字幕| 亚洲成人一区二区三区| 亚洲一区二区日韩欧美gif| 1769国产精品视频免费观看| 欧美一区二区精品久久久| 亚洲国产中文在线二区三区免| 国产美女一级毛片| 午夜福利网址| 国产亚洲精| 久久性视频| 伊人无码视屏| 国产一二三区在线| 国产主播喷水| 亚洲中文字幕在线一区播放| 国产丝袜丝视频在线观看| 久久综合一个色综合网| 国产一级片网址| 国产欧美日韩一区二区视频在线| 2048国产精品原创综合在线| 欧美一区福利| 亚洲V日韩V无码一区二区| 99er这里只有精品| 无码一区18禁| 91精品国产丝袜| 国产亚洲现在一区二区中文| 波多野结衣一二三| 国产美女精品人人做人人爽| 日本一本正道综合久久dvd| 毛片免费网址| 亚洲国产成人久久精品软件| 中文字幕不卡免费高清视频| 草草线在成年免费视频2| 国产麻豆福利av在线播放 | 久久人搡人人玩人妻精品一| 欧美日本在线观看| 欧美国产日韩在线播放| 国产精品综合色区在线观看| AV网站中文| 色窝窝免费一区二区三区| 免费无码AV片在线观看国产 | 中文字幕人成乱码熟女免费| 丁香六月激情婷婷| 国产99视频精品免费视频7| 国产一级二级在线观看| 婷婷伊人五月| 福利国产微拍广场一区视频在线| 在线观看亚洲成人| 国产精品久久久久久搜索 | 久久99精品国产麻豆宅宅| 成人韩免费网站| 好紧好深好大乳无码中文字幕| 亚洲va欧美ⅴa国产va影院| 国产精品第页| 无码网站免费观看| 午夜毛片福利| 天天躁夜夜躁狠狠躁图片| 国产精品亚洲va在线观看| 国产香蕉一区二区在线网站| 亚洲精品福利视频| 网友自拍视频精品区| 国产91精品久久| 毛片视频网| 久久久久夜色精品波多野结衣| 国产精品成人AⅤ在线一二三四| 午夜啪啪福利| 亚洲人成日本在线观看|