999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語語義分析方法研究

2010-01-01 00:00:00李萬龍
計算機(jī)應(yīng)用研究 2010年2期

摘 要:提出漢語語義分析的方法,具體策略是借用依存語法作為表示框架,通過在基本內(nèi)部—外部算法中結(jié)合知識識別句子中的依存關(guān)系。實驗結(jié)果說明,利用借助知識的內(nèi)部—外部算法訓(xùn)練無指導(dǎo)模型是可行的漢語語義分析方法。

關(guān)鍵詞:依存分析; 內(nèi)—外算法; 無指導(dǎo)學(xué)習(xí)

中圖分類號:TP301

文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2010)02-0529-03

doi:10.3969/j.issn.1001-3695.2010.02.035

Research on approach of Chinese semantic analysis

SHI Jing1, LI Wan-long1,2

(1.College of Computer Science Engineering, Changchun University of Technology, Changchun 130012, China; 2.College of Computer Scie-nce Technology, Jilin University, Changchun 130012, China)

Abstract:This paper presented an approach of semantic analysis on Chinese, which borrowing the dependency grammar as framework of representation. Through combining knowledge with original inside-outside algorithm, it identified the dependency relationships of sentences. The experiments show it is applicable to train the unsupervised model of Chinese semantic analysis with the inside-outside algorithm.

Key words:semantic analysis; inside-outside algorithm; unsupervised learning

語義信息在諸如信息抽取、問答系統(tǒng)、機(jī)器翻譯、文摘生成等諸多領(lǐng)域都有極為重要的價值。自從Gildea等人[1]引入語義角色標(biāo)注(semantic role labeling),研究人員對其表現(xiàn)出極大的興趣[2~7]。語義角色標(biāo)注的缺點在于:a)角色的成分邊界沒有達(dá)成共識;b)僅僅考慮語義角色的標(biāo)注,忽略了動核的語義特征、短語結(jié)構(gòu)內(nèi)部的屬性語義關(guān)系以及情態(tài)成分的分析,因此不是句子語義結(jié)構(gòu)的完整揭示。

本文提出一種對漢語語義進(jìn)行完整分析的方法。該方法的獨特之處在于: 采用簡單的依存語法表達(dá)詞對之間的語義關(guān)系;針對知網(wǎng)中某些義元構(gòu)造語料庫以使訓(xùn)練效果最佳;通過結(jié)合知識擴(kuò)展內(nèi)—外算法減少迭代次數(shù)。

1 依存語法

本文借用依存語法作為表達(dá)語義的工具。每一個依存對體現(xiàn)兩個詞之間的語義相關(guān)性,被依存者是中心詞,依存者修飾、限制或?qū)χ行脑~進(jìn)行補(bǔ)充。一個明顯的例子如下:

從語法角度,“脆脆地”和“喜滋滋地”作用相同,都是修飾謂詞“炸”,但從語義的角度,它們截然不同。“脆脆地”與“花生米”相關(guān),而“喜滋滋地”則修飾“他”,因此語義分析的結(jié)果并不相同,這種現(xiàn)象在漢語中被稱為語義指向。本文通過基于語義知識的規(guī)則解決這個問題。

2 語義知識的利用

雖然傳統(tǒng)的內(nèi)—外算法在理論上可行,但用來訓(xùn)練大規(guī)模語料庫會有無法克服的障礙,如訓(xùn)練代價極高、局部極值出現(xiàn)頻繁等[8]。筆者結(jié)合知網(wǎng)的知識克服這些困難,同時根據(jù)語義特性先將詞匯聚類,也使得模型擬合更加準(zhǔn)確。

2.1 識別語義單元

對于N個非終止符、M個詞匯的訓(xùn)練句子,內(nèi)—外算法的一次迭代需要O(N3M3)的時間復(fù)雜度,這種復(fù)雜度使得大規(guī)模的語料庫訓(xùn)練無法實現(xiàn)。造成這種現(xiàn)象的主要原因是內(nèi)部概率和外部概率都需要計算所有可能的分支情形,不管跨距是否合理。這里跨距是指在語義解析中一段連續(xù)的詞匯序列。為了減少迭代次數(shù),借助知識僅僅考慮在語義上有意義的被稱之為語義單元的塊。

2.1.1 語義單元

一個語義單元與一個組塊類似,但組塊注重語法功能,而語義單元主要考慮語義特性。語義單元是表達(dá)完整意義的連續(xù)的詞匯序列。給出兩種漢語的語義單元:組合結(jié)構(gòu)通過知網(wǎng)的信息結(jié)構(gòu)計算而得,并列結(jié)構(gòu)指其內(nèi)部的一個或多個成分扮演相同的語義角色。

2.1.2 組合結(jié)構(gòu)的計算

組合結(jié)構(gòu)可以通過知網(wǎng)所提供的漢語信息結(jié)構(gòu)計算而得,具體如圖1所示。

2.1.3 框架信息的應(yīng)用

知網(wǎng)的每一個事件義元都有必要角色框架。當(dāng)事件發(fā)生時,一定會涉及框架中的角色。盡管真實的語境中,該角色可能不會出現(xiàn),利用框架信息標(biāo)注特定動詞的論元并檢查相鄰語義單元可否合并。

2.2 抽取語義類別

知網(wǎng)的每一個義元被看做一個類別,通過不同義元間的上下層位關(guān)系,可以在任何粒度上進(jìn)行抽取。因為詞匯有不同的意義,與之相應(yīng),知網(wǎng)對于每一個詞有不同的定義,所以僅把第一個定義的義元作為該詞匯的類別。對于動詞,根據(jù)其必要角色框架沿著上下層位關(guān)系,抽取與其上層位義元有不同框架的義元作為類別。如果詞匯在知網(wǎng)中不存在,即到詞林中尋找,如果找到,就在詞林的同組詞中尋找知網(wǎng)中存在的詞,如果成功,則取相應(yīng)的類別。分析句子時,每個詞匯由相應(yīng)的類別代替,這樣算法學(xué)習(xí)的速度就會大幅度提高,同時學(xué)習(xí)的準(zhǔn)確率也會提高。

3 高效率分析

3.1 模型

在語法及語義解析中,大部分研究采用有指導(dǎo)的方法,其結(jié)果明顯好于無指導(dǎo)的方法。對于漢語,由于標(biāo)注資源極少,力圖通過生語料的學(xué)習(xí)實現(xiàn)對語義信息的分析。

假設(shè)中心詞與依存詞互相獨立,并且與依存詞的順序無關(guān),詞匯模型可以被分解為各元素間的乘積。

P(S|T)=∏〈l,h〉∈LP(wl|wh)×∏〈h,r〉∈LP(wr|wh)

其中:S是句子;T是該句子中語義依存框架下的語義解析圖;wh是中心詞,wl是左依存詞,wr是右依存詞;〈l,h〉∈T表示在依存圖中wl語義依存于wh,〈h,r〉∈T的含義與此類似。

3.2 模型訓(xùn)練

模型的參數(shù)是P(wl|wh)和P(wr|wh)。假設(shè)有一個訓(xùn)練語料D={S1,S2,…,SN},參數(shù)可以通過式(1)進(jìn)行估算。

P(wl|wh)=∑Ni=1counti(〈l,h〉∈T)∑Ni=1counti(〈#8226;,h〉∈T), P(wr|wh)=∑Ni=1counti(〈r,h〉∈T)∑Ni=1counti(〈h,#8226;〉∈T)(1)

其中:counti(〈l,h〉∈T)是左依存于h的詞數(shù),counti(〈r,h〉∈T)是右依存于h的詞數(shù),counti(〈h,#8226;〉∈T)給出左、右依次的總詞數(shù)。

作為無指導(dǎo)學(xué)習(xí),T被看做隱類變量。基本內(nèi)—外算法可以用來重估參數(shù)。本文介紹擴(kuò)展的內(nèi)—外算法,嘗試結(jié)合知識提高算法的效率。

3.3 分析方法

本文的分析策略具體為:首先從下到上識別語義單元,然后利用框架知識檢測上層語義單元邊界的有效性。在檢測過程中,如果核心謂語動詞的必要角色數(shù)量少于句子的語義單元數(shù)量,則每兩個相鄰單元結(jié)合形成所有可能的結(jié)果。如果語義單元的數(shù)量多,則無須作任何處理。完整過程如圖2、3給出一個例子。

3.3.1 操作符

相應(yīng)于分析過程,需要一些操作符構(gòu)造語義單元。令u通過合并語義單元ui和ui+1形成,wi是ui的中心詞,wj是ui+1的中心詞。定義四種操作符如下:

judge(ui,ui+1)用于判斷兩個相鄰單元能否合并;

join(ui,ui+1)用于合并相鄰單元ui和ui+1;

left(u)連接兩個詞wi和wj,使得wi依存于wj;

right(u)連接兩個詞wi和wj,使得wj依存于wi。

本文給解析操作賦予某些值,以便基于某個解析句子的概率與解析推導(dǎo)操作的值的乘積相等。在四種操作中,僅有l(wèi)eft和right操作符涉及到加邊,因此令:σ(left(wi,wj))∏Ml=1∏Mh=1P(wl|wh),σ(right(wi,wj))∏Mr=1∏Mh=1P(wr|wh)。

其中M是詞匯記號數(shù)目。

3.3.2 內(nèi)部概率和外部概率

假設(shè)D代表推導(dǎo)一個解析結(jié)果的所有可能的操作符,類似于內(nèi)部概率和外部概率,定義如下兩個有用的值:

a)內(nèi)部概率。生成語義單元u=wi…wj的所有操作的值的和α(u)=∑D→uσ(D)。

b)外部概率。生成語義單元u的上下文的所有操作的值的和β(u)=∑D→out(u)σ(D)。其中out(u)表示生成除u之外的語義單元的操作。

從圖4可以看出內(nèi)部概率和外部概率如何與語義依存樹的推導(dǎo)聯(lián)系起來。

3.3.3 內(nèi)—外算法

內(nèi)部概率可以通過如下迭代過程計算:

α(u)=∑uτ which is αsemantic unitα(uτ)σ(left(uτ))

∑uτ which is αsemantic unitα(uτ)σ(right(uτ))

∑uτ,uυ which aresemantic unitsα(uτ)σ(join(uτ,uυ))α(uυ)

利用內(nèi)部概率,外部概率通過從上到下的遞歸計算:

β(u)=∑uτwhich is formed byjoining u and ur(uτ,ur are semantic units)β(uτ)α(ur)σ(join(u,ur))+

∑uτwhich is formed byjoining ul and u(uτ,ur are semantic units)β(uτ)α(ul)σ(join(ul,u))+

∑uτwhich isα semantic unitβ(uτ)σ(left(u))+

∑uτwhich is α semantic unitβ(uτ)σ(right(u))

于是,任何一個操作的外部概率都可以通過更大的語義單元的外部概率遞歸計算而得,遞歸的出口是頂層單元u,σ(u)=1。

3.3.4 復(fù)雜度

基本內(nèi)—外算法的每一次迭代需要計算內(nèi)部概率、外部概率及規(guī)則的重估,對于訓(xùn)練句子w和所有非終結(jié)符ψ,其時間復(fù)雜度為O(|w|3|ψ|3)。采用的算法由于不需要考慮所有的子序列,而僅僅考慮語義單元,所以效率比基本算法高很多。最好的情況下,如果所有的句子都是惟一的分析結(jié)果,則時間復(fù)雜度呈線性。

4 實驗

因為漢語的語義分析目前沒有黃金標(biāo)準(zhǔn),所以手工標(biāo)注了一個語料庫。實驗表明,知識對于無指導(dǎo)語義分析有著非常重要的價值,并且使得內(nèi)—外算法可行。

4.1 訓(xùn)練語料

為了構(gòu)造針對特定義元及組合結(jié)構(gòu)的語料庫,在網(wǎng)上通過北京大學(xué)的CCL語料庫查詢并下載與這些義元及組合結(jié)構(gòu)相關(guān)的語料。這些語料首先經(jīng)過ICTCLAS系統(tǒng)進(jìn)行分詞及詞性標(biāo)注的預(yù)處理。表1是訓(xùn)練語料庫的詳細(xì)信息。

表1 訓(xùn)練語料庫

類型類型數(shù)量句子數(shù)量句子長度

義元1015~10010~17

組合結(jié)構(gòu)1015~10010~17

4.2 度量標(biāo)準(zhǔn)

本文給出三種度量標(biāo)準(zhǔn)檢測實驗結(jié)果。令Numcorrectk表示分析方法中在方向k(左或右)標(biāo)注正確的依存關(guān)系,Numalgorimk表示分析方法中在方向k(左或右)上所有的依存關(guān)系;Numallk表示黃金標(biāo)準(zhǔn)中手工標(biāo)注的依存關(guān)系,則準(zhǔn)確率(precision)、召回率(recall)和F1分別定義如下:

precisionk=NumcorrectkNumalgorithmk×100%(2)

recallk=NumcorrectkNumallk×100%(3)

F1k=2×NumcorrectkNumalgorithm+Numallk×100%(4)

其中:k=1表示左依存,k=2表示右依存。

4.3 實驗和結(jié)果

本文一共設(shè)計了三組實驗:第一組包括300個左右的句子,每一個義元和結(jié)構(gòu)大約15個;第二組包括大概600個句子,每個義元和結(jié)構(gòu)100個;最后一組在哈爾濱工業(yè)大學(xué)手工標(biāo)注的樹庫中隨機(jī)選擇300個解析樹,按照標(biāo)注要求進(jìn)行修改。其結(jié)果如表2和3所示。

表2 左依存方向的實驗結(jié)果

組句子數(shù)量準(zhǔn)確率/%召回率/%F1/%

130032.1240.0335.64

260077.9255.0564.52

330012.3119.8415.19

表3 右依存方向的實驗結(jié)果

組句子數(shù)量準(zhǔn)確率/%召回率/%F1/%

130049.8538.2443.28

260062.4772.0566.92

330025.4211.2915.64

4.4 討論

表2和3說明語料庫的規(guī)模影響分析結(jié)果,隨著針對某些特定義元和結(jié)構(gòu)的語料增多,F(xiàn)1值越來越高。

Yan Jia-jun等人[9]給出漢語語義依存分析的有指導(dǎo)方法,得到最好的結(jié)果是84.8%的準(zhǔn)確率。與其工作相比,本文的優(yōu)勢在于無須手工標(biāo)注訓(xùn)練語料,語料易于擴(kuò)展,有利于保證學(xué)習(xí)效果。同時實驗結(jié)果基本達(dá)到無指導(dǎo)學(xué)習(xí)的一般水平。

5 結(jié)束語

語義計算對于NLP來說至關(guān)重要,但目前除了SRL(semantic role labeling),其他的研究微乎其微。由于漢語的標(biāo)注資源極度匱乏,從生語料庫學(xué)習(xí)的無指導(dǎo)方法顯得尤為重要。本文嘗試結(jié)合知網(wǎng)的知識實現(xiàn)無指導(dǎo)的語義計算,實驗結(jié)果表明將知識與無指導(dǎo)的方法結(jié)合起來不失為一種明智的選擇。

致謝:本文在研究中使用到《知網(wǎng)》;中國科學(xué)院計算技術(shù)研究所開發(fā)的ICTCLAS;北京大學(xué)的研究成果CCL;哈工大信息檢索研究室提供的擴(kuò)展版同義詞詞林由。基于這樣一些寶貴的資源,筆者研究得以進(jìn)行與開展,因此在這里對開發(fā)、設(shè)計、整理者表示由衷的感謝。

參考文獻(xiàn):

[1]GILDEA D, JURAFSKY D. Automatic labeling of semantic roles[J]. Computational Linguistics, 28(3), 2002.

[2]SURDEANU M, MORANTE R, RQUEZ L. Analysis of joint infe-rence strategies for the semantic role labeling of spanish and catalan[C]//Proc of the 9th International Conference on CICLing. 2008:206-218.

[3]SURDEANU M,MARQUEZ L,CARRERAS X, et al. Combination strategies for semantic role labeling[J]. Journal of Artificial Intelligence Research, 2007,29(1):105-151.

[4]TOUTANOVA K, HAGHIGHI A, MANNING C D. A global joint model for semantic role labeling[J]. Computational Linguistics, 2008,34(2):161-191.

[5]ALESSANDRO MOSCHITTI,DANIELE PIGHIN. Tree Kernels for semantic role labeling[J]. Computational Linguistics, 2008,34(2):193-224.

[6]PUNYAKANOK V, ROTH D, YIH W. The importance of syntactic parsing and inference in semantic role labeling[J]. Computational Linguistics,2008,34(2):257-287.

[7]XUE Nian-wen. Labeling Chinese predicates with semantic roles[J]. Computational Linguistics,2008,34(2):225-255.

[8]MANNING C D, SCHUTZE H. Foundations of statistical natural language processing[M]. Cambridge:MIT Press, 1999.

[9]YAN Jia-jun. Chinese semantic dependency analysis and its applications[D]. Tokushima, Japan:The University of Tokushima, 2007.

主站蜘蛛池模板: 亚洲一区二区约美女探花| 国产第一页免费浮力影院| 青青操视频在线| 伊人久久福利中文字幕| 国产精品思思热在线| 国产视频入口| 亚洲人妖在线| 中日无码在线观看| 日本91视频| 无码AV动漫| 重口调教一区二区视频| 亚洲人妖在线| 国产精品免费电影| 亚洲午夜综合网| 91精品国产自产在线老师啪l| 72种姿势欧美久久久大黄蕉| 少妇人妻无码首页| 中文字幕在线不卡视频| 青青操国产| 久久永久视频| 999国产精品| 麻豆国产精品视频| 亚洲成aⅴ人在线观看| 欧美三级自拍| 精品自窥自偷在线看| 毛片手机在线看| 一区二区午夜| 午夜精品一区二区蜜桃| 亚洲综合片| 91精品在线视频观看| 一本久道久久综合多人| 亚洲码在线中文在线观看| 人妻中文字幕无码久久一区| 国产精选自拍| 波多野一区| 乱系列中文字幕在线视频| 欧美黄色a| 毛片基地美国正在播放亚洲 | 日本www在线视频| 高清不卡一区二区三区香蕉| 无码福利日韩神码福利片| 亚洲成A人V欧美综合| 亚洲va在线∨a天堂va欧美va| 国产香蕉一区二区在线网站| 亚洲午夜综合网| 国产精品香蕉在线| 中美日韩在线网免费毛片视频| 日本黄色a视频| 国产男女XX00免费观看| 亚洲国产成熟视频在线多多| 啦啦啦网站在线观看a毛片| 精品视频在线一区| 2024av在线无码中文最新| 国产午夜看片| 久久99国产综合精品女同| 国产欧美日韩一区二区视频在线| 九色在线观看视频| 亚洲三级a| 国产在线拍偷自揄拍精品| 国产精品女人呻吟在线观看| 亚洲精品图区| 国产精品永久不卡免费视频| 伊人久久精品亚洲午夜| 狠狠色婷婷丁香综合久久韩国| 亚洲毛片一级带毛片基地| 亚洲欧美极品| 手机永久AV在线播放| 亚洲午夜福利在线| 国产色婷婷视频在线观看| 波多野一区| 91成人在线观看视频| 亚洲色图在线观看| 精品福利视频网| 国产av色站网站| 日韩免费毛片| 亚洲成人福利网站| 亚洲中文字幕久久精品无码一区 | 国产一级毛片在线| www.99精品视频在线播放| 欧美中文字幕无线码视频| av在线手机播放| 亚洲精品片911|