999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊機制和語義密度聚類的漢語自動語義角色標注研究

2019-09-13 03:36:52王旭陽朱鵬飛
計算機應用與軟件 2019年9期
關鍵詞:語義實驗模型

王旭陽 朱鵬飛

(蘭州理工大學計算機與通信學院 甘肅 蘭州 730050)

0 引 言

語義角色標注是淺層語義分析的常見實現方式,已廣泛應用于機器翻譯等領域。語義角色標注是分析句子中每個詞與對應謂詞的語義關系,并作相應的語義標記,如施事、受事、工具或附加語等。傳統的語義角色標注任務使用基于統計和基于規則的方法,文獻[1-3]研究了基于分詞、詞性和短語結構的自動語義標注;Wang[4]提出一種基于Bi-RNN的漢語語義角色標注方法,規避了傳統方法的缺點(如工作量大),同時利用序列中長距離的信息在CPB語料上進行了實驗,得到77.09%的F值;Roth等[5]提出了一種利用神經序列建模技術進行語義角色標注的新模型;Sha[6]在論元關系識別過程中引入依存信息,在CPB上取得了77.69%的F值;Guo等[7]在充分利用了句法路徑信息的基礎上使用Bi-LSTM進行建模;Marcheggiani[8]等利用雙向LSTM在標準的外域測試集上實現了最好的標注結果;王瑞波等[9]將漢語詞語、詞性等特征進行有效融合后利用神經網絡構建了語義角色標注模型,并使用了Dropout技術改善模型的訓練過程,使得模型的F值有了接近9%的提升;袁里馳等[10]利用配價結構體現語義與句法結構的關系,并將謂詞的配價信息融入語義角色標注模型,在動詞性謂詞標注模型和名詞性謂詞標注模型中分別取得了93.69%和79.23%的F值;張苗苗等[11]采用基于句法特征的統計機器學習算法,引入了Gate機制對詞向量進行調整,最后F值達到了79.53%。傳統的語義角色標注任務使用基于統計和基于規則的方法,具有以下缺點:(1) 過于依賴句法分析的結果;(2) 特征的提取和選擇十分困難,并且投入較大;(3) 領域適應性差。

總結上述內容,本文提出一種基于模糊機制和語義密度聚類的漢語自動語義角色標注系統,主要工作如下:

(1) 引入語義密度聚類算法,利用密度的概念對語料中的謂詞進行全局的聚類,將稀疏謂詞替換為其所屬聚類集合中的常見謂詞。

(2) 引入模糊機制,利用距離的概念減小原始詞向量的語義性并提升與謂詞詞向量的相關性。

(3) 利用Bi-LSTM網絡實現端到端的SRL模型,對文本的歷史信息和未來信息能得到充分的利用。在訓練階段引入了Dropout正則化,避免神經網絡過擬合問題的出現。最后使用CRF對標簽概率進行全局的歸一化處理后,完成最優的序列標注。

1 基礎理論

1.1 LSTM和 B-LSTM結構

BRNN解決了傳統RNN網絡無法利用句子未來信息的缺陷,但是兩者都無法對長距離信息進行很好的建模,而且很容易出現梯度消失以及梯度爆炸的問題,隨著LSTM單元的引入能很好地解決這些問題。

所有的RNN網絡都有隱藏狀態,也就是“記憶模塊”,用于結合當前輸入與前一個狀態,除此以外,LSTM還添加了一個單元狀態(cell state),用于記錄隨時間傳遞的信息。在傳遞過程中,通過當前輸入、上一時刻隱藏層狀態、上一時刻細胞狀態以及門結構來增加或刪除細胞狀態中的信息。門結構用來控制增加或刪除信息的程度。LSTM單元的原理圖如圖1所示。

圖1 LSTM單元示意圖

LSTM利用三個門結構來用于信息的更新和利用,即輸入門、遺忘門和輸出門。設h為LSTM單元輸出,c為LSTM記憶單元的值,x為輸入數據。所有門的計算除了受當前輸入數據xt和前一時刻的LSTM單元輸出ht-1的影響外,還受前一時刻單元值ct-1的影響。

(1)

it=σ(wxi×xt+whi×ht-1+wci×ct-1+bi)

(2)

(2) 遺忘門:利用值域為(0,1)的ft函數控制前一時刻ct-1的細胞狀態傳遞到當前時刻ct中的信息量。

ft=σ(wxf×xt+whf×ht-1+wcf×ct-1+bf)

(3)

式中:w代表權重。

由上可得當前時刻細胞狀態值:

(4)

(3) 輸出門:用于控制LSTM記憶單元狀態值的輸出。

ot=σ(wxo×xt+who×ht-1+wco×ct-1+bo)

(5)

最后可以得出LSTM單元的輸出:

ht=ot⊙tanh(ct)

(6)

RNN-BLSTM使用LSTM單元在Bi-RNN的基礎上進行了改進,在同一層使用兩套連接權重矩陣分別對正向和反向的信息進行建模。Bi-LSTM結構如圖2所示。

圖2 Bi-LSTM網絡示意圖

1.2 小批量梯度下降算法

梯度下降算法是最常用的神經網絡模型訓練優化算法。梯度下降算法的原理:目標函數J(θ)關于參數θ的梯度就是目標函數上升最快的方向。對于最小優化問題,只需在梯度相反的方向上將參數前進一個步長,就能夠實現目標函數的下降,其中步長又稱為學習率。參數θ的更新公式如下:

θ←θ-η·▽θJ(θ)

(7)

式中:▽θJ(θ)是參數的梯度。

小批量梯度下降算法的核心思想是每次更新的時候從訓練集中隨機選擇n個樣本進行學習,更新公式如下:

θ=θ-η·▽θJ(θ;xi:i+m;yi:i+m)

(8)

小批量梯度下降算法具有隨機梯度下降算法和批量梯度下降算法的優點,實現了更新速度和更新次數之間的平衡。與隨機梯度下降算法相比,小批量梯度下降算法減小了訓練過程中參數的變化幅度,能夠更穩定地收斂;相對于批量梯度下降算法,小批量梯度下降算法利用高度優化提高了梯度計算的效率,加快了每次學習的速度,而且規避了內存不足的現象。

1.3 Dropout正則化

Dropout正則化是Hinton[12]在2014年提出的一種防止神經網絡過擬合的正則化約束技術。通過在反向傳播誤差更新權值的時候隨機選擇一部分權值不更新,相當于隨機刪除一部分的Dropout隱藏節點,隨著節點數目的減少,就能防止神經網絡的過度訓練,也就是防止參數過擬合問題的出現。但這種刪除實質上只是暫時的忽略這些節點,而不是真正意義上的完全拋棄。

在訓練過程中,被“丟棄”的隱藏節點是隨機的,也就是說在每一次的訓練過程中,使用的網絡都是不一樣的。由于每次用于訓練的隱藏節點是隨機的,所以并不是每一個節點都能同時出現在每一次的訓練過程中,這樣就可以保證權值的更新不依賴于有固定關系隱藏節點的共同作用,很大程度上保證了特征的有效性和隨機性;在模型用于預測的時候,又會用到所有的隱藏節點,相當于將所有的訓練的模型進行了有效的組合,得到了一個更完美的模型。

1.4 評價指標

我們采用信息檢索中常用的精確度、召回率和 F 值來評估模型的性能。

(1) 精確度:反映了模型標記的正確率。公式如下:

P=fn×100%/fa

(9)

(2) 召回率:衡量了模型標記的正確覆蓋率。公式如下:

R=fn×100%/n

(10)

(3) F值:對精確度和召回率進行調和平均。公式如下:

F=2×P×R/(P+R)

(11)

式中:fn表示模型能夠正確標記的語義角色個數,fa表示模型標記出的語義角色個數,n表示測試集中包含的所有語義角色的個數。

2 語義角色標注模型

2.1 基于LSTM的詞性特性模型

本文構建并訓練了一個LSTM網絡層,以獲得詞性特征的表達,并利用詞性標簽對數據進行訓練。

(12)

式中:nin表示網絡層輸入節點數,nout表示網絡層輸出節點數。

2.2 語義密度聚類

在中文的語義角色標注中,存在明顯的謂詞標注不均勻問題,常見謂詞和稀疏謂詞的標注實例呈現兩種極端的狀況,稀疏謂詞由于標注的次數很少,所以在模型訓練過程中缺乏足夠的樣本實例,導致模型很難學習到該類謂詞的有效參數,使得訓練后的模型對稀疏謂詞不能進行很好的語義分析。本文將出現15次以下的謂詞表示為稀疏謂詞,超過15次的表示為常見謂語,并引入了語義密度聚類算法對稀疏謂詞進行聚類以后替換為語義最相近的常見謂詞,提升語義角色標注模型對于稀疏謂詞標注的適用性。

我們采用wordvec提供的Skip-Gram模型訓練維基百科中文數據得到的詞向量對語料中謂詞進行初始化,然后使用語義密度聚類算法進行聚類,其步驟描述如下:

(1) 計算每個謂詞詞向量與其他謂詞詞向量的歐式幾何距離。

(2) 計算每個謂詞詞向量的K距離,升序排列后得到E′。

(3) 根據E′繪制曲線,急劇變化位置所對應的K距離作為Eps。

(4) 根據Eps計算得到所有核心向量,建立核心向量到Eps范圍內的映射。

(5) 根據核心點集合以及Eps計算可以連通的核心向量,得到噪聲向量。

(6) 將能連通的每一組核心向量以及核心距離小于Eps的向量歸為一個聚類集合。

完成語義密度聚類以后,我們可以得到多個基于密度的詞向量集合。在數據輸入階段,當一個謂詞輸入進入語義角色標注系統的時候,會先判斷其是否為稀疏謂詞,如果是稀疏謂詞,我們將其替換為其所在聚類集合中的常見謂詞,如果聚類集合中存在多個核心謂詞,則選擇距離最近的常見謂詞;如果是噪聲向量即沒有所屬聚類集合的謂詞,以及常見謂詞,我們不做任何替換。

2.3 詞向量模糊機制

語義角色標注任務的目的是獲取文本中詞語與謂詞的語義關聯,因此語義角色標注模型實際上學習的是每個詞語與謂詞之間的關系,每個詞語具有獨立的語義。在訓練之前,詞向量之間不能體現相互間的關系,所以在模型訓練可以說是從零開始的。為此我們引入了詞向量“模糊”機制,利用距離的概念減小原始詞向量的語義表示性并提升與謂詞詞向量的相關性。

本文在數據輸入階段,對輸入句子的所有詞語進行詞向量初始化,然后利用下列公式分別計算非謂詞與謂詞之間的距離di和距離總和d。

(13)

d=∑di

(14)

詞向量模糊機制由非謂詞詞向量以及謂詞詞向量和乘積相加操作組成,如式(15)所示,經過這樣處理的詞向量在一定程度上減小了其原始語義信息的表示程度并提升了與謂詞詞向量的相關性。wd表示非謂詞詞向量,wp表示謂詞詞向量。

(15)

2.4 基于模糊機制和語義密度聚類的語義角色標注模型

基于Bi-LSTM神經網絡模型,提出了一個基于模糊機制和語義密度聚類的漢語自動語義角色標注模型。

作為SRL模型的一部分輸入,我們將“模糊化”后的詞向量與詞性向量融合為一種的新的特征向量組合,所以在模型構建階段,SRL模型網絡層的輸入向量可以定義為:

在模型的訓練階段,對于整個模型的網絡層來說,輸入應該是融合向量與輸入數據對應的語義角色標簽,所以我們定義模型的輸入為:

數據完成預處理以后,就發送到網絡層開始訓練。隨著神經網絡深度的增加,容易出現過擬合現象,并且泛化能力會有所下降,所以本文構建了4層B-LSTM網絡來用于我們的語義角色標注任務,圖3是一個只有兩層網絡的模型整體框架。

圖3 基于B-LSTM的漢語自動語義角色標注模型

在模型訓練階段,我們使用小批量梯度下降法(MBGD)作為整體的訓練技術,實現目標函數的優化。輸入特征向量通過網絡層的特征學習后,將網絡層輸出送入CRF層使用維特比算法進行序列標記任務。

2.5 CRF(條件隨機場)

在本文的方法中,我們將語義角色標注模型轉換為單詞序列標注問題,因此在我們計算出神經網絡中輸入序列的每個單詞的標簽概率之后,將標簽概率送入CRF層,并且對所有表現序列歸一化處理以完成最優的序列標注。我們使用了維特比算法來進行最優標簽序列的推斷。維特比偽算法如算法1所示。

算法1維特比偽算法

輸入:標簽概率x=(x1,x2,…,xn)、特征向量F(y,x)和權值向量w。

(1) forj= 1 tom

(2)δ1(j)=w·F1(y0=start,y1=j,x);

(3) end for;

(4) fori=2 ton

(5) forl=1 tom

(6)δi(j)=max{δi-1(j)+w·Fi(yi-1=j,yi=l,x)};

(7)ψi(l)=argmax{δi-1(j)+w·Fi(yi-1=j,yi=l,x)};

(8) end for;

(9) max(w·F(y,x))=maxδn(j);

(11) end for;

3 實 驗

3.1 語料與標注模式

本文利用Google開源工具wordvec提供的Skip-Gram模型來訓練維基百科中文數據得到詞向量,并用于對實驗語料進行詞向量初始化。實驗語料選取的是Chinese Proposition Bank(CPB),它是賓州大學人工標注語料庫,標注標注方法和English PropBank類似。CPB僅標注核心動詞及其相關語義角色,共定義了謂語動詞、6類核心語義角色和13類附加語義角色,如Pred、Arg0-Arg5等。在本文的實驗中,我們選取CPB第81分塊至第364分塊(chtb_081.fid~ chtb_364.fid)的文本數據作為訓練數據,選取第1分塊至第17分塊(chtb_001.fid~ chtb_017.fid)作為測試集,第41分塊至第59分塊(chtb_041.fid~ chtb_059.fid)作為開發集。

我們將語義角色的識別和分類任務同時進行,目的是為一個詞給出相應的Arg0-Arg5或者ArgM的標簽。在實際標注過程中,一個語義角色不僅包含一個詞,也有可能由幾個詞組成,簡單地使用像Arg0這樣的標簽并不能真正識別語義角色的邊界或者非語義角色的詞。所以我們采用了IOBES標注策略,使用I-ArgX表示語義角色的中間詞,B-ArgX表示語義角色的開始詞,E-ArgX表示語義角色的結束詞,S-ArgX表示單一詞構成的語義角色,增加標記O為非語義角色的標簽,共計形成77個標簽。

3.2 實驗結果與分析

本文將實驗模型分為四類,分別為:(1) 原始詞向量融合詞性特征向量作為輸入的模型;(2) 對非謂語詞向量進行“模糊”化并融合詞性特征向量作為輸入的模型;(3) 對謂語進行語義密度聚類并將原始詞向量融合詞性特征向量作為輸入的模型;(4) 對謂語進行語義密度聚類并將“模糊”化后的非謂語詞向量融合詞性特征向量作為輸入的模型。為了方便描述,本文將這四類模型分別依次標記為模型一、模型二、模型三和模型四。首先我們語義角色標注模型的角度即dropout概率參數、學習率、向量維度三個影響因子對本文提出的模型四進行性能評估。

默認超參數設置:詞性向量維度為32,訓練次數為150, 隱藏節點數為128。

3.2.1Dropout概率參數實驗對比

我們在表1中對比了不同Dropout概率參數下模型的性能,該實驗的超參數設置:學習率為0.003,詞向量維度為200。具體實驗結果如表1所示。

表1 Dropout概率參數對比實驗

從表1中可以看出,不加入Dropout正則化技術的時候模型的F值僅為73.84%,隨著連接的丟棄概率的逐漸升高,在概率為0.6時模型的F值較概率為0時提高了約5%,達到了78.96%;但是概率參數達到0.7時,模型的F值會下降。從精確度和召回率角度分析,Dropout正則化技術的引入大幅度地提高了精確度,然而,對召回率的影響很小,這說明,Dropout正則化有效地解決了模型過度擬合的問題。

3.2.2學習率實驗對比

我們在表2中對比了不同學習率下模型的性能,該實驗的超參數設置:Dropout概率參數為0.6,詞向量維度為200。具體實驗結果如表2所示。

表2 學習率對比實驗

從表2可以看出,學習率從0.1減小到0.003,模型的F值有了約8%的提升。說明隨著學習率的減小,可以使梯度下降法得到更好的性能,從而提高模型的訓練效率。但是由于本文使用到的數據量不是十分的巨大,所以當學習率降到0.001時,模型的性能反而比不過學習率為0.003時的模型性能。

3.2.3詞向量維度實驗對比

我們在表3中對比了不同詞向量維度下模型的性能,該實驗的超參數設置:Dropout概率參數為0.6,學習率為0.003。具體實驗結果如表3所示。

表3 詞向量維度對比實驗

從表3可以看出,隨著詞向量維度的增加,模型的各個評價指標值都有所增加,說明詞向量維度的增加可以提高特征的區別度,提高模型對特征的捕捉能力;從另一角度來看,三個評價指標的增長幅度都不大,說明word2eVec可以將字詞轉化為稠密向量用于表征詞,能很好地獲取詞義信息。

3.2.4語義密度聚類與模糊機制實驗對比

通過上述三個實驗可以得出結論:當Dropout概率參數為0.6,學習率為0.003,詞向量維度為300,本文模型的性能達到最佳。利用該參數下的模型,我們在表4中對比了加入語義密度聚類和模糊機制模型的性能,具體實驗結果如表4所示。

表4 語義密度聚類與模糊機制對比實驗

從表4中我們可以看出,模糊機制與語義密度聚類對于提升模型的各項指標都有較為明顯的促進作用,說明模糊機制能一定程度上提升非謂詞詞向量與謂詞詞向量的相關性并減小其原始的語義表達能力;語義密度聚類能減小模型對稀疏謂詞訓練不足的缺陷,基本上能讓每個“謂詞-論元”組合都有足夠數量的訓練樣本用于模型的訓練,較大程度地提升模型的性能。

3.2.5不同方法組合的Loss圖

在對四個模型訓練的過程中,我們統計了各個模型的Loss變化曲線,并整合為如圖4所示的曲線圖,以便于觀察比較。

圖4 不同模型的Loss變化曲線圖

從圖4可以看出,在訓練了大概1 400個epoch之后,模型一開始趨于穩定;在訓練了大概1 700個epoch之后,模型2開始趨于穩定;在訓練了大概1 200個epoch之后,模型三開始趨于穩定;在訓練了大概1 300個epoch之后,模型四開始趨于穩定。在將 “模糊”機制應用于SRL模型以后,模型需要更多的數據訓練才能趨于穩定,說明“模糊”機制使得詞向量變得更無規律性,減小了詞向量的原始語義表達能力。但是隨著訓練的進行,訓練后期的Loss值變化相較于其他模型顯得平滑許多,說明“模糊”機制使得非謂語詞向量增大了與謂語詞向量的相關性,在兩者差異性縮小以后,模型的適用性會得到提高。將語義密度聚類應用于SRL模型以后,訓練模型趨于平穩所需要的數據量有了一定程度的縮小,說明語義密度聚類減小了稀疏謂語對于模型訓練不均衡的影響,使得“謂語-論元”的數據變得更加具有代表性。

3.2.6與其他模型實驗對比

通過上述三個實驗可以得出結論:當Dropout概率參數為0.6,學習率為0.003,詞向量維度為300,本文模型的性能達到最佳。我們將用該參數下的模型與其他模型進行性能對比。具體對比結果如表5所示。

表5 與已有標注模型的結果對比

從表5可以看出,本文提出的方法相比較于依賴句法分析和人工特征的傳統方法,F值有了很大幅度的提升,說明基于深度學習的語義角色標注模型能更好地學習字詞特征之間細微差別,對于特征的學習效率更高。本文引入了“模糊”機制和語義密度聚類算法,能提升模型對于數據訓練的密集程度,減小稀疏謂語對于模型訓練不均衡的影響,并提升非謂語詞向量與謂語詞向量的相關性,提升模型的訓練準確度。

4 結 語

為了彌補傳統語義角色標注方法和現有基于神經網絡模型方法的局限性,本文提出了一種基于“模糊”機制和語義密度聚類的漢語語義角色標注模型,并在CPB上進行驗證。實驗表明:本文提出的方法較傳統語義角色標注方法性能有了很明顯的改進,較已有的基于深度學習的語義角色標注模型也有了小幅度的進步。本文對不同的實驗超參數以及不同模型的組合進行了對比實驗,并且在模型訓練過程中使用了Dropout正則化方法來緩解模型過擬合的現象,最終本文提出的模型最好的F值達到了81.24%。雖然本文提出的方法相較于以前的大部分方法,性能上有了一定的改進,但還有很多的不足。例如在語義密度聚類的時候,沒有考慮特征的選擇,而是直接利用距離來判斷謂詞之間語義的相關性進行直接的替換,而且在模型的調優方面沒有做到盡善盡美。后續工作將從詞向量的語義表達形式以及如何將領域信息融入SRL模型進行深入的研究。

猜你喜歡
語義實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 日本91在线| 国产一级特黄aa级特黄裸毛片| 一级毛片免费的| 日韩国产黄色网站| 99草精品视频| 精品撒尿视频一区二区三区| 国产亚洲高清在线精品99| 亚洲av成人无码网站在线观看| 色天堂无毒不卡| 四虎影视8848永久精品| 免费看美女自慰的网站| 国产一二视频| 国产成人久视频免费| 日本久久网站| 免费在线成人网| 欧美天天干| 99re热精品视频国产免费| 午夜影院a级片| 中文字幕无码电影| 国产偷倩视频| 久久婷婷五月综合色一区二区| 国产免费精彩视频| 国产成人精品一区二区免费看京| 国产精品乱偷免费视频| 亚洲欧美日韩另类| 日韩欧美国产另类| 这里只有精品在线播放| 成人免费一区二区三区| 少妇精品网站| 精品国产网站| 91在线国内在线播放老师| 在线观看国产精品一区| 国产在线观看99| 日韩成人在线一区二区| 亚洲第一成年人网站| 中文字幕免费在线视频| 久久a级片| 亚洲精品动漫| 亚洲国产精品美女| 亚洲人成网站在线播放2019| 久久精品中文字幕免费| 国产极品美女在线播放| 午夜视频在线观看免费网站 | 亚洲国产欧洲精品路线久久| аⅴ资源中文在线天堂| 日本高清在线看免费观看| 亚洲一区二区三区香蕉| 国产精品太粉嫩高中在线观看 | 91小视频在线观看| 精品1区2区3区| 色AV色 综合网站| 国产三级韩国三级理| 欧美激情视频一区二区三区免费| 亚洲性一区| 免费毛片在线| 91在线精品麻豆欧美在线| 欧美黄色网站在线看| 日韩欧美色综合| 波多野结衣二区| 国产色偷丝袜婷婷无码麻豆制服| 自慰高潮喷白浆在线观看| a级毛片免费网站| 中文字幕久久波多野结衣| 亚洲天堂区| 国产精品无码AⅤ在线观看播放| 国产91麻豆视频| 国产在线视频自拍| 亚洲国产精品不卡在线| 久久精品国产精品国产一区| 国产第一页亚洲| 国产综合精品一区二区| 亚洲精品亚洲人成在线| 国产精品视频公开费视频| 欧美成人a∨视频免费观看| 国产精品hd在线播放| 大香网伊人久久综合网2020| Jizz国产色系免费| 国产高颜值露脸在线观看| 国产精品无码一区二区桃花视频| 又粗又硬又大又爽免费视频播放| 91精品久久久无码中文字幕vr| 日本不卡免费高清视频|