999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存關系和雙通道卷積神經網絡關系抽取方法

2019-04-15 06:55:52吳佳昌吳觀茂
計算機應用與軟件 2019年4期
關鍵詞:單詞特征模型

吳佳昌 吳觀茂

(安徽理工大學計算機科學與工程學院 安徽 淮南 232001)

0 引 言

關系抽取作為自然語言處理中最重要的任務之一,其結果直接影響著接下來信息抽取、機器翻譯、自動問答系統等任務的進行,所以好的關系抽取結果則是進行其他任務的前提條件。

關系抽取方法主要分為三類:有監督、半監督和無監督的學習方法。有監督的學習方法雖然能夠有不錯的表現,能提取更有效的特征和更高的準確率和召回率,但比較依賴于人工標注語料。作為無監督的學習方法,其假設擁有相同語義關系的實體對擁有相似的上下文關系,用相似的上下文信息來對語義關系進行聚類,相對來說準確率沒有有監督的學習方法高。

針對有監督學習方法需要大量人工標注語料和無監督學習方法的低準確率,Mintz提出了遠程監督的學習方法。這是一種標注方法,把知識庫中存在的實體與實體的關系引入到正常的自然語言中進行訓練。

作為深度學習中的重要技術,卷積神經網絡有很強的提取深層特征的能力,在圖片識別領域取得了重要的成功,在文本分類方面也表現不錯。但是對于單通道、單一詞向量的模型輸入,所提取的特征還是不夠完整。本文重點研究有監督學習,并針對上述問題提出雙通道卷積神經網絡,一個通道輸入詞向量訓練模型得出的句子向量,另一個通道輸入句子的依存關系向量,然后進行特征的自動提取,通過softmax分類器進行分類。這個模型相對于單通道、單一詞向量的卷積神經網絡有一定的提升。

1 相關工作

關于實體關系抽取任務,經歷了很長時間的探索和發展,也嘗試采用了很多方法來實現關系抽取,比如說基于特征工程的方法[1]、基于核函數的方法等。有監督的分類方法是最常用的實現方法,而且也有很好的表現。近幾年越來越多的人開始使用神經網絡來解決關系抽取問題。Liu等[2]第一次提出使用卷積神經網絡(CNN)來解決關系抽取問題,雖然效果不錯,但是因為結構比較簡單、沒有池化層,而存在較多噪聲。文獻[3]使用了較完整的CNN模型,pre-train的詞向量,而且其中加入了詞的位置特征向量,不過只有一種卷積核,特征比較單一。針對卷積核大小單一的問題,文獻[4]提出了多尺寸卷積核的CNN模型,不過還是傳統的CNN結構,沒有明顯的提升。文獻[5]在CNN結構上沒有太多變化,只是采用了Ranking Loss的損失函數,比之前的softmax效果好。文獻[6]采用雙向RNN(遞歸神經網絡)結構,加入了實體的位置標簽,取得的效果與CNN模型差不多。

文獻[7]開始在大規模的數據集上做關系抽取,使用了多實例學習來減弱遠程監督帶來的噪聲問題,而且在池化層也做了改進,采用了分段最大池化,更充分有效提取句子特征信息,也取得了較好的結果。文獻[8]在文獻[4]的基礎上加入了attention機制,給賦予句子不同的權重,突出想要的信息,過濾掉噪聲,充分利用信息,但是CNN模型還是適合用于短文本,RNN模型更適合長文本。文獻[9]中加入句子級別的attention機制,使用CNN模型結合靜態詞向量就取得了很好的效果。

從上述文獻中可以看出,深度學習的方法在實體關系提取方面取得了不錯的效果。如果加上的傳統自然語言標注信息,效果可能更好。針對這個想法,本文提出了雙通道卷積神經網絡模型,其中利用自然語言處理工具加入了語義依存分析信息,能夠深層次的提取兩個單詞之間的語義關系,通過實驗證明了其有效性。

2 實體關系抽取

2.1 實體關系抽取模型

為了進一步提升深度學習實體關系抽取的能力,結合自然語言處理工具,將依存關系加入到特征提取中,使網絡提取更深的提取能力。本文提出基于依存分析和雙通道卷積神經網絡的實體關系抽取模型如圖1所示。此模型包含有映射層、卷積層、池化層和輸出層。與一般卷積神經網絡不同的是它擁有兩個通道的輸入向量:通道一使用Word2vec訓練的詞向量;通道二使用權威自然語言處理工具標注之后得到的詞性和依存關系對向量。通過卷積核將兩個通道的特征提取到一個總的特征圖,再經過分段池化層的過濾,得到相對于最大池化更多的特征,最后送入分類器進行分類。

圖1 神經網絡結構模型示意圖

作為深度學習中一種著名的神經網絡,卷積神經網絡已經廣泛應用于圖像識別、語音識別等領域,并取得出色的結果。它有出色的特征提取能力,能夠提取深層特征,并且還能消除一定的噪聲。卷積神經網絡包括輸入層、卷積層、采樣層和輸出層。針對不同的任務,構造不同的模型結構,達到最好的效果。

整個實體關系抽取流程如圖2所示。將數據集中的數據分別進行依存分析和詞向量訓練,得到的向量矩陣再送入雙通道卷積神經網絡中進行實體關系抽取。

圖2 實體關系抽取流程圖

2.2 詞向量表示

詞向量是詞的一種基于神經網絡的分布式表示,是基于分布式假說對目標詞進行建模,其思想就是相似的上下文信息,那么其所對應的語義關系也相似。主要的工作就是上下文的表示,以及對上下文和實體詞之間的關系建模。詞向量將每個詞映射到一個某個k維的真值向量,維數較低而且能很好地捕獲句子語義和句法特征,所以在很多NLP任務都有很好的表現。

目前對于訓練詞向量的方法常用的兩種:Word2vec和GloVe。其中的Word2vec是由Google提供的開源詞向量訓練工序。CBOW和Skip-gram是Word2vec中兩種訓練模型,CBOW是通過上下文來預測目標詞,而Skip-gram是通過目標詞來預測上下文,總的思想都是相似的上下文有相似的目標詞。本文使用Skip-gram來訓練詞向量,詞向量的維數默認設置為300維。

為了更精確地表示和映射出詞嵌入,我們在每個詞嵌入的后面附加了其位置信息,就是體現當前這個詞與句中實體的距離大小。其表達形式為(d1,d2)的一個元組。

例如某個單詞的位置信息元組為(3,-2),3為單詞到實體e1的矢量距離,而-2為單詞到實體e2的矢量距離,從左到右表示矢量正向,從右到左表示矢量負向,正數表示單詞在實體的右側,復數表示單詞在實體的左側。將每個詞的位置信息加到每個詞向量之后,組成一個新的向量。加入了位置信息的單詞結構表現形式為【word,d1,d2】,其中:word表示某個單詞;d1表示單詞到實體1的距離;d2表示單詞到實體2的距離。詞結構表現形式如表1所示。

表1 詞結構表現形式

加入位置信息后的詞序列按照單詞的順序劃分為:

S={s1,s2,…,sn}

然后使用Word2vec中訓練好的Skip-gram模型得到詞向量,每個詞向量形如[0.792,-0.177,-0.107,0.109,-0.542,…]是一種低維向量,相較于獨熱向量表示方法,既不會造成維數災難也能表示詞與詞之間關聯,包含的語義信息也更豐富。這些詞向量按照詞原有的順序排列,組成一個矩陣,長度為n,寬度為d,然后將這個矩陣作為卷積神經網絡一個通道的輸入。

2.3 依存分析

依存分析的目的是為了發現兩個單詞之間的句法結構和語義關系,這種兩個單詞之間的關系被稱為依存關系。

依存分析包括依存句法分析和語義依存分析。依存句法分析主要是通過識別句中詞語成分如“主謂賓,定狀補”,來分析各成分之間的依賴關系,并分析句子的句法結構。語義依存分析能夠分析兩個詞語之間更深層次的語義關系,跨越句法結構的束縛,不同的句法結構可能表達的語義是相同的。文獻[10]中使用RNN來得到句子的最短依存路徑,然后加入到詞向量中,使用卷積神經網絡來提取特征,取得了不錯的效果。

本文使用的是來自斯坦福大學開發的自然語言處理工具Stanford CoreNLP,這是被廣泛認可的自然語言處理工具。利用Standford CoreNLP對句子進行預處理,包括分詞、詞性標注、命名實體識別和依存句法分析。

依存關系對表現形式為:依存關系(依存詞,核心詞),依存關系是核心詞和依存詞之間的關系,而且這個關系是有方向的,依存詞指向核心詞,支配詞支配依存詞,這種支配關系不受距離的影響。

例如對句子“Adults use drugs for this purpose.”進行語義依存分析,結果如圖3所示。圖3中每個單詞上方的大寫字母縮寫表示它們的詞性,NNS表示復數名詞;VBP表示非第三人稱動詞;IN表示連詞;DT表示限定詞;NN表示單數名詞。這個句子的依存關系對表示為:nsubj(use-2, Adults-1),root(ROOT-0, use-2),dobj(use-2, drugs-3),case(purpose-6, for-4),det(purpose-6, this-5),nmod(drugs-3, purpose-6)。nsubj表示名詞性主語,這里指的是“Adults”;root表示根節點,一般指向句子中的謂語,這里指向“use”;dobj表示直接賓語;case表示格位標志;det表示限定詞;nmod表示復合名詞修飾。這些依存關系在圖中表現為兩個詞通過一條有向弧線連接,由一端的依存詞指向另一端的核心詞。每個單詞后所帶的數字表示它在句子中的序號。

圖3 語義依存分析示例

本文首先將數據集中的數據進行依存分析之后,輸出一個以單詞為單位的元組,其結構表示為【POS,DR】,其中:POS表示句子中單詞的詞性;DR表示依存關系。其對應的是每個單詞和其依賴詞匯組成的依存對,表現形式為r(n1,n2),r是兩個單詞的依存關系;n1是依存詞在句子中的序號;n2是核心詞在句子中的序號。Stanford CoreNLP輸出結果如表2所示。這n個元組按詞序排列,同樣使用Word2vec訓練得到詞向量矩陣,這個矩陣寬度是d,長度是n(n為句子的長度),記為R1∈Rn×d,作為通道一的輸入向量。

表2 Stanford CoreNLP輸出結果

2.4 卷積過程

卷積層中,通過滑動卷積核(也稱過濾器),與輸入向量進行卷積操作,最后得到一個特征圖。R1,R2∈Rd×n作為卷積層的輸入矩陣,其中n為句子S的長度(詞的個數),d為矩陣寬度。

兩通道的輸入矩陣寬度是一致的,從而方便了兩個通道的卷積操作。兩個向量矩陣上下排列,然后每個過濾器從通道一慢慢滑動到通道二,完成一次完整的卷積操作。

這樣的連接方式好處是:1) 減少了參數的個數,一定程度上減少了過擬合的可能性,從而提高了訓練速度;2) 破壞了結構對稱性,從而能提取出不同特征。

過濾器的寬度為d,與輸入矩陣寬度一致,高度為h,而過濾器的權值向量被隨機初始化W,其中W={w1,w2,…,wm},有m個過濾器,每個過濾器包含h*d個參數,R表示輸入向量矩陣,R[i:j]表示矩陣R中第i行到第j行,其中j=i+h-1。

在卷積過程中,有兩種滑動情況如下:

1) 過濾器在同一個通道滑動,即過濾器和矩陣R的第i行到第j行進行卷積操作。

cki=f(Wk·R[i:j]+b)

1≤i≤n,i≤j≤n,j=i+h-1

(1)

式中:b表示偏置;f為非線性激勵函數ReLU,能夠快速得到較為精確的正確特征。

2) 過濾器在兩個通道中同時滑動。

cki=f(Wk·{R1[i:n]:R2[1:j]}+b)

n-h

(2)

式中:R1、R2分別是通道一、通道二的輸入向量矩陣。過濾器從通道一滑動到通道二,橫跨兩個通道,經過完整卷積操作之后得到一個特征圖C。

C={c1,c2,…,cm}∈Rm×(2s-h+1)

式中:2s-h+1為特征圖C高度;m是C的寬度。

2.5 分段最大池化過程

池化層能降低輸出結果的維度,還能保留最主要的特征。對于常見的最大池化操作,就是為了讓輸出的特征與其輸入的句子長度無關,也就是無論輸入的句子長度是多少,輸出的特征長度是不變的。單獨的最大池化操作被普遍使用,但是卻不足以用于實體關系抽取。其用來提取特征太過粗糙,也無法準確提取兩個實體之間的結構性信息,因此本文采用分段式最大池化操作。

如圖1所示,將卷積層得到的特征圖分為三段。第一段、第三段分別是對通道一和通道二進行卷積操作得到的特征圖,第二段是對兩通道同時進行卷積操作得到的特征圖,將此特征圖進行分段最大池化(piecewise max-pooling)。高度為4、5的過濾器也是同樣操作。

pki=max{cki}

(3)

式中:1≤k≤n,i=1,2,3對應著卷積層的三段輸出,每一段進行最大池化操作得出pk={pk1,pk2,pk3},將所有得到的pk拼接起來,得到一個特征向量。記

p1:m=[p1,p2,…,pm]

再通過一個非線性激勵函數最后輸出結果向量。

y=tanh(p1:m)

(4)

y∈Rm的大小是固定的而且和輸入句子的長度n無關。最后將得到特征向量送入softmax分類器進行分類。

2.6 Dropout及分類層

針對深度學習訓練過程中出現的過擬合問題,Hinton提出了Dropout技術。過擬合問題有兩個原因:一是訓練樣本數量太少,二是構建的模型復雜度過高。通常可以采用增加訓練樣本的數量、數據擴充和正則化約束。Dropout思想就是正則化約束的一種實現形式,通過隨機丟棄一些隱藏層神經元,使用修改過后的網絡進行前向傳播和反向傳播,能夠有效地防止過擬合的發生。

本文在最后第二層加入Dropout技術來實現正則化,在前向傳播途中,以一定的概率p來丟棄一些隱藏層神經元來防止過擬合。

g=(y?r)

(5)

式中:r∈Rm是以概率為p的Bernoulli隨機變量向量;?表示按位相乘;y∈Rm則是池化層的輸出結果。最后將經過Dropout處理得到的向量g輸入到softmax分類器中。

O=Wtg

(6)

式中:Wt∈Rm1×m是一個轉換矩陣,而O=[O1,O2,…,Om1]∈Rm1,∑Oi=1,這是softmax層也是最后的輸出結果。其中每個元素表示其對應類別的概率,概率最大元素所對應的類別就是分類結果。m1表示可能的關系類型數目,實驗數據使用的是SemEval 2010 Task8數據集,其中包含10種關系類型分類。

2.7 模型訓練

本文模型中可訓練參數為θ=(R1,R2,W,Wt),其中R1,R2分別是通道一和通道二訓練好的向量矩陣,W∈Rd×h是卷積核參數,Wt是softmax分類器的轉換矩陣。本文使用的損失函數為:

(7)

3 實 驗

首先介紹數據集,然后通過交叉驗證確定模型參數,比較不同池化策略的池化效果,將本文方法和不加入詞性和依存關系的模型在整體識別率和各個類別的識別率上相比較,最后得出結論依存關系對實體關系抽取的影響。

3.1 數據集

本文使用的數據集是SemEval 2010 Task8數據集,其中包括8 000條訓練數據,2 717條測試數據,數據集中訓練樣例如下所示:

″ have been moving back into .″

Entity-Destination(e1,e2)

Comment:

第一行是句子,其中兩個實體已經通過“,”標注出來;第二行是兩個實體的關系;第三行是備注。這個訓練數據集包含10種實體關系,如表3所示。

表3 10種實體關系

3.2 超參數設置

表4 超參數設置表

其中詞向量維度、學習速率、卷積核高度、正則化項設置為默認值,其他項通過十折交叉驗證法得到。通過將訓練集分成十份,輪流將其中一份作為測試集,其他9份作為訓練集,經過多次實驗得到上述參數。圖4分別列出了卷積核個數和Dropout比率對F1值的影響。可以看出,在此實驗中隨著卷積核數量和Dropout比率的增加,F1值逐漸增大,當卷積核數量為150和Dropout比率為0.6時,F1值最高。但隨著它們的繼續增大,F1值反而下降,說明過多的卷積核數量并不能提取更多有效特征,更高的Dropout比率反而會導致準確率的下降。

圖4 交叉驗證結果

3.3 不同池化策略對比

不同的池化策略有不同的過濾效果,對最后的分類效果也會產生影響,表5討論了在三種池化策略下模型的F1值表現。三段池化是本文采用的策略,根據卷積操作形成的三段特征圖進行分段最大池化;二段池化則是以同時通過兩通道的部分為界,對上下兩部分進行最大池化。從結果看來,分段最大池化比最大池化效果有0.8%的提升,三段池化相對于二段池化有略微提升。

表5 不同池化策略下的實驗結果

3.4 實驗結果與分析

本文使用準確率、召回率和F1值來評價這個模型的性能。各模型性能參照如表6所示。

表6 各模型性能表

通過實驗數據可以看出,在使用普通的CNNs和PCNNs(分段卷積神經網絡),F1值只有82.7和83.1,而PCNNs加上詞性標注POS,F1值有83.9;PCNNs加上依存關系DR之后,F1值變為84.4;而本文模型(PCNNs+POS+DR)所獲得的F1值為85.1。本文方法相對于傳統卷積神經網絡來說有約2.4%的提升,也比單純加入詞性和依存關系的模型有提升。

另外,本文方法相對于PCNNs在每項類別上的識別效果如圖5所示。使用本文方法后,相對于PCNNs有總體2%的提升,從每個類別識別效果來看,提升的大小不同,類別Entity-Origin和類別Entity-Destination大約有3%的提升,而類別Instrument-Agency和類別Other提升較少,說明加入了語義依存分析之后對整體識別效果有一定的提升,但是個別類別的識別效果提升不大。

圖5 各項類別的F1值

根據實驗可以得出以下結論 :

(1) 在引入依存分析作為特征之后,明顯比單純從Word2vec訓練的詞向量中提取特征來得更加準確,因為此模型能從語義層次提取句子中的信息,更好地反映句子的語法結構,分類性能也更好。綜上,加入的特征越多,分類的結果也越準確,當然也得考慮不能有過多的參數,不然很難擬合。

(2) 使用卷積神經網絡模型和自然語言處理工具相結合,比單一使用卷積神經網絡等機器學習模型來得效果好,再加上卷積神經模型善于提取平面特征,能夠出色地完成關系抽取任務。

4 結 語

本文針對單一使用訓練之后的詞向量提取特征或者自然語言處理工具來實現關系抽取,提出了一種基于依存關系的雙通道卷積神經網絡模型。Word2vec訓練的詞向量和由自然語言處理工具得出的依存關系對分別作為模型兩通道的輸入向量,經過實驗表明,兩者結合能夠有效提高F1值。不過這是基于有監督的情況下,更多的時候需要從一些無結構的語句中提出實體關系,而且要做到準確率高,還需要繼續研究。

猜你喜歡
單詞特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
3D打印中的模型分割與打包
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日本三级欧美三级| 日韩精品亚洲精品第一页| 青青草原国产免费av观看| 欧美性猛交xxxx乱大交极品| 日韩乱码免费一区二区三区| 欧美国产综合色视频| 国产一区在线视频观看| 国产精品第一区在线观看| 亚洲中文字幕23页在线| 亚洲看片网| 亚洲91精品视频| 波多野结衣一区二区三区AV| 中文字幕av无码不卡免费| AⅤ色综合久久天堂AV色综合| 国产精品精品视频| 亚洲av无码片一区二区三区| 国产99视频精品免费观看9e| 国产日本视频91| 久久人人97超碰人人澡爱香蕉| 欧美成a人片在线观看| 国产精品大尺度尺度视频| 欧美国产精品不卡在线观看| 在线观看91香蕉国产免费| 大香网伊人久久综合网2020| 毛片在线看网站| 丰满人妻中出白浆| 亚洲美女久久| 国产成人免费| 免费在线a视频| 91精品情国产情侣高潮对白蜜| 天天综合天天综合| 色婷婷久久| 亚洲一区二区三区中文字幕5566| 欧美在线导航| 国产激情无码一区二区免费| 国产日韩久久久久无码精品| 久久久久国产一级毛片高清板| 免费一看一级毛片| 超碰aⅴ人人做人人爽欧美 | 日韩a级片视频| 国产va在线| 黄色网页在线观看| 香蕉精品在线| 99九九成人免费视频精品| 亚洲国产天堂久久九九九| 99re精彩视频| 日韩精品一区二区三区大桥未久| 波多野结衣一区二区三区四区视频 | 亚洲成人高清在线观看| 国产在线自在拍91精品黑人| 亚洲成A人V欧美综合天堂| 久久精品无码中文字幕| 一级毛片免费不卡在线视频| 东京热高清无码精品| 91原创视频在线| AV不卡国产在线观看| 青青青视频免费一区二区| 青青操视频免费观看| 在线看AV天堂| 国产女人水多毛片18| 夜夜拍夜夜爽| 99久久国产综合精品女同| 91精品国产综合久久不国产大片| 欧美成人国产| 日本精品视频一区二区| 欧美日韩成人在线观看| 国产精女同一区二区三区久| 综合网久久| 国产亚洲欧美日韩在线观看一区二区| 成年片色大黄全免费网站久久| 日韩午夜伦| 国产一区二区网站| 亚洲第一黄色网址| 成年人久久黄色网站| 伊人久久福利中文字幕| 亚洲无码一区在线观看| 一级看片免费视频| 伊人大杳蕉中文无码| 蜜芽一区二区国产精品| 久久亚洲精少妇毛片午夜无码 | 亚洲最大在线观看| 免费人成在线观看成人片 |