999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合全局向量特征的神經網絡依存句法分析模型

2018-04-02 03:20:31王衡軍司念文宋玉龍單義棟
通信學報 2018年2期
關鍵詞:特征分析模型

王衡軍,司念文,宋玉龍,單義棟

?

結合全局向量特征的神經網絡依存句法分析模型

王衡軍1,司念文1,宋玉龍2,單義棟1

(1. 解放軍信息工程大學三院,河南 鄭州 450001;2. 73671部隊,安徽 六安 237000)

利用時序型長短時記憶(LSTM, long short term memory)網絡和分片池化的卷積神經網絡(CNN, convolutional neural network),分別提取詞向量特征和全局向量特征,將2類特征結合輸入前饋網絡中進行訓練;模型訓練中,采用基于概率的訓練方法。與改進前的模型相比,該模型能夠更多地關注句子的全局特征;相較于最大化間隔訓練算法,所提訓練方法更充分地利用所有可能的依存句法樹進行參數更新。為了驗證該模型的性能,在賓州中文樹庫(CTB5, Chinese Penn Treebank 5)上進行實驗,結果表明,與已有的僅使用LSTM或CNN的句法分析模型相比,該模型在保證一定效率的同時,能夠有效提升依存分析準確率。

依存句法分析;圖模型;長短時記憶網絡;卷積神經網絡;特征

1 引言

句法分析作為自然語言處理的一個重要環節,對于提升機器理解文本的準確率具有重要作用。依存句法分析因其靈活簡潔、易于理解和標注等特點而受到大量研究人員的青睞,準確率也不斷提升。文獻[1]最早提出將依存句法分析歸結為從一個完全有向圖中尋找最大生成樹問題,采用在線學習算法學習邊的權值,模型解碼利用Eisner算法[2],通過自底向上不斷合并低階子樹,構成更高階的子樹,直到找出最優依存句法樹結構。

傳統的基于圖的依存句法分析[1~6]采用線性模型計算樹的分值,樹的分值由滿足特定結構的子樹分值之和確定,子樹的分值由該子樹的特征函數和相應權向量乘積得到。典型的線性模型依存分析器如MSTParser[1]已經能夠達到一定的準確率,然而,這類傳統模型依靠人工設計的特征模板提取特征,存在明顯不足:1) 特征提取過程受限于固定的特征模板,難以獲取實際真正有效的特征;2) 特征模板的設計依賴于大量的領域知識,只有通過特征工程進行不斷的實驗選擇,來提升準確率;3)所提取的特征數據稀疏,且不完整。

近年來的研究多將深度神經網絡(DNN, deep neural network)應用到依存分析中[7~11],采用分布式詞向量作為輸入,利用DNN從少量的核心特征(詞和詞性)自動提取復雜的特征組合,減少了人工參與的特征設計,取得了比傳統模型更好的效果。這個過程中,DNN被用于自動特征提取,訓練出一個非線性得分模型,輸出任意2個詞之間的依存關系得分,模型解碼依然采用傳統的最大生成樹算法。

文獻[7]提出了一種前饋神經網絡(FNN, feed-forward neural network)依存分析模型,但由于FNN通常受到窗口大小的限制,和傳統的n-gram語法特征類似,只能利用有限的上下文信息。

文獻[8,9]采用時序型長短時記憶網絡建立依存分析模型,當前時刻的網絡輸出由當前時刻輸入和前一時刻輸出共同決定,通過這樣的循環結構,理論上可以利用到無限長度的上下文信息。實驗結果驗證了LSTM比FNN的依存分析效果更好。

文獻[10]采用卷積神經網絡進行高階基于圖的依存分析,試圖利用CNN從句首到句尾的卷積操作,克服FNN的窗口大小限制,提取更大范圍的上下文特征,改善基于圖的依存分析在計算子樹得分上的局部決策問題。與文獻[7~9]的最大化間隔訓練不同,本文采用了概率標準進行訓練,將所有依存樹的得分概率化,考慮的情形更加一般,在一定程度上提升了模型準確率。但是其使用的三階模型復雜度較高,分析效率受到一定限制。

文獻[11]將CNN和LSTM結合進行依存分析,利用CNN提取字符特征,形成字符級別的向量表示,再結合詞向量共同輸入LSTM。與文獻[10]類似,采用對數似然的概率標準進行訓練。由于字符級別特征的加入,該模型取得了更好的結果。

上述的依存分析模型中單獨使用LSTM,只能提取到詞向量特征,只有文獻[11]同時結合了CNN和LSTM,可以分別提取字符向量特征和詞向量特征,效果上也達到了最佳。實際上,由于CNN在句子結構建模上效果很好[12,13],可以用來提取整句級別的全局特征,這與文獻[11]利用CNN提取字符特征的應用恰好相反。基于該思路,本文將CNN和LSTM結合進行依存分析。首先,預訓練的分布式詞向量用來表示單個詞語,作為網絡輸入。然后,將標準的雙向LSTM和經過改進的CNN結合使用,與文獻[11]不同,本文的CNN和LSTM以并行方式進行特征提取,分別提取詞向量特征和全局向量特征,其中,全局向量特征關注支配詞與被支配詞的上下文特征以及整個句子中的位置和相對順序等特征,形成一個包含整句信息的全局向量。最后,輸入到FNN中并行訓練,輸出依存弧的得分。模型訓練中采用基于概率模型的訓練方法,與最大化間隔訓練方法相比,更充分地利用所有的可能依存樹進行參數更新。

為了驗證模型的依存分析性能,在賓州中文樹庫上進行依存句法分析實驗。實驗結果表明,本文提出的結合LSTM和CNN的特征提取方法與單獨采用LSTM或CNN的模型相比,能夠利用更加豐富的特征,有效提升依存分析準確率。同時,基于概率模型的訓練方法在效果上也優于最大化間隔訓練方法。

2 相關研究

2.1 基于圖的依存分析

依存句法分析的目的是為每個句子建立一棵有向的、帶根節點的依存句法樹。一棵標準的依存句法樹結構如圖1所示,樹節點為句子中的詞語,節點之間的有向弧(依存弧)表示父節點(支配詞)和子節點(被支配詞)的依存關系及類型,依存關系類型用來表示2個詞之間的句法或語義關系。句子下方標注了詞語的詞性和在句中的相對位置。

圖1 依存句法樹結構

根據子樹中包含的依存弧數目,可將子樹劃分為不同的階數。根據依存分析模型所采用的最大子樹的階數,可將其劃分為一階[1]、二階[3,4]、三階[5]以及更高階模型[6]。文獻[1]最早提出了一階線性模型,其假設弧與弧之間沒有關聯,單個弧相當于一棵子樹,依存句法樹分值等于該樹所包含的所有依存弧分值之和。由于模型階數越高,在分析準確率上升的同時,大量的子樹特征計算極大地提升了模型復雜度,降低了效率。因此,在準確率和效率兼顧的前提下,目前一階和二階模型的研究和應用較為廣泛。

2.2 神經網絡依存分析

近年來,基于深度學習的方法在自然語言處理中應用廣泛。深度神經網絡(DNN, deep neural network)結合詞的分布式向量(distributed embedding)作為輸入,在詞性標注[14]、命名實體識別[15]、文本表示[16]、機器翻譯[13]等任務上實現了較大的提升。關于DNN在依存句法分析領域的應用,近年來有許多深入的研究工作。由于DNN在特征提取和表示上的優勢,極大緩解了傳統方法的特征依賴問題,DNN自動提取的特征優于人工設計的特征,使依存分析在性能上有較大提升。因此,當前主要關注神經網絡下的依存分析模型。

基本的前饋神經網絡(FNN, feed-forward neural network)依存分析模型如圖2所示,由輸入層、隱含層和輸出層構成,其中,隱含層可由多個層構成。文獻[17]首次采用FNN對基于轉移的依存分析進行建模,將stack和buffer中主要元素(共18個)的分布式向量送進輸入層,采用交叉熵目標函數訓練一個神經網絡分類器,為每次所要采取的轉移動作做分類決策。與傳統的使用大量特征模板相比,該模型特征集合僅包含18個元素,極大簡化特征設計過程,保證一定的分析準確率,并且速度上有很大提升。在文獻[17]的基礎上,文獻[18]將FNN拓展到更深層的模型,并在最后一層增加感知層,采用柱搜索解碼,進一步提升分類器的準確率。文獻[19]同樣使用FNN模型,采用全局歸一化策略,設計基于特定任務的轉移系統,實現FNN模型下效果最佳的基于轉移的依存分析器。在基于圖的依存分析方面,文獻[7]將FNN應用到基本的圖模型中,訓練出一個非線性的得分模型,輸出每個依存弧分值,采用最大生成樹算法從圖中搜索最佳樹結構。

圖2 FNN依存分析模型

由于FNN存在窗口大小限制,研究者們采用具有循環結構的時序型LSTM神經網絡進行依存分析。與FNN相比,LSTM更加擅長處理序列化數據,可以很好地利用輸入序列的歷史信息,分析其整體邏輯關系。與普通的循環神經網絡(RNN, recurrent neural network)相比,LSTM引入了記憶核(memory cell)和門機制,解決梯度消失/爆炸問題,可以學習到更長距離的依存關系特征。文獻[20]首次將LSTM應用到基于轉移的依存分析中,利用LSTM分別為轉移系統中的堆棧建模,取得了比FNN更好的效果。文獻[9]提出了更加一般的基于bi-LSTM的特征提取器,采用特征提取器獲取詞語及其上下文特征表示,并將其應用到基于轉移和基于圖的依存分析框架中,都取得了很好的效果,如圖3所示。文獻[8]采用LSTM提取詞向量特征后,進一步加入了一種分段向量,該分段向量由單向LSTM的隱含層向量相減獲得,理論上包含句子層面的全局特征,實驗也表明其能夠提升長距離依存分析的準確率。

最近的依存分析模型將注意力機制引入LSTM神經網絡,如文獻[21]提出的基于雙向注意力的神經網絡依存分析模型,文獻[22]提出的支配詞動態選擇策略的依存分析模型。其中,文獻[22]設計了雙向仿射得分函數,采用交叉熵目標函數訓練,實現目前最好的依存分析效果。

圖3 bi-LSTM依存分析模型

3 結合全局向量特征的依存分析模型設計

本文提出的依存分析模型基于當前廣泛應用的LSTM神經網絡,在此基礎上,在模型輸入層之后增加特征層,特征層中引入一種全局向量特征,設計分片池化的CNN提取該全局特征向量。通過結合LSTM提取的上下文詞向量特征以及CNN提取的句子級別的全局向量特征,使句法分析模型在不增加所使用的基本特征的情況下,充分利用到更豐富的特征組合,提升分析準確率。

具體的模型結構如圖4所示。主要分為以下幾個部分。

圖4 加入特征層的bi-LSTM依存分析模型

1) 輸入層。對于給定句子中的每個詞語,在預訓練的詞向量矩陣中進行索引,生成相應的詞向量序列作為模型輸入。

2) 特征層。對輸入的詞向量進行特征提取,采用bi-LSTM和分片池化的CNN分別提取上下文詞向量特征和全局向量特征。

3) 隱含層和輸出層。對提取后的特征進行組合和非線性變換,輸出層給出依存弧的分數值。

下面分別就特征層的詞向量特征、全局向量特征和基于概率的訓練方法進行詳細介紹。

3.1 詞向量特征

由于分布式詞向量本身含有詞語之間相似度信息,對詞性標注和句法分析等任務是很好的原始特征。本文采用預訓練的分布式詞向量作為輸入,然后采用bi-LSTM對其進行處理,提取上下文詞向量特征,該過程如圖5所示。

圖5 bi-LSTM提取詞向量特征過程

bi-LSTM輸出向量聚合了詞語前向和后向的上下文信息,將其作為詞向量特征,與原始詞向量相比,融入了更加豐富的上下文信息,能夠更好地利用長距離依賴特征。

3.2 全局向量特征

卷積神經網絡在自然語言處理中應用廣泛,文獻[12]提出在機器翻譯任務中,采用CNN對句子進行建模,通過分塊池化最大限度保留原始句子的語義信息,得到全局級別的句子向量表示。依存句法分析中,支配詞和被支配詞的上下文信息對分析其搭配關系十分重要,充分利用該特征有利于提升依存分析準確率[1,7]。為提取這類特征,借鑒文獻[12]的思想,通過改進標準的CNN結構,將其應用于提取句子級別的全局向量特征,如圖6所示。

卷積神經網絡的工作過程分為以下3個部分。

其中,向量表示大小為win的窗口內的詞向量,為權重矩陣,為偏移向量,函數為tan h非線性激活函數。每個filter輸出向量的維度需要和句子長度保持一致,為此,采取通常的做法,對句子首尾分別填充零向量。

圖7 分片池化過程

3) 輸出全局向量。為了得到最終的輸出向量,池化層后緊跟著一個全連接層,將該向量矩陣映射到輸出層,得到輸出向量,即全局向量特征。

由于CNN在池化過程中采用了分片池化方式,針對支配詞和被支配詞的位置進行分片池化,使得到的向量包含支配詞和被支配詞之間的依賴關系、相對位置、在整個句子中的位置等特征信息,并且采用多個filter且每個filter掃描整個句子最終得到該向量,因此稱作該句子的全局向量特征。

模型的特征層將特征詞向量和全局向量特征進行連接,輸入一個簡單的FNN進行訓練。FNN的輸出是一個||維的向量(為依存關系類型集合),每一維即代表一種依存關系類型的得分。

3.3 基于概率的訓練方法

采用最大化間隔算法時,按照目標函數最小化的一般形式,將目標函數設置為[7,8]

最大化間隔訓練算法的優點是可以減少過擬合,同時并不需要太多額外的計算量。但是,在實際訓練過程中,模型參數更新僅依賴于錯誤分析結果,即僅利用最佳預測樹和標準樹之間的誤差,而直接忽略了其他可能的依存樹對參數更新的作用,這樣通過降低計算復雜度的方式,在一定程度上簡化了模型的訓練過程。

訓練中的目標函數定義為

根據以上結果,目標函數可重新定義為

4 實驗與結果分析

4.1 實驗設置

1) 實驗數據及評價指標

實驗采用賓州中文樹庫數據集,該數據集由LDC語言數據聯盟發布,語料主要來源于新華社和部分香港新聞等媒體,句子的平均長度為27個詞,分別進行了分詞、詞性標注和短語結構句法樹構建,共包含33種詞性分類和23種句法標記。

表1 采用Penn2Malt工具轉換CTB5前后對比

由于CTB5數據集本身是短語結構句法樹庫,需要采用Penn2Malt工具將其轉化為依存結構樹庫,在轉換后的數據集上進行依存句法分析實驗。實驗中,采用標準分詞和詞性標注,利用其自帶的支配詞節點發現規則,找到每個詞對應的支配詞節點位置。表1給出了例句“上海浦東開發與法制建設同步”轉換前后的句法結構對比。

其中,表1左側為轉換之前的短語結構樹標注。右側為轉換為依存結構樹后的標注,第1~5列分別表示詞語順序、詞語、詞性、支配詞位置(0表示其支配詞為ROOT虛根節點,其余從1開始)、與支配詞之間依存關系類型。例如:詞性NR、NN、CC、VV表示該詞為專有名詞、普通名詞、并列連詞、其他動詞;位置標記2表示“上海”對應的支配詞為“浦東”,位置標記0表示“同步”的支配詞為ROOT,“同步”為該句的核心動詞;句法關系標記NMOD表示復合名詞修飾關系(上海,浦東),SUB表示主謂關系(建設,同步)。與該例句對應的依存句法樹結構如圖1所示。

按照前人工作中的做法[20],實驗中將數據集劃分為訓練集、開發集和測試集,各部分統計及劃分如表2所示。

表2 數據集統計及劃分情況

在實驗結果評價上,采用無標記依存正確率(UAS, unlabeled attachment score)和帶標記依存正確率(LAS, labeled attachment score)作為依存分析結果評價指標,如式(16)和式(17)所示。

由于和標點符號有關的依存關系不包含額外的句法結構信息,對其進行統計的意義不大,因此,不考慮與標點符號相關的依存關系。

2) 預訓練的詞向量與參數初始化

實驗中所用的預訓練的詞向量,采用谷歌公司的開源工具word2vec在Gigaword語料上訓練得到。word2vec工具是一款簡單高效的詞向量訓練工具,能夠對大量語料分析,將詞語映射到多維向量空間,輸出詞語的向量表示形式。輸出的詞向量包含豐富的詞匯和語義關系,可以被用到許多自然語言處理工作中,例如句法分析、語義角色標注、機器翻譯等。詞向量維度根據訓練時設置的參數而定,本文詞向量維度設定為50維。表3為2個例句在生成的詞向量矩陣中進行索引,得到對應的詞向量數值(只列出了前8維部分數值)。詞性向量和依存關系類型向量的維度設定為30,其元素值統一隨機初始化在區間(?0.05, 0.05)內。模型中其他待初始化的權重矩陣和偏移向量等參數,根據所在層的向量維度具體確定。

3) 實驗環境與流程

本文實驗均采用python語言,在anaconda集成開發環境下的spyder軟件平臺進行程序編寫。依存分析模型中調用的神經網絡來源于DyNet動態神經網絡工具包[23],該工具包由美國卡耐基梅隆大學等多所學校的研究人員共同開發,其中,包含了RNN、LSTM和CNN等常用的深度神經網絡模型,主要面向基于深度學習的自然語言處理領域研究。同時,實驗中參考了部分前人工作所設計的模型代碼[9,20]。

表3 預訓練詞向量維度數值

實驗硬件環境為Core i7處理器,主頻2.6 GHz,8 GB RAM,操作系統為64位Ubuntu 14.04。

Step2 模型初始化。調用庫中的LSTM函數,搭建模型結構,初始化模型的參數矩陣。

Step4 前向傳播。經過前向傳播直到輸出層給出每2個詞之間的依存弧分值,根據其構建該句對應的完全有向依存圖,從圖中搜索得到預測的相應依存句法樹結構,計算()及()等。

Step5 反向傳播及參數更新。計算目標函數并求其對各參數的偏導數,采用批次梯度下降法更新參數,每批樣本訓練結束后調整參數矩陣值,計算該批樣本訓練損失值。每個結束時計算整個的平均損失。設定大小,直到達到迭代次數為止,訓練結束。

Step6 模型測試。從文件中加載訓練后的模型參數,輸入測試集中待分析句子,得出句子的依存句法結構,計算依存分析準確率。

從上述過程可以看出,相比于傳統的線性依存分析方法,非線性的神經網絡相當于完成了如下的功能。對句子從輸入詞向量開始,經過特征層提取和組合,計算出詞語之間的依存關系得分,如式(18)所示。

以式(13)代替式(3),實現了采用神經網絡計算依存弧的分值。神經網絡的優勢在于特征提取,而和已有的神經網絡依存分析模型不同的是,本文中的模型在工作流程的Step3中,同時采用了bi-LSTM和CNN提取不同類型的特征,在Step5中使用了基于概率的訓練方法,使模型在特征提取和模型訓練上效果更佳。

4.2 實驗結果及分析

本文提出的模型中,影響依存分析性能的主要因素包括3部分:詞向量特征、全局向量特征和基于概率的訓練方法。為了比較這3個因素的影響,分別設計了如下實驗進行對比測試。

實驗1 考察所提取的向量特征對依存分析準確率的影響,分別為詞向量特征和全局向量特征。采用bi-LSTM提取詞向量特征時,bi-LSTM隱層大小將影響到詞向量特征的質量,因此,這里主要考察bi-LSTM隱層大小變化對依存分析結果的影響。對于全局向量特征,為了驗證提取的全局向量特征的有效性,分別比較加入和不加入全局向量特征時,實驗結果的非標記依存正確率值。綜上,實驗中通過改變bi-LSTM隱層大小,分別觀察加入與不加入全局向量時的值,結果如圖8所示。

從圖8可以看出,分別采用基于概率的訓練方法和最大化間隔訓練算法的情況下,全局向量特征的加入都提升了依存分析的值,證明了該全局向量特征的有效性。同時也可以看出,bi-LSTM隱層大小影響到提取的詞向量特征,進一步影響到依存分析結果。從圖8(a)可以看到,隱層大小達到120后,值大小基本不再變化。

圖8 不同隱層大小下的實驗結果UAS值

實驗2 考察基于概率的訓練方法和最大化間隔訓練算法在依存分析準確率上的影響。此時加入全局特征向量,分別觀察2種訓練方法下的值,如圖9所示。從圖9可以看出,隨著隱層大小增大,2種訓練方法下的值都在不斷提升。同時,在bi-LSTM隱層較小時,最大化間隔訓練方法效果較好;當隱層增大后,基于概率的訓練方法對依存分析提供了更大幫助,其值超過了最大化間隔方法。在隱層大小為120時,基本不再有太大提升。

基于概率的訓練方法思想受文獻[6]啟發,文獻[10]也采用了類似的方法,將其應用到高階的基于圖的依存句法分析中。與它們不同的是,本文將其應用在一階模型中,同時結合了bi-LSTM和CNN來提取不同的特征,在基于概率的訓練下,依存分析效果更好,在一些指標上超過了這2篇文獻,表4列出在相同數據集上的實驗結果對比情況。

圖9 不同訓練方法的實驗結果UAS值

表4 依存分析結果對比

實驗3 為了橫向比較本文的依存分析模型性能,分析研究了目前已有的依存分析模型,通過實驗結果對比依存分析準確率。在最終的對比實驗中,選擇準確率最高的模型參數設置,如表5~表7所示。

表5 bi-LSTM(前向)參數設置

表6 CNN參數設置

表7 其他參數設置與向量維度大小

圖10給出了該設置下模型在訓練集上的損失值變化,橫坐標為訓練過程中的迭代次數,每個內訓練集訓練完一次。下一個開始前重新打亂訓練集中樣本順序,防止模型在訓練集上的過擬合。縱坐標表示每個結束時,整個的平均訓練損失大小。為了對比實驗效果,圖10給出了該設置下LSTM和bi-LSTM的訓練過程,僅從訓練效果上看,bi-LSTM+CNN模型損失值降到了最小,表明同時應用詞向量特征和全局向量特征,對依存分析提供了更大的幫助。

圖10 訓練過程每個epoch的平均損失值

為了驗證本文方法相對于基線系統的性能提升,采用了經典的依存分析器進行對比測試:基于圖的依存分析器MSTParser和基于轉移的依存分析器MaltParser,表8列出了詳細的測試結果。此外,本文還與部分準確率較高的中文依存分析器進行了詳細比較,分別包括:線性模型下基于轉移[24]和基于圖[25]的依存分析系統;與本文類似的,采用LSTM[8,9,11,20]或CNN[10,11]的依存分析系統。

表8 依存分析結果及對比

從表8可以看出,本文提出的依存分析模型,相較于基線系統在值和值上都有明顯提升,大約都在5%左右。與傳統模型下準確率最高的基于轉移[24]和基于圖[25]的依存分析系統相比,本文模型也達到了高于或者十分接近的準確率。和僅使用LSTM的文獻[8,9]相比,本文在加入CNN提取的全局向量特征后,值高于文獻[8],與文獻[9]十分接近。和僅使用CNN的文獻[10]相比,由于其采用三階模型,能夠利用更復雜的特征,而本文僅為一階模型,所以值略低,但值更高。與同時使用CNN和LSTM文獻[11]相比,其采用CNN和LSTM分別提取字符向量特征和詞向量特征,準確率高于本文模型,達到了目前最佳,而本文模型與其相比仍有一定差距,有待進一步提高。

5 結束語

本文在前人工作的基礎上,將bi-LSTM和CNN結合使用,提出了一種基于bi-LSTM的依存句法分析模型,該模型能夠結合句子級別的全局向量特征,提升依存分析效果。與傳統線性模型相比,該模型采用深度神經網絡自動學習上下文特征和全局特征表示,不需人為選擇特征,避免了特征依賴問題。與神經網絡依存分析模型相比,本文將LSTM和CNN結合使用,建立了基于圖的一階模型,復雜度低于其他高階模型。采用了基于概率模型的訓練方法,充分利用了所有可能的依存分析樹進行訓練,依存分析結果接近或高于單獨使用LSTM和CNN的模型。

下面是對目標函數式(13)求偏導數的詳細過程。

式(20)難點在于()偏導數的計算,式(21)是()的偏導數具體求解過程。

式(13)中第一項偏導數的計算結果即式(24),則式(13)的最終的偏導數為

[1] MCDONALD R, CRAMMER K, PEREIRA F. Online large-margin training of dependency parsers[C]//The 43rd Annual Meeting on Association for Computational Linguistics. 2005:91-98.

[2] EISNER J M. Three new probabilistic models for dependency parsing: an exploration[J]. Computer Science, 1997:340-345.

[3] MCDONALD R T, PEREIRA F C N. Online learning of approximate dependency parsing algorithms[C]//The 11th Conference of the European Chapter of the Association for Computational Linguistics. 2006: 81-88.

[4] CARRERAS X. Experiments with a higher-order projective dependency parser[C]//The 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007: 957-961.

[5] KOO T, COLLINS M. Efficient third-order dependency parsers[C]// The 48th Annual Meeting of the Association for Computational Linguistics. 2010:1-11.

[6] 馬學喆. 依存句法分析的若干關鍵問題的研究[D]. 上海: 上海交通大學, 2013.

MA X Z. Research on key issues of dependency parsing[D]. Shanghai: Shanghai Jiaotong University, 2013.

[7] PEI W Z, GE T, CHANG B B. An effective neural network model for graph-based dependency parsing[C]// The 53rd Annual Meeting of the Association for Computational Linguistics. 2015: 313-322.

[8] WANG W H, CHANG B B. Graph-based dependency parsing with bidirectional LSTM[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 2306-2315.

[9] KIPERWASSER E, GOLDBERG Y. Simple and accurate dependency parsing using bidirectional LSTM feature representations[J]. Transactions of the Association for Computational Linguistics, 2016(4): 313-327.

[10] ZHANG Z S, ZHAO H, QIN L H. Probabilistic graph-based dependency parsing with convolutional neural network[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 1382-1392.

[11] MA X Z, HOVY E. Neural probabilistic model for non-projective MST parsing[J]. arXiv: arXiv: 1701.00874, 2017.

[12] ZHANG J J, ZHANG D K, HAO J. Local translation prediction with global sentence representation[C]//The 24th International Joint Conference on Artificial Intelligence. 2015:1398-1404.

[13] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[J]. Eprint Arxiv, 2014(1).

[14] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537.

[15] JASON C, ERIC N. Named entity recognition with bidirectional lstm-cnns[J]. Transactions of the Association for Computational Linguistics, 2016(4): 357-370.

[16] 曾誰飛, 張笑燕, 杜曉峰, 等. 基于神經網絡的文本表示模型新方法[J]. 通信學報, 2017, 38(4): 86-98.

ZENG S F, ZHANG X Y, DU X F, et al. New method of text representation model based on neural network[J]. Journal on Communications, 2017, 38(4): 86-98.

[17] CHEN D Q, MANNING C. A fast and accurate dependency parser using neural networks[C]//Conference on Empirical Methods in Natural Language Processing. 2014:740-750.

[18] WEISS D, ALBERTI C, COLLINS M, et al. Structured training for neural network transition-based parsing[C]//The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015: 323-333.

[19] ANDOR D, ALBERTI C, WEISS D, et al. Globally normalized transition-based neural networks[C]//The 54rd Annual Meeting of the Association for Computational Linguistics. 2016: 2442-2452.

[20] DYER C, BALLESTEROS M, WANG L, et al. Transition-based dependency parsing with stack long short-term memory[J]. Computer Science, 2015, 37(2): 321-332.

[21] CHENG H, FANG H, HE X D, et al. Bi-directional attention with agreement for dependency parsing[C]// Conference on Empirical Methods in Natural Language Processing. 2016: 2204-2214.

[22] DOZAT T, MANNING C D. Deep biaffine attention for neural dependency parsing[J]. arXiv: arXiv 1611.01734, 2016.

[23] NEUBIG G, DYER C, GOLDBERG Y, et al. DyNet: the dynamic neural network toolkit[J]. arXiv: arXiv 1701.03980, 2017.

[24] ZHANG Y, NIVRE J. Transition-based dependency parsing with rich non-local features[C]//The 49th Annual Meeting of the Association for Computational Linguistics. 2011:188-193.

[25] ZHANG H, MCDONALD R. Enforcing structural diversity in cube-pruned dependency parsing[C]//The 52nd Annual Meeting of the Association for Computational Linguistics. 2014:656-666.

Neural network model for dependency parsingincorporating global vector feature

WANG Hengjun1, SI Nianwen1, SONG Yulong2, SHAN Yidong1

1. The Third Institute, PLA Information Engineering University, Zhengzhou 450001, China 2. 73671 Army, Luan 237000, China

LSTM and piecewise CNN were utilized to extract word vector features and global vector features, respectively. Then the two features were input to feed forward network for training. In model training, the probabilistic training method was adopted. Compared with the original dependency paring model, the proposed model focused more on global features, and used all potential dependency trees to update model parameters. Experiments on Chinese Penn Treebank 5 (CTB5) dataset show that, compared with the parsing model using LSTM or CNN only, the proposed model not only remains the relatively low model complexity, but also achieves higher accuracies.

dependency parsing, graph-based model, long short-term memory network, convolutional neural network, feature

TN912.3

A

10.11959/j.issn.1000-436x.2018024

2017-06-12;

2017-12-08

司念文,snw1608@163.com

王衡軍(1973-),男,湖南衡陽人,解放軍信息工程大學副教授、碩士生導師,主要研究方向為機器學習、自然語言處理和信息安全。

司念文(1992-),男,湖北襄陽人,解放軍信息工程大學碩士生,主要研究方向為機器學習、自然語言處理。

宋玉龍(1995-),男,安徽阜陽人,73671部隊助理工程師,主要研究方向為網絡與信息安全。

單義棟(1988-),男,山東乳山人,解放軍信息工程大學碩士生,主要研究方向為自然語言處理。

猜你喜歡
特征分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 强乱中文字幕在线播放不卡| 国产丝袜第一页| 天堂网亚洲综合在线| 亚洲精品无码AV电影在线播放| 亚瑟天堂久久一区二区影院| 第一页亚洲| 亚洲开心婷婷中文字幕| 美女被操黄色视频网站| 99热这里只有精品免费| 亚洲第一成年网| 欧美伦理一区| 亚洲人成色在线观看| 久热re国产手机在线观看| 一区二区三区国产精品视频| 久久青青草原亚洲av无码| 青青操视频免费观看| 女人天堂av免费| 亚洲欧洲综合| 国产精品九九视频| 国产91透明丝袜美腿在线| www.国产福利| 精品久久香蕉国产线看观看gif| 国产午夜小视频| 四虎永久在线精品影院| 国产欧美精品午夜在线播放| 国产97视频在线观看| 国产菊爆视频在线观看| 国产成人亚洲精品色欲AV | 欧美中文字幕一区二区三区| 国产成人综合亚洲网址| 一本色道久久88综合日韩精品| 免费av一区二区三区在线| 亚洲国产精品VA在线看黑人| 99久久无色码中文字幕| 欧洲亚洲一区| 亚洲第一成网站| 免费观看国产小粉嫩喷水| 欧美激情第一欧美在线| 午夜性爽视频男人的天堂| 国产黑丝一区| 四虎影视库国产精品一区| 亚洲精品无码不卡在线播放| 亚洲a级毛片| 成人午夜天| 亚洲精品成人福利在线电影| 一级不卡毛片| 精品人妻AV区| 四虎国产精品永久一区| 国产精品污视频| 日本欧美一二三区色视频| 亚洲综合色婷婷中文字幕| 秋霞一区二区三区| 国产成人无码AV在线播放动漫| 亚洲男人的天堂在线| 国产毛片片精品天天看视频| 国产本道久久一区二区三区| 色综合婷婷| 亚洲国产成人无码AV在线影院L| 欧美午夜小视频| 91精品国产一区| 91福利在线看| 熟妇丰满人妻av无码区| 国产一区二区三区在线观看视频 | 国产欧美高清| 欧洲亚洲欧美国产日本高清| 久久 午夜福利 张柏芝| 美女视频黄又黄又免费高清| 国产色婷婷| 999精品免费视频| 毛片网站在线看| 久久久久国色AV免费观看性色| 国产福利一区视频| 国产色爱av资源综合区| 一级毛片免费高清视频| 日韩av手机在线| 国产在线一区视频| 久青草网站| 欧美专区日韩专区| 三级毛片在线播放| 九九九国产| 一区二区午夜| 一本久道久综合久久鬼色|