999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于門控多層次注意機制的事件主體抽取

2021-09-15 11:20:22冀相冰朱艷輝梁文桐
計算機應用與軟件 2021年9期
關鍵詞:主體機制特征

冀相冰 朱艷輝 詹 飛 梁文桐 張 旭

(湖南工業大學計算機學院 湖南 株洲 412008)

(智能信息感知及處理技術湖南省重點實驗室 湖南 株洲 412008)

0 引 言

隨著互聯網的快速發展,網絡輿情事件呈爆炸式增長,使得人工提取信息的方法變得困難。過去幾年,自然語言處理(Natural Language Processing,NLP)研究人員著重關注復雜的信息抽取任務,例如事件抽取。事件抽取旨在從網絡文本中檢測能標識事件的觸發詞、事件類型、事件元素和元素角色等。其中:事件觸發詞指可以清晰表明事件發生的核心詞匯;事件類型指事件所屬的類別;事件元素指事件的參與者或實體描述;元素角色指事件元素在事件中所充當的角色,如主體、參與者和受害者等。事件抽取是構建知識圖譜、實現智能問答和輿情監控的基礎工作。事件主體是指事件發生的實施者,如公司、機構或者個人等,主體抽取屬于事件元素角色識別任務,即已知一段文本和文本所屬的事件類型,從文本中抽取指定事件類型的事件主體,同一文本中可能存在多個事件和事件主體。命名實體識別的主要工作是從一段文本語料中識別出組織機構名、地名和人名等各種類型的實體。命名實體識別屬于事件主體抽取的子任務,事件主體抽取在獲取句子中所有命名實體之后,進一步通過已知事件類型尋找事件觸發詞,然后根據各個命名實體與事件觸發詞的依賴關系,識別與指定事件類型密切相關的命名實體作為事件主體。如圖1所示的句子中,觸發詞為“短線交易”,其事件類型為“交易違規”,事件主體為“萬東醫療”,“吳光明”為事件主體實控人,“上交所”為監管機構。

圖1 事件示例

對于事件抽取相關任務,大多數方法將此問題視為分類任務,基于特征的方法依賴各種判別特征構建統計模型,如句法特征、詞法特征和外部知識等。Huang等[1]利用順序結構化的句子分類器識別與事件相關的上下文信息,實現了當時最高的性能。Liu等[2]提出利用概率軟邏輯模型的形式編碼事件關聯之類的全局信息和細粒度實體類型等本地信息進行事件分類。Judea等[3]使用假設的特征把文檔級的上下文信息放入決策系統,對實體、事件和關系進行預測。Li等[4]在傳統特征上添加抽象意義表示(AMR)特征捕獲觸發詞的深層語義信息。雖然統計學習方法可以利用常用特征并取得良好的結果,但是無法捕捉隱含特征信息并且需要大量的人工特征。

深度學習方法可以自動抽取較復雜的隱藏特征而且避免了人工定義模版特征,已經被廣泛應用于事件抽取相關任務中。Liu等[5]通過監督注意機制進行事件識別任務,在ACE 2005數據集上取得較好效果。Zeng等[6]使用遠程監督方法生成大量高質量訓練數據進行事件抽取。Sha等[7]提出在RNN(Recurrent Neural Networks)中應用依賴橋構建模型,提取效果優于順序RNN。Zhang等[8]提出雙向長短期記憶網絡(BiLSTM)對句子建模進行關系分類,獲得了相關單詞的完整連續信息。Feng等[9]采用獨立于語言的模型獲取序列和塊信息,進行中文和西班牙文事件檢測。Zhou等[10]利用一種基于注意力(Attention)的模型學習分布式語義。Hong等[11]采用BiGRU網絡與注意力機制結合,關注更有意義的關鍵詞編碼更長的序列。Rao等[12]利用神經網絡模型自動從抽象意義表示(AMR)中抽取生物醫學文本事件。Peters等[13]提出一種新的Word Embedding方法ELMo(Embeddings from Language Models),處理多義詞在上下文中的動態變化。Huang等[14]利用可轉換架構和組合神經網絡應用于新的事件類型檢測。

傳統抽取方法主要使用句子級信息,未能考慮候選詞的文檔級語義信息。通常在一個句子中可能存在多個事件的部分信息,僅以句子級信息進行事件主體抽取不能完全考慮每個事件的全部特征,很容易忽略事件的模糊性問題,限制了抽取系統的性能。

為了解決上述問題,本文提出一種基于門控多層次注意機制的ELMo-BiGRU神經網絡模型用于事件主體抽取。首先把真實新聞語料輸入ELMo預訓練模型生成動態詞向量;然后用Stanford CoreNLP解析新聞文本獲取命名實體特征和詞性特征;其次將動態詞向量、命名實體(NE)向量、詞性(POS)向量和距離向量拼接表示為聯合輸入向量;接著把聯合向量輸入BiGRU深度學習網絡捕獲時間序列中時間步距離較大的依賴關系;之后利用門控多層次注意力層自動提取文本中每個候選事件主體的句子級信息和文檔級信息,并通過融合層動態整合上下文信息;最后輸出層通過SoftMax分類器預測最優事件主體標簽。

1 基于門控多層次注意機制的ELMo-BiGRU網絡模型構建

本文使用基于門控多層次注意機制的BiGRU深度神經網絡模型進行事件主體抽取,圖2描述了抽取模型的體系結構,主要包括輸入層、詞嵌入層、BiGRU層、門控多層次注意機制層和輸出層五個部分。

圖2 事件主體抽取框架

對于存在嵌套關系的事件主體抽取算法如下:

Step1利用ELMo預訓練模型訓練獲取句子中每個候選事件主體的動態詞向量信息,ELMo模型根據同一事件主體上下文語境的不同,實時動態獲取不同的Embedding表示,解決部分存在嵌套關系的事件主體帶來的歧義問題。

Step2使用Stanford CoreNLP工具解析出新聞語料中的命名實體和詞性信息,通過命名實體識別特征和詞性特征捕獲存在嵌套關系的事件主體之間的深層依賴關系。

Step3采用距離嵌入增強網絡模型獲取候選事件主體的距離嵌入信息,通過計算候選觸發詞與候選事件主體之間的相對距離,進一步獲取存在嵌套關系的事件主體的維度向量信息,根據就近原則,一般靠近事件觸發詞的候選事件主體的優先級較高。

Step4將Step 1-Step 3獲取的ELMo動態詞向量、命名實體特征、詞性特征和距離向量特征聯合傳入下一層BiGRU層進行訓練,BiGRU通過兩個單獨的GRU隱藏序列模擬句子中候選事件主體的語義表達和上下文語境信息。

Step5將Step 4輸出的向量輸入門控多層次注意機制層分別獲取句子級的信息和文檔級的信息,然后通過融合門動態融合存在嵌套關系的事件主體的句子級信息和文檔級信息,進一步獲得其綜合上下文信息。以上門控多層次注意機制可以對存在嵌套關系的事件主體分別賦予不同的注意力權重,方便對最優事件主體的判斷識別。

Step6把Step 5輸出的聯合特征表示輸入Softmax層,抽取存在嵌套關系的事件的最優事件主體。

1.1 Word Embedding

Word Embedding層使用ELMo向量、距離向量、命名實體特征與詞性特征聯合表示。

ELMo與傳統詞向量模型Word2vec、Glove等不同,是一種在詞嵌入中表示詞匯的新方法。通過ELMo訓練新聞語料庫獲得的是隨著上下文的語境而改變的動態詞向量,能夠處理復雜的語義和句法特征并在不同上下文語境下學習的詞匯多義性,計算式表示如下:

(1)

圖3 ELMo預訓練

使用Stanford CoreNLP解析新聞文本語料獲取命名實體(NE)特征和每個命名實體的詞性(POS)特征,其可以提供對新聞文本結構的細粒度解析,使得嵌入的語義特征更加豐富。

根據新聞語料分析,發現若兩個命名實體之間的距離較短,則很可能構成事件,因此,引入距離嵌入增強網絡模型[15]。例如在句子“萬東醫療實控人吳光明因短線交易被上交所處分”中,距離嵌入向量根據候選觸發詞與目標詞“萬東醫療”和“上交所”的相對距離計算,“吳光明”與“萬東醫療”和“上交所”的相對距離分別是“-2”和“4”,所有相對距離都被映射為固定維度向量d(l),計算式表示為:

d(l)=tanh(l/s)

(2)

式中:l為相對距離;s為句子中兩實體相對距離的最大值。若候選觸發詞到目標詞“萬東醫療”和“上交所”的向量分別為d1和d2,則候選觸發詞的距離嵌入dt為d1和d2的串聯之和。

將獲取到的ELMo動態詞向量、命名實體特征、詞性特征和距離向量拼接成聯合嵌入向量,然后把聯合向量輸入BiGRU深度網絡進行訓練更新操作。

1.2 BiGRU

門控循環單元(GRU)被視為長短期記憶(LSTM)的變體網絡,GRU保持了LSTM的效果同時又使結構更加簡單,旨在解決標準RNN中出現的梯度消失問題。GRU根據輸入到單元的信號自適應地記住并忘記其狀態[16],模擬新聞文本中每個字詞的語義表示及其上下文信息。首先在時間狀態t,GRU單元利用重置機制考慮當前輸入和狀態,之后不需要再被監測到的特征就會被忘記,計算式表示為:

rj=σ([wrx]j+[urh〈t-1〉)]j)

(3)

(4)

更新門zj計算式如下:

zj=σ([wzx]j+[uzh〈t-1〉]j)

(5)

最后,通過更新機制獲取最新的內存狀態,計算式如下:

(6)

上面介紹的是單向GRU的計算過程,只能處理之前的文本信息,不能處理后面的信息。而BiGRU可以很好地解決這個問題,雙向GRU可以通過兩個單獨的隱藏層在前后兩個方向處理數據。前向GRU和后向GRU的最后隱藏狀態產生的輸出向量[h1,h2,…,hn]可由矩陣D表示,其中n表示句子長度,D∈Rdw×n。在時間t狀態下的BiGRU網絡輸出公式如式(7)所示,其中f和b分別表示前向和后向。

(7)

1.3 門控多層次注意機制

根據對新聞語料的分析,每個句子不同的字詞對整體語義表達具有不同的作用,采用門控多層次注意機制能夠捕獲影響輸出序列的重要信息。門控多層次注意機制包括句子級注意層、文檔級注意層和融合門層[17]。句子級注意力機制通過關注每個詞wt的語義能夠捕獲當前詞的句子級信息,計算每個候選事件主體句子級語義信息sht的表達式如下:

(8)

文檔級注意機制主要通過當前關注的句子獲取重要的文檔級別信息,句子中所有字詞均具有相同的文檔級信息,每條新聞文本中第i個句子的文檔級語義信息dhi的計算式為:

(9)

利用融合門動態整合新聞文本中每個候選事件主體wt的句子級信息sht和文檔級信息dhi,然后計算獲取其上下文信息crt,計算式如下:

crt=(Gt⊙sht)+((1-Gt)⊙dhi)

Gt=σ(wg[sht,dhi]+bg)

(10)

式中:σ為sigmoid函數;wg為權重矩陣;bg為偏差;融合門Gt表達了句子級信息sht和文檔級信息dhi所提供信息的置信度。

最后將候選事件主體wt的聯合詞嵌入信息和上下文信息crt合為單個向量xrt=[et,crt]作為聯合特征表示,輸入下一層softmax分類器,得到最優事件主體標簽的條件概率p(i|xrt,θ)和負對數似然損失函數J(θ)[5],計算式如下:

(11)

式中:oi表示在參數為θ時,對于每個訓練實例(xi,yi),將單詞wt標記為第i個標簽的置信度得分;Nt為標簽總數量;Nw為訓練句子中詞的總數量。其中,訓練優化模型的方法采用隨機梯度下降法。

2 實驗與結果分析

2.1 實驗設置

2.1.1數據和評價指標

實驗采用CCKS2019(全國知識圖譜與語義計算大會)任務四提供的語料,數據均來自金融領域的真實新聞文本并且經過會議工作人員人工標注篩選,總量為21 000條。采用交叉驗證的方法將語料集以8 ∶1 ∶1的比例分為訓練集、驗證集和測試集。

經統計分析發現,除去“其他”事件類型,語料庫共定義了21種金融事件類型,如圖4所示。超過1 000條以上數據的事件類型有8種,占比36.36%;有100~1 000條數據之間的事件類型有9種,占比40.91%;100條數據以下的事件類型有5種,占比22.73%,其中事件類型“公司股市異常”少于10條數據。

圖4 金融事件類型統計

評價指標采用精確率(P)、召回率(R)、F1值(F)來評估事件主體抽取系統,公示如下:

(12)

式中:FP表示假正類,即事件實例為負類被預測成正類;FN表示假負類,即事件實例為正類被預測成負類;TP表示真正類,即事件實例為正類被預測成正類。

2.1.2實驗環境及超參數設置

整體模型基于Keras+Tensorflow的深度學習框架搭建,Keras版本號為2.2.4,Tensorflow版本號為1.8,GPU顯卡為NVIDIA Quadro K1200。

為了獲得最優抽取模型,在驗證集上進行了參數優化實驗。使用ELMo模型在語料集上訓練詞嵌入,設定學習速率為0.025,窗口大小是5,詞向量維度設置為200。為了避免數據過擬合,設定Dropout為0.5。模型輸入batch_size為8,總迭代次數設置為120。

2.2 不同事件主體抽取模型對比實驗

為了檢驗本文方法的性能,實驗比較了基于門控多層次注意機制的ELMo-BiGRU模型(ELMo-BiGRU-GMAM)與傳統抽取方法在數據集上的性能,其中LSTM、GRU、GRU-Attention和BiGRU-Attention方法均使用傳統詞嵌入模型Word2vec訓練詞向量,結果如表1所示。

表1 不同事件主體抽取方法對比實驗(%)

從表1可以觀察到,本文方法的表現明顯優于其他方法。LSTM方法和GRU方法在綜合性能上面不分伯仲,但是因為GRU網絡的參數更少一點,在較小的數據集下可以更快收斂。GRU是沒有注意力機制的基本GRU模型,從表1結果看來,加入注意力機制的Attention-GRU模型表現優越,P、R和F值均高于GRU模型,傳統僅使用GRU的模型在進行特征抽取時平等看待所有字詞且無法捕捉關鍵性信息,而加入注意力機制的方法可以給每個字詞分配不同的權重信息,一段文本中比較重要的句子加以大的權重,效果可以獲得明顯提升。運用雙向GRU網絡較單向GRU網絡相比優勢不是很大,仔細觀察兩者召回率和F1值,雙向GRU模型要比單向更好一些,因為單方向GRU僅能保留過去的信息,而雙向GRU利用前后兩個隱藏狀態組合處理輸入的信息,可以在任何時間點保存過去和未來的信息,更方便地捕獲上下文信息。此外,在所有方法中,本文所提ELMo-BiGRU-GMAM模型表現最好,傳統方法僅利用句子級信息進行特征學習,本文方法融合了句子級信息和文檔級信息來增強特征學習,其P、R、F值可以在事件主體抽取上實現最佳性能,可以有效解決事件模糊性的問題。

為了更清晰地對比本文方法與傳統抽取方法的實驗效果,表2列舉了實驗語料實例,同時將傳統抽取模型與本文模型的抽取結果示例進行了對比,如表3所示。

表2 語料示例

表3 不同事件主體抽取模型的結果示例

從表2和表3可以觀察到,本文模型抽取的事件主體更加精確。示例語料中包含“興利集團”“歐瑞家具”“甲醛超標”“專賣店”“海南椰島”“第一大股東變更”和“椰島品牌”等實體,包含“甲醛超標”和“股東變更”兩個事件,語料指定事件類型為“實控人股東變更”,根據已知事件類型可排除與“甲醛超標”事件相關的事件元素,將事件觸發詞定位為“第一大股東變更”。但是觸發詞前面的“專賣店仍在售海南椰島(600238)”文本中包括兩個事件的相關元素,且沒有標點作為分隔符號,傳統抽取模型大部分僅利用句子級信息進行事件主體抽取任務,很容易造成事件模糊性問題,會將“海南”錯認為“專賣店”的賓語,進而錯誤地將“椰島”判定為事件類型"實控人股東變更"相對應的事件主體,其主要原因是沒有綜合考慮候選事件主體的上下文語義信息。本文模型采用門控多層次注意機制,可以同時獲取候選事件主體“海南椰島”的句子級信息和文檔級信息,然后通過融合門動態整合獲取具有上下文語義的特征,可以有效緩解“甲醛超標”事件中噪聲元素“專賣店仍在售”對主體元素識別的干擾,最終將“海南椰島”判定為與事件類型“實控人股東變更”相對應的事件主體,證明了本文事件主體抽取方法的有效性。

2.3 ELMo對實驗結果的影響

在深度學習模型訓練過程中,詞嵌入對模型的整體效果起關鍵作用。為了ELMo的有效性,實驗對比了ELMo動態詞向量方法與傳統Word2vec、GloVe靜態詞向量方法在事件主體抽取系統上的性能。除了詞嵌入方法不同,其他網絡模型和參數設置均相同,結果如表4所示。

表4 ELMO相關證明實驗(%)

從表4可以看出,ELMo動態詞向量方法優于傳統Word2vec、GloVe靜態詞向量方法。其中,ELMo的F值相比Word2vec方法提高2.82百分點,Word2vec獲得的F值相比GloVe更好一些,但是GloveR值比Word2vec稍微高一點,可能是因為GloVe使用了全局信息,算法較復雜且更容易并行化,而Word2vec是基于局部語料訓練的,通過劃動窗口進行提取特征,可以進行在線學習且模型較簡單。ELMo的R值和F值均高于Word2vec方法,因為ELMo把整個句子作為輸入,根據每個詞的上下文環境實時訓練動態詞向量,能夠很好地解決一詞多義的問題,驗證了使用ELMo方法的有效性。

2.4 門控多層次注意機制對實驗結果的影響

為了驗證門控多層次注意機制的對模型的影響程度,實驗對比了基于門控多層次注意機制的模型(ELMo-BiGRU-GMAM)與未加入任何注意力機制的模型(ELMo-BiGRU)、基于經典注意力機制的模型(ELMo-BiGRU-Attention)、基于多頭注意機制的模型(ELMo-BiGRU-Multi headed Self attention)分別在事件主體抽取數據集上的性能。除了引入的注意力策略不同,其他網絡模型和參數設置均相同,實驗結果如表5所示。

表5 門控多層次注意機制相關證明實驗(%)

通過表5可以觀察到,基于門控多層次注意機制的模型(ELMo-BiGRU-GMAM)總體效果優于其他模型。其中未加入任何注意機制的模型(ELMo-BiGRU)表現較差,基于經典注意力機制之后,F1值提高了1.67百分點,未加入任何注意機制的模型在特征提取過程中容易獲取冗余信息,而基于經典注意力機制的模型能捕獲每個候選詞的關鍵語義信息,提升模型的準確率。基于多頭自注意力機制較基于經典注意力機制模型的F1值提高了3.05百分點,Multi-headed self-attention拼接了多個自注意力網絡,每個head允許在不同的表示子向量空間多次捕獲句子內部的相關信息,頭的數量對捕獲長距離依賴有較大影響。基于門控多層次注意機制與基于多頭注意力機制方法相比較,前者實驗總體效果明顯優于后者。因為多頭注意機制僅利用句子級信息提取每個句子結構內的特征,每個句子中可能存在多個事件信息的部分特征,如果不考慮文檔級語義信息,很容易造成事件模糊性問題。而門控多層次注意機制可以同時獲得句子級的注意信息和文檔級的注意信息,更精確地提取融合每個候選詞的上下文特征,能夠很好地處理事件的模糊性問題,證明了使用門控多層次注意機制的有效性。

3 結 語

本文采用基于門控多層次注意機制的ELMo-BiGRU深度網絡模型實現了事件主體抽取。與句子級抽取方法相比,利用門控多層次注意機制可以動態整合候選詞句子級和文檔級的上下文信息,有效解決句子中存在的事件模糊性問題。為了解決傳統詞向量不能對一詞多義進行建模的問題,使用ELMo模型對語料進行預訓練,動態生成包含豐富語義和句法信息的詞向量。采用BiGRU網絡捕獲長期序列信息且結構更加簡單,避免了復雜的手工設計和梯度消失問題。加入命名實體特征和詞性特征,可以實現對文本結構的細粒度解析,進一步增強了模型的性能,實驗結果表明了本文方法的有效性。未來計劃使用遠程監督機制自動標記訓練數據,引入BERT預訓練模型進行更復雜的事件抽取任務。

猜你喜歡
主體機制特征
論自然人破產法的適用主體
南大法學(2021年3期)2021-08-13 09:22:32
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
關于遺產保護主體的思考
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
論多元主體的生成
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 欧美区日韩区| 亚洲性影院| 精品国产免费观看一区| 91久久夜色精品国产网站| 91福利在线看| 亚洲天堂精品视频| 国产一区二区三区夜色| 大香伊人久久| 国产成人高清精品免费软件| 亚洲视频欧美不卡| 欧美在线视频a| 思思热精品在线8| 国产成人盗摄精品| 最新亚洲人成无码网站欣赏网| 国产AV无码专区亚洲A∨毛片| 国产无码网站在线观看| 亚洲香蕉在线| 亚洲综合九九| 久久频这里精品99香蕉久网址| 亚洲欧洲综合| 老熟妇喷水一区二区三区| 伊人久久久大香线蕉综合直播| 国产三级a| 国产麻豆永久视频| 综合人妻久久一区二区精品| 99精品免费欧美成人小视频| 国产精品私拍99pans大尺度| 全部毛片免费看| 国产午夜小视频| 色综合天天娱乐综合网| 亚洲精品视频在线观看视频| 亚洲人成网7777777国产| 久久精品国产在热久久2019 | 日韩资源站| 色色中文字幕| 欧美日韩国产高清一区二区三区| 99九九成人免费视频精品| 亚洲精品欧美日本中文字幕| 伊人婷婷色香五月综合缴缴情| 婷婷六月激情综合一区| 韩国福利一区| 美女被躁出白浆视频播放| 55夜色66夜色国产精品视频| 色婷婷综合激情视频免费看| 第一页亚洲| 久久婷婷六月| 亚洲男人在线| 国产熟女一级毛片| 亚洲色图狠狠干| 99久久这里只精品麻豆| 一级看片免费视频| 国产综合日韩另类一区二区| 国产精品亚洲一区二区三区在线观看| 亚洲无码高清免费视频亚洲| 日韩国产高清无码| 国产靠逼视频| 精品久久综合1区2区3区激情| 日本不卡在线| 日韩国产 在线| 国产精品亚洲片在线va| 婷婷色狠狠干| 精品国产免费观看| 亚洲—日韩aV在线| 精品视频在线一区| 欧美色99| 99精品欧美一区| 熟妇无码人妻| AV不卡在线永久免费观看| 欧美日韩专区| 日本高清视频在线www色| 日韩免费中文字幕| 伊人色综合久久天天| 欧美性色综合网| 国产精品成人一区二区| 亚洲一区波多野结衣二区三区| 美女被操91视频| 久久青草免费91观看| 国产丝袜91| 国产丝袜无码精品| 精品国产免费第一区二区三区日韩| 狠狠色噜噜狠狠狠狠奇米777 | 日韩精品一区二区三区大桥未久|