999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM模型的定義抽取方法

2020-03-19 12:24:48謝志鵬
計算機工程 2020年3期
關鍵詞:定義特征信息

陽 萍,謝志鵬

(復旦大學 計算機科學技術學院,上海 201203)

0 概述

定義抽取指從自然語言文本中提取出術語,是本體生成、詞匯表抽取、e-learning應用、術語詞典、問答(QA)系統中的基本任務。定義抽取的主要任務是從自然文本中提取出定義性的句子,可以建模為句子分類問題。例如,WCL-1和WCL-3系統依賴于一系列詞形網格的泛化,這些詞形網格是從大型數據集獲取的黃金定義中學習到的,從而對文本定義進行建模。DR系統[1]采用依存關系來生成句子的特征集,再利用這些生成的特征集進行句子分類。簡單的分類模型依賴句子的結構特征來進行分類任務,但當遇到類似定義句結構的非定義性句子時,分類模型有可能會判斷錯誤。

本文解決定義抽取任務的方法是實現一個序列標記系統。根據定義句概念:X=Y+區別特征,其中,X為術語,Y+區別特征就是術語的定義,可以得出在一個定義句中,一定能夠找到至少一對術語及其定義,同樣,如果一個句子包含至少一個術語及其相應的定義,那么這個句子就是定義性的。 通過把句子級別的分類任務轉換為字級別的標注任務,可以提高對結構模糊的輸入句的判斷精度。

本文提出基于BiLSTM的序列標注神經網絡模型用于定義抽取。BiLSTM具有學習長期依賴信息的能力,能夠得到具有全局上下文信息的特征表示,通過LSTM解碼器逐字生成最終的標簽序列,并運用標注結果完成定義抽取任務。

1 相關工作

隨著自然語言研究的發展,人們對與文本自動化處理和智能化知識生成有著越來越高的要求。而互聯網技術的不斷提高,新興詞匯和用語數量急劇增加,文本語料規模擴大與自動化定義抽取成為學者們研究的熱點。定義抽取任務是從非結構化文本中抽取出事件或物件基本屬性的描述,這對于進一步深入理解自然語言和構建詞典等知識系統有著重要的作用。定義抽取的研究成果可以進一步應用于智能問答系統中,以回答“什么”類型的問題,或是自動構建詞匯表,為在線學習平臺提供參考依據,也可以用來完成特定領域的術語抽取任務[2]或本體獲取[3-4]

定義抽取任務傳統上是通過模式匹配來解決的,文獻[5]應用諸如“{What is}[determiner]{concept}”之類的模式來挖掘網絡上特定主題的概念和定義,可以使用像“X is Y”這樣的模式來對手動標注的語料中的句子進行分類。文獻[6]利用一種軟硬模板相結合的方式抽取定義句,其中硬模板由手工模板和詞類格模板結合形成,然后利用N元語言模型匹配完成定義句識別。模式匹配方法是基于規則的,需要大量的人力資源。由于領域的多樣性和人力資源的限制,這種方法很難囊括所有的模式,因此模式匹配的方法雖然有著極高的精確度,卻從本質上很難提高召回率。文獻[7]提出一種通過基因編程(Genetic Programming,GP)學習有效語言規則,然后添加上通過基因算法(Genetic Algorithm,GA)學習到的權重來形成最終的規則集的方法。然而,這種基于GP的方法的召回率仍然很低。即使基于GP的方法能夠自動化生成豐富的規則,但是由于定義性句子結構極其多樣,這些學習到的規則仍然非常嘈雜。WCL系統[8]采用一種稱為詞類格(Word-Class Lattices)的有向無環圖(DAG)來建模定義。

由于基于模式方法的局限性,有監督的機器學習方法被越來越多的研究者所使用。文獻[9]利用詞法分析加簡單句法分析組成句子特征,然后通過分類完成定義抽取,這種方法雖然利用了句法信息,但是人工對句子中的專有名詞以及關鍵動詞的信息分析并沒有完全利用到句子整體結構的信息。一些系統通過從依賴樹中導出,或結合語言和結構特征來生成所需特征,然后將這些特征輸入機器學習分類器中進行定義抽取[10-12]。文獻[13]基于N-gram加入了句子結構中的上下文語義依賴關系,來解決N-gram抽取模型的數據稀疏的問題。DefMiner系統[14]通過融合前人的特征工作來生成自己的特征集,特別地,這些特征不僅包括詞級別上的,而且也包括在句子級和文檔級上提取的,因此可以較充分地保留上下文信息。然后,DefMiner使用條件隨機場(CRF)將輸入語句中的詞標記為集合 A = {(T)erm,(D)efiniton,(O)ther}中的標簽,標注術語和定義的F1值分別為45%和 56%。上述有監督學習方法采用的特征都來自于預處理過的語句,這意味著句子預處理操作可能導致偏差和錯誤傳播。文獻[15]提出一種利用長短時記憶神經網絡獲取句子特征的新方法,并在維基百科數據集上進行了實驗(取得F1值為91.2%)。

近年來,隨著處理大數據集技術的發展,研究者利用弱監督[16-17]或遠程監督的方法來增加訓練數據的大小或生成領域特定的訓練數據。文獻[18]提出一個基于遠程監控的系統,用于在不使用任何標記數據的情況下自動獲取目標語料庫中的訓練數據,該方法可以在樣本數據不足的情況下對訓練集進行有效擴充。

2 本文方法

本文模型的整體結構如圖1所示,模型算法流程如下:

1)對于輸入句中的詞,利用詞嵌入作為其空間向量表示。

2)與傳統的人為建立特征方法不同,本文將詞嵌入輸入到一個雙向長短時記憶循環神經網絡中得到輸入句的特征表達。

3)利用一個基于LSTM的解碼器對得到的特征進行解碼。

4)將解碼的結果輸入到一個CRF中,得到句子整體最優的標注結果。

5)利用模型預測的標簽,完成定義句判斷。

圖1 模型整體結構Fig.1 Overall structure of model

本文模型是通過有監督的方法進行訓練,數據集選擇為WIKIPEDIA數據集,這個數據集的正樣本由從維基百科中隨機抽取出第1條句子(其中選取的術語屬于4個不同的種類)組成,文獻[19]對其進行了詳細的標注,標注分為4個部分:術語(Definiendum),定義引導詞(Definitor),定義(Definiens)和其他(Rest),負樣本由來自于抽取到正樣本文章中的其他句子組成。鑒于本文的需求,本文對標注數據進行了不同的預處理,將句子中的token標注為集合{TM,DF,NONE} 中的標簽,其中,TM 代表術語,DF 代表定義,NONE表示不屬于功能性的部分。

2.1 原始輸入轉換

轉化原始輸入到token,從訓練集中抽取出前1 000的高頻詞作為高頻詞表L,如果句子S中的詞x屬于L,那么句中第i個詞xi的token就為ti(ti∈L),如果該詞沒有出現在高頻詞中,那么就用該詞的詞性標注作為詞的表征。使用的詞性標注采用 TreeTagger系統自動生成。本文采用詞嵌入向量作為詞的向量表示,然后把詞嵌入向量輸入到一個BiLSTM 結構中,得到句子的特征表達。

2.2 特征建立

本文的目標是更加自動化的定義抽取。在多數情況下,人為的特征抽取并非來自于句子本身,而是來自加工處理過的包含著詞依賴關系、語法等信息的結構,如依存樹等,這樣的方法可能會損失一部分來自于句子本身的信息,同時,以往的研究工作大多數極為依賴人為建立的特征集合,這些集合可能包含長達數十條規則特征。 雖然大量的人為特征工作可以抽取出更多更好的特征,但需要借助專家的領域知識對訓練數據的深入分析和啟發性思考,通過抽取或者組合各種原始特征才能得到,需要消耗大量的人力與計算資源,并且隨著行業的增加、知識的深入、特征的細化以及領域的不同,人力特征抽取就更加困難,所以本文選擇通過自動特征提取的方法計算出原始的特征。選擇利用基于字的雙向LSTM神經網絡對句子進行特征建模,選擇這個網絡的優點是,BiLSTM在設計上避免了長期依賴,因此可以對長遠依賴關系進行建模。通過BiLSTM可以對句子進行從前到后以及從后到前的完整的上下文信息保存,同時,本文的定義部分形態復雜,結構往往較長,使用雙向LSTM能夠更好地利用句子級的語義特征,對于標注任務也更有效。

2.3 基礎LSTM

傳統的RNN模型存在著梯度消失和爆炸的問題,在訓練的過程中,越遠的序列對于正確結果的影響越小,越近的序列對于結果的影響更大,所以不利于保存遠距離的信息。LSTM模型通過對其增加控制門等操作解決了梯度消失和爆炸的問題,并且也解決了信息長期依賴的問題。文獻[20]對最初的LSTM原型[21]通過增加遺忘門、加入Peephole等操作,使模型更加強大。LSTM單元模型如圖2所示。

圖2 基礎LSTM模型Fig.2 Basic LSTM model

與簡單的RNN結構不同,在LSTM模型的重復結構中有4個神經網絡相互作用。在整個LSTM模型的結構中,細胞狀態承載著重要的信息,LSTM通過各種門的作用對細胞狀態進行修改,從而得到輸出和保留的信息。在LSTM中有3個重要的門來實現信息的改變,包括遺忘門i、輸入門f和輸出門o。細胞狀態公式為:

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(1)

其中,ct表示當前細胞狀態,ft表示當前遺忘門,ct-1表示前一個細胞狀態,it表示當前輸入層,xt表示當前輸入句子的token,ht-1表示前一個隱藏層輸出,wxy表示從神經元x到y的連接權重,b(.)表示偏置量。

信息的遺棄主要由遺忘門實現,其通過輸入xt和隱藏層ht-1來決定是否完全保留或丟棄前一個細胞的每個元素的信息:

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(2)

除信息的丟棄外,信息的更新由輸入門實現:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(3)

通過輸出門實現對信息的限制性輸出:

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

(4)

隱藏層輸出為:

ht=ottanh(ct)

(5)

2.4 BiLSTM模型

2.5 解碼層

在序列標注任務中,每個詞會被賦給一個來自集合{TM,DF,NONE}的標簽,在這里沒有采用大多數適用的BIOS(Begin,Inside,Outside,Single)[22]編碼系統,因為對于術語及其定義而言,術語多數以名詞的形式出現在謂語之前,在本文的數據集中,術語大部分是單一的詞,而定義則是內容豐富的描述,所以,無論是術語還是其定義,其本身的位置信息(術語或定義本身的開始、中間和結尾)對于最終結果的影響很小。

在解碼時,本文利用每個詞經過BiLSTM的隱藏層輸出作為decoder-LSTM的輸入,將當前詞的decoder-LSTM隱藏層輸出變換輸入到條件隨機場(Conditional Random Field,CRF)中得到最終的句子標記結果,同時把這個隱藏層輸出變換,即前一個分類標簽信息作為輸入傳給下一個詞進行解碼操作。模型的LSTM基本結構與2.3節所述基本類似,輸入部分改寫為:

it=σ(Wxiht+Whih′t-1+WtiVt-1+bi)

(6)

其中,ht表示BiLSTM的隱藏層輸出,h′t-1前一個詞的decoder-LSTM隱藏層狀態,Vt-1表示前一個標記信息向量。

輸入到CRF的向量為:

Vt=Wth′h′t+bth′

(7)

CRF計算分數公式如下:

(8)

其中,Pt,yt表示把wt分類到標簽yt的分數,Ayt-1,yt表示從標簽yt-1到標簽yt的轉移分數。

2.6 損失函數

模型的訓練目標為最大化對數似然,損失函數為:

(9)

因為數據集相對較小,所以為防止過擬合,在BiLSTM層采取dropout,保留概率為0.8。

3 實驗結果與分析

3.1 實驗設置

數據集:本文用到的第1個數據集是NAVIGLI等人于2010 年在網絡中抽取定義和其上位詞的研究而標注的數據集——Wikipedia數據集。該數據集包含了1 902條正樣本和2 711條負樣本,正負樣本中明確地標注了句子的組塊和每個token的詞性,此外,正樣本中還標注出了句子中的術語、定義引導項(通常為緊跟術語的謂語詞)、定義及其他,同時人工標注出術語的上位詞。第2個數據集是LI等人抽取的中文數據集,包括人工標注的抽取自百度百科的2 161條正樣本和2 161條負樣本,本文使用哈工大語言技術平臺對中文數據集進行了分詞、詞性標注和依存句法分析等基本處理,然后對該數據集的術語和定義進行了人工標注。

數據預處理:通過轉換原始句子到token,首先從數據集中抽取出前N的高詞頻詞,高頻詞的選取數量N在英文數據集上為1 000,在中文數據集上為500,這在文獻[15]中已被證實分別是在英文和中文數據集上取得的最好效果,然后在詞級別對原始輸入進行處理。本文采用一個BiLSTM神經網絡自動生成句子的特征。BiLSTM的單向輸出維度為100維,句子特征輸出為200維,word embedding 的初始化維度為64,初始學習率為1e-3。

3.2 模型訓練

本文在一臺裝有GeForce GTX 1080顯卡的Arch Linux 系統上進行模型的訓練和預測。

在Wikipedia英文數據集上,訓練50個ephoch,batch大小為64,平均處理輸入句的訓練速率為108條/s,測試速率為277條/s。

在空間方面,模型復雜度主要跟神經網絡的參數量相關。本文的神經網絡模型基本結構主要利用到LSTM結構(包括一個BiLSTM和一個LSTM解碼器),在該結構中,每一個句子共享相同的矩陣參數。所以,模型復雜度為:

V(LLSTM)=4n(m+n+1)

(10)

其中,n為LSTM隱藏層維度,m為數據的輸入維度。

3.3 結果分析

本文采用精確率Precision,召回率Recall和F1作為評價指標。

1)句子分類比較結果

為更好地與本文系統相比較,表1列出了在Wikipedia數據集上各定義抽取系統的結果。其中Star-pattern通過將一些單詞轉換為stars的方式把句子概括為star pattern,如果輸入句與star pattern之一匹配,則將句子識別為定義句。 Bigrams是一個基于二元語法的軟匹配模型,提供了一個將模式匹配建模為生成token序列的概率過程的方法,可以用來做定義句檢索。Wcl-1系統對于每組句子,從訓練集中學習一個詞形網格,一個句子如果匹配其中一個詞形網格可以被分類為定義性的。Wcl-3系統為每個句子字段分別訓練詞形網格,如果句子可以匹配任意詞形網格集的組合,則將句子分類為定義性的。 Defminer通過使用有監督的序列標記系統來識別術語和其相應的定義。

表1 不同系統在Wikipedia英文數據集上的句子分類結果 Tabel 1 Sentence classification results of different systemson Wikipedia English dataset %

Luis& horacio2014使用一種僅從依賴關系中提取的句法信息進行定義抽取的有監督的分類器進行分類。SVM實現僅使用從句法分析器導出的術語之間的句法依賴性的方法提取定義和上位詞關系的系統。Si& bin(with lstm)采用LSTM遞歸神經網絡識別句子是否為定義性的。

從表1可以看出,與傳統基于模式的系統相比,本文系統因為避免了傳統的人工模式歸納的特征工作,所以在精確率、召回率和F1上都有明顯提升。雖然Wcl-1和Wcl-3在精確度上表現較好,但是模式匹配的局限性導致了較低的召回率,從而最終表現較差。與有監督的研究方法相比,本文利用自動特征抽取,避免了繁瑣的人力特征工程與人為特征抽取帶來的不足,減少了人為因素的干擾和錯誤傳播以及信息不全等弊端。由于利用BiLSTM神經網絡生成后續結構的特征輸入,因此本文系統與之相比也有較大的優勢。與Si& bin提出的神經網絡模型相比,本文提出的基于BiLSTM的序列標注神經網絡模型進行定義抽取,在最終的定義抽取F1分數上也有著較大的提升。

表2列出了在中文數據集上的實驗結果,其中Si& bin是使用LSTM遞歸神經完成定義抽取的系統。結果顯示,本文方法在中文數據集上有著很好的效果,具有處理不同語言的能力。

表2 不同系統在中文數據集上的實驗結果 Tabel 2 Experimental results of different systems onChinese dataset %

2) 不同模型結構對實驗結果的影響

為證明本文模型的有效性,通過改變模型的結構進行對比實驗,如表3所示。其中,實驗1為BiLSTM加上未采用decoder的模型,實驗2使用CNN,實驗3為BiLSTM加上CNN的分類模型,實驗4使用LSTM加上decoder。

表3 不同模型對比實驗結果

Tabel 3 Compare of experimental results of different models%

實驗序號模型精確率召回率F11BiLSTM(no decoder)94.5585.5289.752CNN90.5588.0389.233BiLSTM+CNN92.5991.2991.874LSTM+decoder94.2265.9176.515BiLSTM+decoder(本文系統)94.2190.1092.11

4 結束語

定義抽取是信息抽取中一個重要的任務,對于本體生成、術語抽取等任務具有較大影響。本文提出基于BiLSTM的序列標注神經網絡模型完成定義抽取任務,該模型首先將句子中的詞標注為集合{TM,DF,NONE}中的標簽,然后使用標注結果將句子分為定義性和非定義性的句子分類。對于定義描述不規范和句子結構復雜的定義句,序列標注在詞級別上識別句子中的術語和定義,從而增加分類判斷準確的機率,實驗結果驗證了本文模型的有效性。下一步將研究使用弱監督或遠程監督的方法自動擴大實驗數據規模,從而達到更好的實驗效果。

猜你喜歡
定義特征信息
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
教你正確用(十七)
海外英語(2006年11期)2006-11-30 05:16:56
主站蜘蛛池模板: 国产亚洲精久久久久久无码AV| 国产成人久久777777| 亚洲欧洲一区二区三区| 国内精品小视频福利网址| 日本伊人色综合网| 91破解版在线亚洲| 91欧美亚洲国产五月天| 国产在线自在拍91精品黑人| 国产拍揄自揄精品视频网站| 青草午夜精品视频在线观看| 日韩精品亚洲人旧成在线| 国产一级一级毛片永久| 四虎影视库国产精品一区| 中国成人在线视频| 亚洲综合色在线| 国产在线精品香蕉麻豆| 亚洲综合色在线| 囯产av无码片毛片一级| 一级毛片在线播放| 夜精品a一区二区三区| 欧美怡红院视频一区二区三区| 香蕉久久国产超碰青草| 亚洲精品国产日韩无码AV永久免费网 | 99这里只有精品免费视频| 久久精品91麻豆| 国产本道久久一区二区三区| 老司国产精品视频91| 国产免费久久精品99re不卡| 成人在线天堂| 无码电影在线观看| 四虎影视8848永久精品| 欧美国产日韩在线观看| 夜夜高潮夜夜爽国产伦精品| 亚洲日韩精品无码专区| аⅴ资源中文在线天堂| 亚洲欧美激情小说另类| 成人午夜久久| 一级做a爰片久久免费| 亚洲男人在线| 激情综合婷婷丁香五月尤物| 欧美一区国产| 人妻无码一区二区视频| 欧美高清国产| 亚洲欧美日韩天堂| 色综合久久88| 四虎综合网| 一区二区影院| 超碰免费91| 天天躁夜夜躁狠狠躁躁88| 欧美日本在线一区二区三区| 亚洲综合色在线| 99无码中文字幕视频| 久久免费看片| 九色视频一区| 久久成人免费| 亚洲美女一区| a天堂视频| 国产激爽爽爽大片在线观看| www欧美在线观看| 欧美全免费aaaaaa特黄在线| 日韩高清中文字幕| 亚洲精品图区| 中文字幕在线日韩91| 57pao国产成视频免费播放| 欧美午夜小视频| 免费aa毛片| 国产素人在线| 国产成人福利在线视老湿机| 91年精品国产福利线观看久久| 亚洲国产欧美国产综合久久 | 中日无码在线观看| 精品91在线| 国产在线视频二区| 香蕉eeww99国产精选播放| 久久久成年黄色视频| 中文字幕日韩视频欧美一区| 国产高清在线观看| 国产草草影院18成年视频| 国产一区二区三区在线观看免费| 久久精品丝袜高跟鞋| 国产成人精品日本亚洲| 久久精品亚洲中文字幕乱码|