999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則約束的深度學習網絡用于文本信息抽取

2021-12-23 04:35:28洪艷偉
計算機工程與設計 2021年12期
關鍵詞:單詞規則深度

賴 娟,洪艷偉+

(1.樂山師范學院 互聯網自然語言智能處理四川省高校重點實驗室,四川 樂山 614000; 2.樂山師范學院 人工智能學院,四川 樂山 614000)

0 引 言

信息抽取(information extraction,IE)通過抽取一段文本中的指定類信息,將自然語言文本中表達的非結構化信息轉換為結構化表示形式,以供用戶查詢使用的過程[1]。IE涉及到命名實體識別、實體鏈接、意見目標抽取以及關系抽取等多類問題[2],在醫療、金融以及網絡安全等領域具有廣闊的應用空間[3,4]。目前,研究人員針對信息抽取提出了多種方法。在傳統方法中,將目標關系及手工提取的模式作為輸入,用于解決小型同質語料庫的預定義目標問題[5]。由于需要手動定義新的提取規則,因此該類方法依賴于人員的廣泛參與,應用十分有限。深度神經網絡的發展為IE提供了新的突破方法,這類方法可以自動學習特征,能夠大大減少人員工作量。同時,在準確性方面,神經網絡學習的特征比人工設計的特征要好,精度更高。基于機器學習的信息抽取方法大致分為流水線法[6]和聯合抽取法[7]兩種。流水線法首先訓練實體抽取模型,然后基于抽取的實體獨立預測關系,方法操作簡單,但是容易出現錯誤傳播和產生冗余信息。為了解決這個問題,學者提出了實體識別和關系分類聯合方法,通過共享參數來學習兩個子任務之間的共享信息。Li等[8]利用雙重嵌入CNN模型來學習上下文感知和高級特征,并與基于知識的注意模型相結合,通過充分利用知識庫中的監督信息來選擇實體。Gasmi等[9]采用了LSTM模型來捕捉文本語句中的信息。由于單向LSTM網絡無法有效地學習上下文信息,因此,Lee等[10]使用雙向LSTM模型對文本語句進行編碼,并引入多頭注意力機制學習語句信息的向量表示。但是,深度網絡需要大量帶有手動注釋的語料庫進行訓練才能得到較高精度的分類結果,當訓練樣本不足時,深度網絡的精度會降低。

為解決這一問題,提出了一種基于規則約束的深度學習模型,所提模型由深度學習網絡、規則邏輯庫和差異單元組成:深度學習網絡將一系列文本句子作為輸入,通過在多個維度上計算復雜的單詞級別相關性來為每個單詞生成一個預測向量;邏輯模塊由一組一階邏輯表示的邏輯規則組成,這些規則明確指定了輸出標簽空間中的復雜關系,同時為每個邏輯規則分配了一個非負的權重用于表明其置信度;差異單元則根據差異損失來衡量深度學習模塊與邏輯系統之間的分歧,負責將神經輸出與邏輯庫的輸出對齊。

1 命名實體識別與關系抽取

在傳統的自然語言處理(natural language processing,NLP)中,命名實體識別(named entity recognition,NER)與關系抽取(relation extraction,RE)是兩個獨立的任務,兩者的主要目標是從文本中識別實體并抽取實體之間的語義關系。其中,NER的任務是在一個文本句子中尋找具有可描述意義的實體,RE則是對文本句子中的兩個實體間的關系進行抽取,通過將非結構化文本數據轉換成關系元組做進一步分析。命名實體識別是RE的前提,關系抽取是在NER獲取的實體間構建聯系。兩者的結合通常被用于數據簡化、大量文本語料理解以及知識圖譜構建的領域中。

對于輸入數據,首先需要正確識別自然語言的實體,其中實體是指具有可描述意義的單詞或短語,通常是地名、人名、產品名稱或者在某個領域內具有一定含義的內容。然后對獲取到的實體,進行RE任務,抽取它們之間的關系。由于傳統的抽取方法是在實體抽取的基礎上進行實體之間關系的識別,因而先期實體識別的結果會影響到關系抽取的結果,前后容易產生誤差累積。針對這一問題,基于深度學習的聯合模型被用于對這一類的自然語言處理任務進行聯合學習。

給定用戶輸入的一段自然語言,用E和R分別表示可能的實體類型和關系類別的集合。對于給定的輸入句子{ω1,ω2,…,ωm},實體提取既涉及實體分段又涉及實體類型。因此,一般將BIO編碼方案與實體類型結合使用以形成輸出標簽y={y1,y2,…,ym}的序列。關系抽取旨在輸出一組三元組(e1,e2,r),其中e1和e2分別表示第一實體和第二實體,而r表示它們之間的關系類型。在這項工作中,將實體提取視為序列標簽問題,將關系提取視為基于已識別實體的分類問題。圖1給出了基于神經網絡的聯合模型具體流程。

圖1 實體聯合抽取流程

2 基于規則約束的深度學習模型

盡管當前已經存在許多基于深度學習結構的聯合抽取方法,但是大多數模型未能充分考慮NER和RE任務之間的隱形的相關性和特征關系。為了解決這個問題,本文將邏輯規則引入深度學習框架中,用于指定聯合推理的任務關系。為了能夠有效地將離散符號系統與分布式表示學習相結合,采用概率的方式計算邏輯規則,并通過定義映射函數把深度神經網絡DNN的連續輸出映射到邏輯單元中。此外,文中還提出了一種差分損失來度量DNN輸出和邏輯輸出之間的差異,保證兩個模塊之間的一致性。差分損失可以通過領域知識對DNN進行正則化,同時更新邏輯模塊,使之符合訓練數據。

圖2給出了所提出方法的總體架構。它由3個單元模塊組成,即深度神經網絡、邏輯庫和差異單元。首先,DNN模塊將一系列單詞作為輸入,經過表征學習后為每個單詞以及可能的候選關系生成一個預測向量。然后DNN的輸出被饋送到邏輯模塊以產生邏輯輸出,其中邏輯庫中填充了易于獲取的通用領域知識,并將該知識形式化為一組一階邏輯規則。最后,差異單元通過計算DNN與邏輯模塊的輸出分布之間的距離,來負責將神經輸出與邏輯庫的輸出對齊。

圖2 所提方法總體架構

2.1 深度學習模型

深度學習模型由1個Bi-GRU網絡和多層變換神經網絡組成,其中,單層變換神經網絡包括1個多頭自注意模型和1個Bi-GRU網絡,主要對句子的序列關系和空間距離進行建模。不同于NLP中常用的循環神經網絡RNN,變換神經網絡不需要進行循環操作,而是并行處理序列中的單詞或者符號,同時自注意力機制還能夠將上下文與較遠的單詞結合起來。通過并行處理所有單詞以及注意到與句子上下文中的其它單詞相聯系,使得網絡的訓練時間比 RNN 少很多且性能更加優越。

(1)

(2)

圖3 GRU和Bi-GRU結構

(3)

(4)

圖4 多頭注意力機制的框架

假定變換神經網絡模型中最后一層Bi-GRU的特征輸出表示為hT,則實體預測yE的神經輸出可以由一個全連接層和softmax層生成

(5)

(6)

(7)

(8)

2.2 一階邏輯

B1∧…∧Bk?H

(9)

式中:H為規則結果,B1∧…∧Bk為前提條件。子句的基礎是一種替換,它將子句中每個出現的變量映射到一個常量

B1(φ)∧…∧Bk(φ)?H(φ)

(10)

式中:φ表示替代量。Herbrand解釋[11]是一種映射,它為每個基態原子分配一個真值。要使其成為Herbrand模型,必須滿足所有的邏輯公式。為了找到一個Herbrand模型,一個可行的方法是通過直接后果算子,即從Herbrand解釋到它自身的一個映射

(11)

式中:I表示Herbrand解釋,P是一組子句。給定已知的基態原子,可以找到其它的基態原子作為邏輯公式的直接結果。在本文公式中,使用神經網絡來模擬直接后果算子,并應用概率邏輯,其中每個公式都被賦予一個置信度,并且每個基態原子有一個連續的真值在[0,1]內,以表示其為真的概率。

2.3 差異單元

深度學習模塊通過特征學習能夠隱式地利用單詞級進行交互,但是無法考慮輸出之間更復雜的關聯信息。例如,實體類型與關系之間的內涵關聯,這些復雜的關聯信息不容易被DNN捕捉,但是可以有效地表述為邏輯規則。本文構造2種FOL來指定實體和關系標簽之間的關聯。第一種類型專注于分段標簽的相關性,即segb(Z)?sega(X),這意味著如果變量Z的分段標簽為b,則變量X的分段標簽就可以推導為a,其中a,b∈{B,I,O}。第二種類型是對實體類型和關系之間的相關性進行建模,例如,entityc(X)∧rell(X,Z)?entityd(Z),這意味著只有當第一個實體和第二個實體分別具有類型c和d時,關系l才會出現。

為了使邏輯規則與DNN輸出兼容,本文采用了概率邏輯,其中在[0,1]中為每個原子分配一個連續值,然后將布爾運算轉換為以概率單位工作。因此,將從FOL語言到連續空間R的映射Γ定義為

(12)

(13)

(14)

所提模型利用梯度下降方法通過損失函數進行端對端訓練,更新神經和邏輯輸出

(15)

(16)

當神經輸出與邏輯輸出相差很大時,通過損失函數的約束,深度模型將修改其網絡,使其更符合邏輯規則;同時邏輯模塊將調整其權重及傳遞回神經元的映射。

3 實驗與結果分析

為了驗證所提方法的有效性,對信息抽取中的意見目標抽取(opinion target extraction,OTE)和端對端關系提取(end-to-end relation extraction,RE)2個任務進行實驗,實驗過程中采用5個數據集進行了測試,并將測試結果與現有方法進行了對比。所有實驗均在操作系統為Windows10 64位操作系統,CPU Inter Xeon-E5-2667@3.3 GHz,RAM 64 GB的環境中進行。

OTE任務中,使用了SemEval 2014和SemEval 2015中的3個基準數據集[7],其中兩個數據集包含有關餐廳的評論,另一個包含筆記本電腦的評論。表1中給出了3個數據集的詳細說明。對于詞向量初始化,在其它數據集上使用python中的gensim庫所包含的Word2Vec工具對單詞嵌入進行預訓練,訓練數據采用了Yelp數據集和Amazon reviews數據集[12]中有關餐廳和筆記本電腦方向的電子數據。RE任務中,使用了TREC和ACE05數據集[13]進行測試,其中TREC數據集中具有人、位置、組織和其它4種實體類型,包含Located_In、Live_In、OrgBased_In、Work_For和Kill這5種關系;ACE05數據集具有7個粗粒度實體類型和6個實體之間的粗粒度關系類型的帶注釋數據。2個數據集的詳細描述見表1。RE任務的詞向量初始化過程使用Glove工具在Wikipedia語料庫上對嵌入詞進行了預訓練。

表1 5個基準數據集的詳細描述

對于所有實驗,單詞嵌入和POS嵌入的尺寸分別設置為300和50,標簽嵌入的尺寸設置為25,隱藏層的尺寸為200。多頭自我注意采用10個,此外還使用了添加到輸入向量的位置編碼。為了訓練模型,采用AdaDelta算法,初始率為1.0,丟失率為0.1。為了評估算法性能,采用F1-分數進行度量。在評估過程中,基于匹配原理,如果匹配成功則一個實體被視為正確;如果一個關系的兩個實體都正確,且關系類型與規則標簽匹配,則該關系是正確的。

首先進行第一個實驗,在OTE任務中所提方法在3個基準數據集的測試結果與MTLSTM方法[7]、GRU方法[14]以及CNN方法[15]等進行了比較。由于OTE任務可視為單類實體抽取,因此所提模型可以通過忽略關系預測來適應此任務。圖5給出不同方法的測試結果。從圖中可以看出,所提方法在3個基準數據庫取得最佳結果,即使不引入邏輯庫,所提深度模型在Restaurant14和Laptop14中的測試結果也是最優的,在Restaurant15中的結果稍差,這說明該深度模型在隱式交互建模中的有效性。在考慮邏輯知識時,使用分詞規則來強制2個相鄰詞使用可能的分詞標簽。此外,還引入了隱式關系規則,在深度學習模塊中保留關系預測層來實現高準確率。

圖5 不同方法在OTE任務中的測試結果

然后進行第二個實驗,在RE任務中所提方法在TREC和ACE05兩個數據集上進行測試,并將結果與CNN與注意力機制混合方法DCNN-ATM[8]、對抗訓練方法AT[13]、基于遠程監督的DBpedia方法[16]、MRT方法[17]以及基于多頭注意力機制的雙指針生成網絡DPN-MATM方法[18]等進行了比較。在測試過程中假設給定實體邊界,任務是預測實體類型和關系。圖6和圖7分別給出了不同方法在TREC和ACE05數據集上的結果對比。從圖中可以看出,實體預測的精度要高于關系預測。此外,在所有方法中,本文方法的測試結果是最優的。

圖6 不同方法在TREC上的結果

圖7 不同方法在ACE05上的結果

4 結束語

本文提出了一種基于規矩約束的深度學習文本信息抽取方法,用于解決由于訓練樣本不足而導致深度學習網絡性能下降的問題。該方法將邏輯規則引入到深度學習框架中,使得深度學習模型在訓練過程中以多個約束條件進行學習,同時規則庫中的每個邏輯規則也會根據深度模型的學習進行更新置信權重,適應不同情況的數據樣本。為了保證深度模塊與規則庫之間的一致性,本文還構造了一個新的損失函數,用于衡量兩者之間的分歧。實驗結果表明,所提方法在意見目標抽取和關系抽取等任務中性能顯著,比其它方法更具優勢。

猜你喜歡
單詞規則深度
撐竿跳規則的制定
數獨的規則和演變
深度理解一元一次方程
單詞連一連
深度觀察
深度觀察
深度觀察
看圖填單詞
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 久久五月视频| 欧洲日本亚洲中文字幕| 97se亚洲综合在线韩国专区福利| 一区二区三区在线不卡免费| 色悠久久综合| 精品在线免费播放| 国模私拍一区二区| 男女精品视频| 人妻丰满熟妇av五码区| 制服丝袜 91视频| 日韩国产高清无码| 欧美一道本| 国产综合网站| 国产香蕉在线| 一区二区三区高清视频国产女人| 九九热在线视频| 免费毛片a| 欧美在线视频不卡第一页| 成人国产精品2021| 老色鬼久久亚洲AV综合| 98超碰在线观看| 亚洲一本大道在线| 国产正在播放| 亚洲成综合人影院在院播放| 亚洲日韩精品伊甸| 亚洲国语自产一区第二页| 秋霞一区二区三区| 伊人五月丁香综合AⅤ| 丁香婷婷激情综合激情| 亚洲性视频网站| 亚洲日韩精品欧美中文字幕| 色久综合在线| 国产精品手机在线观看你懂的 | 国产精彩视频在线观看| 成人午夜视频免费看欧美| 色婷婷视频在线| 亚洲中文在线看视频一区| 成人午夜免费视频| 国产精品色婷婷在线观看| 国产福利大秀91| 少妇精品在线| 2020精品极品国产色在线观看 | 国产幂在线无码精品| 免费国产无遮挡又黄又爽| 欧美第九页| 亚洲人成在线精品| 欧美一区精品| 国产特级毛片| 国产十八禁在线观看免费| 成年人午夜免费视频| 99尹人香蕉国产免费天天拍| 国产91丝袜在线播放动漫 | 亚洲第一区欧美国产综合| av天堂最新版在线| 在线免费无码视频| 污网站在线观看视频| 色哟哟色院91精品网站| 超碰色了色| 久久亚洲综合伊人| 日本国产一区在线观看| 国产小视频网站| 精品国产www| 又大又硬又爽免费视频| 欧美日韩在线成人| 日韩天堂视频| 亚洲国产精品不卡在线| 亚洲丝袜中文字幕| a在线亚洲男人的天堂试看| 欧美精品v日韩精品v国产精品| 国产精品七七在线播放| 亚洲视频四区| 亚洲成人www| 手机精品视频在线观看免费| 一级毛片免费观看久| 九九热这里只有国产精品| www.日韩三级| 日韩福利在线视频| 青青久久91| 久久久久久久久久国产精品| 在线观看免费黄色网址| 71pao成人国产永久免费视频 | 91在线播放免费不卡无毒|