999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Trans-NER:一種遷移學習支持下的中文命名實體識別模型

2019-08-13 12:38:24王銀瑞彭敦陸
小型微型計算機系統 2019年8期
關鍵詞:文本實驗模型

王銀瑞,彭敦陸,陳 章,劉 叢

(上海理工大學光電信息與計算機工程學院,上海200093)

E-mail:wyinrui@sina.com

1 引言

隨著互聯網技術和信息產業的快速發展,新聞、教育、醫療等等不同領域每時每刻都在產生大量的文本數據.面對這些海量文本數據,如何準確高效地進行信息抽取和數據挖掘成為學術界和工業界關注的熱點問題,作為其中的主要技術的命名實體識別技術也受到研究者們的高度重視.

命名實體識別(Named entity recognition,NER)技術旨在從文本數據中自動地發現信息實體以及識別它們對應的類別[1],它是自然語言處理研究領域的核心任務之一.高效且準確地識別出文本中包含的實體信息,對于計算機處理文本數據具有重要意義.在自然語言處理研究領域,信息檢索、知識圖譜、問答系統等多項高層任務均需要命名實體識別任務作為其基礎構件.命名實體的識別效率及準確度將影響到后續任務,因此,對其進行深入研究具有重要價值.

研究者們已對中文命名實體識別任務進行了廣泛而深入的研究:從早期基于詞典和規則的方法,到傳統機器學習的方法,到近年來基于深度學習的方法,研究成果在學術界和工業界得到了廣泛認可.機器學習和深度學習的方法通常需要大量標注數據以構建效果良好的模型.然而,某些領域由于其領域特殊性,標注數據獲取成本高或數量規模較小,這種情況下以上方法表現不佳.例如,在醫療領域,由于醫學知識的專業性,只能由專業人士對醫療文本進行數據標注工作,這增加了標注數據獲取的成本[2].因此,如何在較小規模數據上獲得較好的識別效果成為了亟待解決的問題.

近年來,遷移學習(Transfer Learning)已經在學界引起了廣泛的關注與研究.遷移學習是利用已獲取的知識對相關領域的不同問題進行求解的一種新機器學習方法,其目的是遷移已有的知識來解決目標領域中僅有少量甚至沒有標注數據的學習問題[3].遷移學習已逐步被學者們應用在了深度學習領域,以解決數據集規模較小的問題.詞嵌入的研究與廣泛應用即是遷移學習應用在自然語言處理領域的實例.

本文試圖將遷移學習技術引入中文NER模型以解決上述問題.利用大規模語料庫訓練語言預測模型,并在此基礎上提出基于上下文特征的字符級向量生成算法,通過該算法將語言預測模型蘊含的知識遷移至實體識別模型.實驗結果顯示,本文提出的模型相比其他模型具有較好的識別效果.

2 相關工作

2.1 命名實體識別

NER一直是自然語言處理領域中的研究熱點,從早期基于詞典和規則的方法,到傳統機器學習的方法,到近年來基于深度學習的方法都不斷有研究成果發表.

最近的基于人工神經網絡的英文命名實體識別方法取得了優良的效果.文獻[4]較早地提出了使用神經網絡來實現命名實體識別任務,在他們的工作中提出了窗口方法與句子方法兩種網絡結構來對文本進行處理.文獻[5]在2016年的工作提出了一種循環神經網絡(Recurrent neural network,RNN)結合條件隨機場(Conditional Random Field,CRF)[6]的網絡結構.實驗結果表明,RNN-CRF結構在命名實體識別任務中獲得了更好的效果,已經超過了基于豐富特征的CRF模型,成為目前基于深度學習的NER方法中的較為主流模型.文獻[7]于2016年的工作中在RNN-CRF網絡結構的基礎上使用了卷積神經網絡(Convolutional Neural Network,CNN)來生成英文字符向量.

中文領域的命名實體識別研究也取得了顯著成果.文獻[8]在2003年的工作中提出了將統計方法與知識庫進行結合的方法進行命名實體識別.文獻[9]提出綜合多種特征進行實體識別任務,這些任務包括語法特征、詞性特征等.本文提出的中文實體識別模型相比上述研究,具有兩個不同特征:1)模型的輸入文本序列基于中文字符級向量表示;2)采用門控循環單元(Gated Recurrent Unit,GRU)構造雙向循環神經網絡.字符級向量表示方法移除了模型對于分詞預處理過程的依賴,避免了分詞錯誤傳播和信息缺失使識別準確率降低的弊端.GRU循環神經網絡和長短期記憶網絡(Long Short-Term Memory,LSTM)相比,不僅具有相似的實驗效果,還具有更簡單的結構,更容易進行訓練[10].

2.2 遷移學習

在面對某一領域的具體問題時,通常可能無法得到構建模型所需規模的數據,而同一領域中的不同任務往往具有共同點.某一領域任務中模型訓練的成果往往可以應用在同一領域不同問題的模型中,這種技術叫做遷移學習.文獻[11]在2010年的工作中對遷移學習做出了闡述:遷移學習旨在利用學習自源數據集的一些知識在目標數據集上執行任務.借助遷移學習技術,可以將已經利用大量容易獲得的數據集進行過訓練的模型應用在同一領域的不同任務上,例如將其中可以重用的層直接利用在新模型中,從而使在新任務的模型中所需的參數數量減少和規模減小.或者直接利用源模型的輸入作為其他任務模型的輸入.新模型可以利用遷移學習源模型中蘊含的信息,從而可以更專注于特定問題的建模.

在過去的幾年中,研究者們對如何將遷移學習應用在人工神經網絡模型中做出了大量的研究工作.遷移學習在自然語言處理領域也有大量的研究.詞嵌入的研究即應用了遷移學習的思想,訓練良好的詞嵌入可以應用在多種自然語言處理任務中.文獻[12]在2016年工作中著重研究了利用了遷移學習的用于句子分類的卷積神經網絡.文獻[13]提出一種半監督混合模型,應用于序列標注問題,該模型同時利用了未標注數據和標注數據訓練模型,體現了遷移學習的思想.

本文提出一種中文命名實體識別領域的遷移學習模型,Trans-NER模型.該模型包括一個源模型、一個目的模型及一種遷移方法.本文在第3節介紹了所構建的源模型與提出的遷移方法,在第4節介紹Trans-NER模型的整體架構與設置.

3 基于上下文特征的字符級向量生成算法

如何構建源模型與如何遷移源模型蘊含的知識是遷移學習的兩個重要問題.本文構建語言預測模型作為源模型,提出基于上下文特征的字符級向量生成算法進行知識遷移.

3.1 語言預測模型

目前詞向量(或詞嵌入、字向量)已廣泛應用在NLP深度學習任務中,經良好訓練的詞向量可以在一定程度上表達詞義,并且可以通過向量計算來比較兩個詞的詞義差別.然而詞向量僅用一個向量來表示一個詞的特點,使其無法表達多重意義,即無法解決“一詞多義”的問題.語言預測模型可以綜合語境輸出詞的上下文特征信息,利用這一點彌補基礎詞向量的缺陷.

本文將語言預測模型構建為關于輸入中文文本序列T的概率分布P(T),理想情況下,P(T)表示句子T是一個合理的中文句子的概率.在現實場景下,由于語料庫規模與質量的有限性,P(T)實際代表了句子T出現在語料庫中的似然.當語料庫的規模足夠大,并且語料庫的質量可以滿足問題的需求時,語言預測模型即可較好地擬合出符合中文語言規律的概率分布P(T).

圖1 語言預測模型結構Fig.1 Structure of language prediction model

圖1 展示了語言預測模型結構簡圖,可以分為3個部分:循環神經網絡層、concatenate層和全連接層.下面依次對每個部分做出詳述,同時介紹整個模型的計算流程.

3.1.1 循環神經網絡層

該層包括兩個LSTM網絡.前向LSTM網絡用于順序處理文本序列,后向LSTM用于逆序處理文本序列,以分別提取序列的以前及未來的信息.需要注意的是,這兩個LSTM網絡具有相同的結構及節點數目配置,但在訓練過程中具有不同參數,相互獨立.

通過前后兩個方向的LSTM網絡,模型可以獲得句子序列的完整信息,從而估計出輸入序列(t1,t2,…,tN)的聯合概率分布:

3.1.2 concatenate 層

該層的功能為連接兩個循環網絡層輸出的向量.對于輸入序列(t1,t2,…,tN),每一個字符對應一個向量表示 xi,將輸入序列映射為向量表示序列X=(x1,x2,…,xN).令下標i表示字符在序列中的位置,hi表示雙向LSTM網絡輸出的隱藏層值,則hi由前向LSTM的隱藏層值和后向LSTM的隱藏層值連接組成,以同時利用序列以前的信息和未來的信息來對當前位置i的字符做出預測.

3.1.3 全連接層

該部分將對循環神經網絡部分提取出的上下文特征進行分類與整合計算,并經過tanh激活函數將其映射到字符級向量空間.使用公式表達如下:

3.1.4 損失函數

語言預測模型訓練的目標為最大化模型輸出正確預測的概率.直接計算該概率較為困難,可以通過最大化模型真實輸出與模型期望輸出xi的余弦相似度間接地達到目的.余弦相似度的計算公式為:

設置該模型的損失函數為模型真實輸出與模型期望輸出余弦相似度的相反數,公式表達如下:

3.2 基于上下文特征的字符級向量生成算法

如何將源模型的知識遷移至目的模型是遷移學習理論中的一個關鍵問題.考慮到自然語言處理領域任務都需要對文本進行向量化處理的共性,本文提出基于上下文特征的字符級向量生成算法,利用該算法抽取出文本序列中包含的上下文特征信息,算法描述如圖2所示.

算法需要的輸入為待處理文本序列、基礎字向量查找表WE及訓練完畢的語言預測模型.這里使用的基礎字向量查找表WE與語言預測模型中的保持一致.為了敘述的簡便,將語言預測模型的兩個LSTM網絡的計算過程分別抽象為兩個函數:FLstm()與BLstm().首先,對輸入文本序列的每一個字符進行基礎字向量查表操作,將輸入文本序列轉換為基礎字向量序列(第1-4行),此時的字向量序列并不包含上下文特征信息.然后,算法利用語言預測模型的LSTM網絡部分計算每一個字符的上下文特征信息,具體過程如下:對于該字符的前置序列,使用前向LSTM計算隱藏層值輸出For_hi(第6-10行);對該字符的后置序列,使用后向LSTM計算隱藏層值輸出Back_hi(第11-15行).然后將基礎字向量和前向LSTM隱藏層值向量、后向LSTM隱藏層至向量進行連接操作,形成新的向量表示(第16行),最后,輸出文本基于上下文特征信息的向量表示序列(第18-19行).

圖2 字符級向量生成算法Fig.2 A character level vector generation algorithm

輸入文本序列T(t1,t2,…,tN),其基礎向量化表示為X=(x1,x2,…,xN).經算法處理后文本序列的新向量序列表示為:

該新字向量序列表示將作為輸入應用在實體識別任務中.

4 Trans-NER中文命名實體識別模型

圖3 Trans-NER模型結構Fig.3 Structure of Trans-NER model

圖3 展示了Trans-NER模型結構圖.不同于其他實體識別算法或模型,Trans-NER模型接受整個文本序列作為輸入,經過第一層算法的處理,得到每個字符基于上下文特征信息的新字向量.然后將新字向量序列輸入雙向GRU網絡,提取每個字符的實體特征.隨后,利用全連接層將所提取到的特征映射為字符是否為實體單元的概率,最后利用CRF層輸出識別結果.下面的部分將對該模型的計算過程與設置做出描述.

4.1 提取文本上下文特征

借助本文所提的算法的優勢,Trans-NER模型可以充分的提取出每個字符的上下文特征信息,同時字符級的向量表示方法使得模型不需要分詞的預處理過程.傳統的中文實體識別模型依賴于分詞過程,需要分詞器對輸入進行預處理,這就導致分詞中出現的錯誤會傳播至實體識別模型,影響識別效果.本文提出的模型的輸入為整個序列,因此避免了該弊端.

無不良反應組患者的PT、TT、APTT及Fib分別為(20.15±0.86)s、(27.93±1.64)s、(41.19±2.08)s、(4.25±0.81)g/L;其PLT、HCT、Hb及RBC分別為(139.85±10.42)×109/L、(0.13±0.06)、(82.09±7.01)g/L、(2.62±1.38)×109/L。

以文本序列T(t1,t2,…,tN)作為輸入,其基礎的向量化表示為X=(x1,x2,…,xN).利用算法處理后得到字符級向量表示 X'=(x1',x2',…,xN').作為下一層的輸入.

4.2 提取實體特征

模型使用雙向多層GRU網絡提取實體特征.GRU相比LSTM具有更簡單的結構,利于計算和訓練;同時保持了LSTM一樣的效果,解決了傳統RNN網絡中出現的長期依賴問題.在每層網絡之間,加入Relu非線性激活函數,增強模型的擬合效果.模型中全連接層將輸出每個字符為實體單元的概率.公式表達為:函數GRU()表示雙向GRU網絡的計算過程,函數Dense()表示全連接層的計算過程.P為輸出的概率分數矩陣,其尺寸為N*K,N為序列的長度,K為實體標簽集的大小.則Pi,j表示序列中第i個字符的標簽為第j個標簽的概率分數.

4.3 相鄰標簽依賴關系

Trans-NER模型將對每個字符標注出其對應的實體識別標簽,以輸出實體標簽序列.由于自然語言的規律,在標簽序列中,相鄰的標簽之間存在一定的依賴關系,以BIOES標注規則為例,B-LOC標簽后不可能出現I-PER標簽,而有較大可能出現I-LOC.因而對待標注字符所在的序列綜合考慮以作出標注,相比僅考慮單個字符會有更好的效果.本文使用了一個線性條件隨機場層對這種依賴關系建模,以解決序列中字符標注結果影響相鄰字符標注結果的問題.

定義矩陣Z為狀態轉移矩陣,Zi,j表示已知當前字符標注為i時,下一個字符標注為j的概率分數大小.定義Y=(y1,y2,…,yN)為對應輸入序列的一個可能輸出標簽序列,結合其概率分數矩陣P與狀態轉移矩陣Z進行評分:

其中y0和yN+1是句子起始和結束標識符.然后進行全局概率歸一化計算,計算出Y對應的概率.

其中YX'是對應輸入序列X的所有可能標注序列的集合.在訓練過程中,使用反向傳播調整模型中的參數,以最大化模型輸出正確標注序列的概率.而在利用模型進行實體識別時,選取分數最高的標注序列作為模型的輸出:

5 實驗

5.1 實驗數據與評價指標

本文采用的基礎字向量為100維字向量.采用的實驗數據為中國法律文書網1http://wenshu.court.gov.cn/上的大量公開法律文書,利用這些文檔構建語言預測模型訓練集與NER數據集.數據集的統計信息如表1所示.NER數據集使用IOB標注模式(Inside,Outside,Beginning)進行標注,其中包括3種實體類型,人名、地名和組織名(PER,LOC,ORG),共 7 種標簽('O','B-ORG','I-ORG','BPER','I-PER','B-LOC','I-LOC').

表1 數據集Table 1 Dataset

論文采用正確率P(%)、召回率R(%)及F值(%)評價模型的識別效果.計算公式如下:

5.2 實驗設置與結果分析

在實驗中,本文首先將Trans-NER模型與其他方法或模型進行對比,以驗證遷移學習的有效性.隨后,通過一系列對比實驗研究不同因素對遷移學習效果的影響.

5.2.1 實驗1.Trans-NER與其他模型的比較

本文選取了幾種效果較好且較為流行的實體識別模型與Trans-NER模型進行對比.這些模型包括CRF、層疊馬爾科夫模型、LSTM-CRF與GRU-CRF.實驗結果見表2.實驗結果顯示,Trans-NER模型在不同實驗指標上均超過了其他模型.這說明在實體識別模型中應用遷移學習技術,提高了模型的識別效果.在接下來的實驗中,本文使用GRU-CRF模型作為基準模型進行對比實驗.

表2 實驗1結果Table 2 Result of experiment 1

5.2.2 實驗2.評估Trans-NER在不同規模數據集上的效果

數據集是依據不同的比例從表1的NER數據集中進行不放回隨機采樣生成.實驗結果見圖4.本實驗在不同大小的NER數據集上訓練Trans-NER模型與基準模型,并對兩種模型的表現進行測試.不同大小的NER根據實驗結果,在不同的NER數據集規模上Trans-NER表現均優于基準模型.隨數據集的增大,不論是基準模型還是遷移學習模型結果均有明顯的提高.這說明了數據集大小在神經網絡訓練中的重要性.同時,在40%至60%大小的數據集上,Trans-NER模型也明顯優于基準模型,表明在僅有少量數據的情況下,遷移學習技術也可以提升實體識別模型的表現.

圖4 實驗2結果對比Fig.4 Result contrast diagram of experiment 2

圖5 實驗4結果Fig.5 Result of experiment 4

表3 實驗3結果Table 3 Result of experiment 3

5.2.3 實驗3.評估源模型訓練集大小對Trans-NER影響

該實驗分別在不同規模的語料庫上訓練語言預測模型,并訓練出相應的Trans-NER模型,分別命名.例 如,100%-Trans-NER表示該模型的語言預測模型由100%的語料庫訓練而成.實驗結果見表3.

實驗結果表3顯示,相比基準模型,60%-Trans-NER、80%-Trans-NER 和100%-Trans-NER 的 F 值(%)提升分別為 0.39、0.98、1.95.可以得出源模型訓練集大小對遷移效果的影響:更大的源模型訓練集可以訓練出質量良好的預訓練模型,從而得到更好的遷移效果.而20%-Trans-NER與40%-Trans-NER的F值(%)相比基準模型分別降低了1.71、0.84.利用過小的語料庫訓練的源模型不僅不能提升實體識別模型的表現,反而降低了其識別效果.

5.2.4 實驗4.評估源模型LSTM 網絡節點個數對Trans-NER影響

該實驗訓練了4種不同LSTM網絡節點數量配置的語言預測模型,并分別訓練相應的Trans-NER模型.256-256表示對應該Trans-NER模型的語言預測模型的LSTM網絡節點配置為第1層256個節點,第2層256個,以此類推.F值比較實驗結果見圖5.

實驗結果圖5顯示,更大的源模型LSTM網絡節點數量帶來了更好的識別效果,512-256、768-256和1024-256相比基準模型均有提升,同時1024-256的配置取得了最好的效果.然而更多的節點也會導致模型可能出現過擬合,同時訓練成本也會增加.同時注意到在256-256的節點數量配置下,Trans-NER模型相比基準模型F值(%)下降了0.71,這說明在遷移學習中,遷移學習源模型的質量對遷移學習的效果有重要影響.

綜上,多組實驗結果顯示本文提出的遷移學習模型Trans-NER在不同規模的數據集上均表現較好.同時試驗結果說明遷移學習源模型的質量對遷移學習的效果有重要影響.由此可見,將遷移學習應用在中文命名實體識別領域是可行的.

6 結論

本文將遷移學習應用于自然語言處理領域的中文命名實體識別系統中,借助遷移學習的優勢,利用了大量非結構化文本訓練得到的語言預測模型的學習成果,在一定程度上解決了實體識別任務在數據集不足的情況下表現不佳的問題.通過實驗證明該方法對于命名實體識別領域具有有效性,同時無需人工定義的特征,可以在相對較少的標注語料成本上獲得效果的提升.在未來的研究工作中,本文提出的在自然語言處理領域的遷移學習思想可以嘗試利用在其他自然語言處理任務中,尤其是缺乏大量標注數據的任務中,研究其對于效果的影響.

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 三上悠亚一区二区| 日韩麻豆小视频| 国产在线一区视频| 国产一区成人| 色哟哟精品无码网站在线播放视频| 日韩东京热无码人妻| 日韩久草视频| 亚洲精品中文字幕午夜| 国产精品视频猛进猛出| 日韩视频福利| 成人在线不卡| 日本人又色又爽的视频| 亚洲国产日韩一区| 久久 午夜福利 张柏芝| 亚洲黄色激情网站| 无码内射在线| 国产成人精品男人的天堂下载| 中日无码在线观看| 国产91精品久久| 青草午夜精品视频在线观看| 国产欧美日韩在线一区| 呦女亚洲一区精品| 理论片一区| 亚洲人成在线精品| 亚洲黄网在线| 99免费视频观看| 中文成人在线| 67194亚洲无码| 国产成人乱码一区二区三区在线| 成人蜜桃网| 亚洲男人的天堂网| 国产亚洲视频免费播放| 欧美中文字幕在线播放| 午夜人性色福利无码视频在线观看| 91精品小视频| 日本国产在线| 午夜视频免费一区二区在线看| 热99re99首页精品亚洲五月天| 亚洲三级a| 538国产视频| 蝴蝶伊人久久中文娱乐网| 毛片国产精品完整版| 黄片在线永久| 色哟哟国产精品| 亚洲精品日产AⅤ| 久久久久久久久亚洲精品| 无码中字出轨中文人妻中文中| Jizz国产色系免费| 国产在线观看第二页| 亚洲国产综合自在线另类| 国产h视频免费观看| 国产情精品嫩草影院88av| 欧美午夜在线观看| 欧美成人手机在线视频| 国产av一码二码三码无码| 亚洲欧美精品在线| 九九这里只有精品视频| 91福利一区二区三区| 国产幂在线无码精品| 国产成人在线无码免费视频| 久99久热只有精品国产15| 日本一区中文字幕最新在线| 欧洲高清无码在线| 亚洲精品成人7777在线观看| 亚洲成年人网| 国产一在线| 国语少妇高潮| aa级毛片毛片免费观看久| 国产网友愉拍精品视频| 久久公开视频| 亚洲无码日韩一区| 国产理论精品| 久久情精品国产品免费| 免费精品一区二区h| 亚洲欧美天堂网| 亚洲一区二区三区在线视频| 亚洲最新在线| 国产69囗曝护士吞精在线视频| 五月激情综合网| 欧美日韩一区二区三区在线视频| 日韩高清中文字幕| 国产精品制服|