999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALBERT的中文簡歷命名實體識別

2024-01-22 06:04:50余丹丹黨同心
計算機工程與設計 2024年1期
關鍵詞:文本方法模型

余丹丹,黃 潔,黨同心,張 克

(1.鄭州大學 網絡空間安全學院,河南 鄭州 450003;2.戰略支援部隊信息工程大學 數據目標工程學院,河南 鄭州 450001)

0 引 言

電子簡歷屬于文本信息,命名實體識別可以自動從大量的非結構化文本信息中抽取出事先定義好的實體類型。不同于通用領域的實體識別只分辨出組織、時間和位置,電子簡歷信息中包含的實體類型更豐富,且較為統一,實體識別難度更高。

目前電子簡歷命名實體識別(named entity recognition,NER)的研究方法主要有3種:基于規則和詞典匹配的方法[1]、基于統計機器學習的方法[2]以及基于深度學習的方法[3]。基于規則和詞典匹配的方法依賴于專家經驗,極其耗時費力,這極大地限制了此類方法的識別效果和遷移能力。基于統計機器學習的方法將NER任務轉換為將簡歷中的實體分配特定類型標簽。常用的統計學習模型有最大熵模型(maximum entropy model,MEM)、隱馬爾可夫模型(hidden Markov model,HMM)[4]和條件隨機場(conditional random field,CRF)[2]等。這些方法雖然能解決基于規則和詞典匹配方法的問題,但仍舊需要準確的特征工程和龐大的語料庫。當下,深度學習方法被廣泛應用到命名實體識別任務中,其以低人工參與度和高識別準確率的優勢迅速在NER任務中占領了主要地位。

針對傳統方法在電子簡歷命名實體識別領域識別率低,可移植性差的問題,本文采用深度學習的方法實現電子簡歷命名實體識別,通過在大量標記文本數據中自動學習特征,減少了人為參與的同時提高了實體識別準確率。

1 相關工作

近些年來,出現了大批深度學習方法來解決命名實體識別問題[5-7]。張海楠等[8]提出了一種深度神經網絡體系結構DNN(deep neural network),用以解決自然語言處理中的命名實體識別任務,加入字特征和詞特征,最終獲得了良好的識別性能;陶源等[9]將卷積神經網絡(convolutional neural networks,CNN)應用到中文命名實體識別中,結合CRF,在中文數據集SIGHAN2006上F1值達到90.49%;馮艷紅等[10]采用BiLSTM(bi-directional long short-term memory)模型解決中文命名實體識別問題,將詞向量與字向量相結合,取得了優于傳統方法的識別結果;陳毅等[11]提出了一種CBLSTM(convolution bidirectional long short-term memory)-CRF模型,用以解決簡歷信息的實體識別,取得了86.94的F1值。

為進一步提高命名實體識別模型性能,越來越多的學者專注于研究更符合語義的詞嵌入表示。在自然語言處理任務中,詞嵌入表示是一切下游任務的前提和基礎,合適的詞嵌入表示不僅可以提高模型識別性能,也可以使下游任務變得簡單。早期的詞嵌入表示方法有Word2vec模型[12,13]、Skip-Gram模型[14]等,然而這些模型訓練得到的詞向量對于每個詞來說是固定的,而中文一詞多義的現象又較為普遍,這在很大程度上限制了模型性能的提升。為此,Devlin等[15]提出了BERT(bidirectional encoder representations from transformers)預訓練語言模型,以Transformers作為模型的主要框架,通過海量無標注文本訓練學習,挖掘文本中的深層語義關系,獲取動態詞向量,解決了一詞多義的問題。王傳濤等[16]通過引入BERT預訓練語言模型實現了電子簡歷命名實體識別,結合BiLSTM和CRF,顯著提高了實體識別準確率。但BERT模型仍存在一些弊端,其具有大量的模型參數,對于模型訓練,其有效性依賴于較大的數據量和較長的時間。在某些特定領域,文本數據獲取困難,標注成本大,BERT模型的效果便不再理想。2019年谷歌發布了BERT模型的改進版ALBERT(a lite BERT)[17],用更少的參數量達到與BERT模型相匹配的效果。

綜上,本文提出了一種基于ALBERT-BiLSTM-CRF的命名實體識別方法,實現中文電子簡歷的命名實體識別,通過引入ALBERT預訓練語言模型實現文本字符的向量化表示,采用BiLSTM學習簡歷文本中不同字符之間的相關權重,最后通過CRF獲取輸入文本的最優標簽序列。在Resume NER數據集上的實驗結果表明,所提模型取得了較好的識別效果。

2 ALBERT-BiLSTM-CRF模型

ALBERT-BiLSTM-CRF模型由3個部分組成:基于ALBERT的字嵌入表示層、BiLSTM層和CRF層。整體模型結構如圖1所示。

圖1 ALBERT-BiLSTM-CRF模型結構

2.1 基于ALBERT的字嵌入表示層

基于ALBERT的字嵌入表示層實現對語料集中字的向量化表達。模型結構如圖2所示。

圖2 ALBERT嵌入層

ALBERT層可分為兩個部分:一部分為字嵌入層,即圖中的xt→Dt; 另一部分為Transformer的編碼層,即圖中的Trm;字嵌入層首先通過查詢詞匯表將每個字符轉換為字向量,即將文本序列表示為x={x1,x2,…,xn}, 此外,還有文本向量和位置向量,文本向量用來區分輸入的不同句話,分別用0和1表示,位置向量表示輸入序列的時序性,然后三特征向量相加形成Dt, 最后通過多層Transformer(Trm)訓練學習得到特征向量Ht,Ht融合了字特征、位置特征以及文本特征,是充分學習了上下文信息的字向量。

與BERT模型相比,ALBERT采用了嵌入向量參數因式分解、跨層參數共享等方法,有效減少了計算參數,加快訓練速度。ALBERT在以下三方面的改進使其更廣泛應用于命名實體識別任務:

(1)嵌入向量參數因式分解

在BERT模型中,詞向量維度與隱藏層向量維度是相等的,但這種設置并不合理,詞向量僅包含詞的信息,而隱藏層向量學習了上下文語義,融合了詞向量特征、文本特征以及位置特征,包含了更多的信息,且若訓練詞表過大,會造成模型達到數億甚至數十億的參數量,這對硬件設備的計算能力是極高的挑戰。因此ALBERT模型采用因式分解的方式來降低參數量,被映射到低維空間的one-hot向量通過高維矩陣分配到高維空間,如式(1)所示,以此來減少參數量。例如,在ALBERT-base模型中,詞向量大小等于128,則總參數量為12 M,當詞向量大小等于768時,BERT-base的總參數量為108 M。表1展示了在進行嵌入向量參數因式分解后BERT與ALBERT不同版本下的參數量對比

表1 BERT和ALBERT模型的參數分析

O(V×H)→O(V×E+E×H)當H?E

(1)

式中:E表示詞向量大小,H表示隱藏層大小,V表示詞表大小,由于在BERT模型中,E和H始終相等,參數規模為O(V×H), ALBERT進行因式分解后轉換為O(V×E+E×H), 當H?E時,參數量顯著降低。

(2)跨層參數共享

ALBERT采用跨層參數共享的方式來進一步減少參數量以及提升模型穩定性。通過共享全連接層和注意力層的全部參數使訓練速度大幅度提高,模型效果稍有降低。如式(2)所示

O(12×L×H×H)→O(12×H×H)

(2)

式中:L為編碼器層數,跨層共享參數后,參數量從O(12×L×H×H) 降為O(12×H×H)。

(3)句間連貫性損失

為了彌補由于參數減少而造成的性能損失,ALBERT將BERT模型采用的NSP(next sentence prediction)訓練任務替換為SOP(sentence-order prediction)。因為NSP包含了主題預測和關系連貫性預測兩個訓練任務,主題預測較為簡單,容易造成了下游任務性能的降低。ALBERT則只保留了關系連貫性預測,正樣本和NSP任務中的正樣本相同,為同一篇文章中兩個順序相連的句子,負樣本則通過調換正樣本中兩個句子的順序來獲得。

ALBERT模型實為雙向多層Transformer的編碼結構,Transformer的核心為注意力機制,首先將每個字向量分解為Q(Query)、K(Key)、V(Value)這3個子向量,使每個字符的Q與上下文字符的K點乘,計算相似度權重,再點乘V,使該字符融合了上下文語義信息。具體計算公式如式(3)所示

(3)

為了擴展模型關注不同位置的能力,增加注意單元的“表示子空間”,Transformer采用了“多頭(MultiHead)”模式,公式如式(4)和式(5)所示

(4)

MultiHead(Q,K,V)=Concat(head1,…,headk)Wo

(5)

ALBERT層通過Transformer中的多頭注意力機制從不同角度計算輸入字符之間的相似度,以此獲得每個字符的動態詞向量作為BiLSTM層的輸入。

2.2 BiLSTM層

為避免遠距離依賴問題,本文采用雙向LSTM(long short-term memory)網絡學習上下文語義信息,LSTM通過引入門的機制控制信息的記憶和遺忘比例。LSTM的隱藏層由特殊的存儲單元組成。每個單元包含4個部分:循環記憶單元、處理輸入信息的輸入門、控制輸出信息的輸出門和丟棄不重要信息的遺忘門。對于每個位置t,LSTM用輸入向量Ht和前一個狀態Pt-1計算當前隱藏狀態Pt。 LSTM單元結構如圖3所示。其計算公式如式(6)~式(11)所示

圖3 LSTM單元結構

(6)

(7)

(8)

(9)

(10)

(11)

(12)

2.3 CRF層

CRF層的作用為學習標簽間的轉移矩陣,降低錯誤標簽出現的概率。BiLSTM層可以通過Softmax函數獲取輸入字符在各個標簽類型下的得分,但是,Softmax層輸出的標簽得分是相互獨立的,會出現一些非法的情況。例如,姓名的開頭詞B-NAME后面跟著籍貫的非開頭詞I-LOC等。CRF層可以利用相鄰標簽之間的依賴信息進行句子級標簽標注,通過添加標簽的轉移分數矩陣計算出整體序列的最優解,得到全局最優標簽。

(13)

對于p(x,y) 使用Softmax函數做歸一化,則得到標記序列y的條件概率為

(14)

假設所有的標簽組合為Y,y′j∈Y表示Y中第j個正確標簽序列。則對于給定的訓練樣本p(y,x) 的對數似然為

(15)

訓練時通過使用維特比算法最大化對數似然函數得到針對輸入序列x=(x1,x2,…,xn) 的最優標簽序列

(16)

3 實驗結果與分析

3.1 實驗數據與標注

本文實驗采用Resume數據集,其中共包含8種實體類型,分別為:姓名、國籍、籍貫、學歷、組織名、專業、種族、職位名稱。簡歷信息具體的實體類型、代號和樣例見表2。

表2 目標實體分類體系

表3 實體標簽定義

表4 數據集實體個數統計/個

3.2 實驗評價標準

本文采用3個評價指標評估基于ALBERT-BiLSTM-CRF電子簡歷命名實體識別模型的識別效果,分別為準確率(Precision,P)、召回率(Recall,R)和F1值,主要使用F1精度來評價全局性能。具體計算過程如下

(17)

(18)

(19)

3.3 實驗參數設置

本實驗在Windows系統上進行,GPU版本為NVIDIA GeForce RTX 3080 Laptop GPU,顯存8 G,CPU為AMD Ryzen 9 5900HX with Radeon Graphics,系統內存為16 G。代碼運行采用Tensorflow1.15.0版本,Python 3.6.13版本。模型使用Adam優化算法進行訓練。學習率設置為0.001。此外,訓練采用了early stop和dropout策略避免過擬合問題,利用梯度裁剪法解決了梯度爆炸問題。所提方法的詳細參數配置見表5。

表5 實驗參數

3.4 實驗結果

為驗證ALBERT-BiLSTM-CRF 模型在Resume數據集上的識別效果,本文進行了實驗,各類實體識別結果見表6。

表6 各類型實體識別結果

由表6可知,本文所提出方法在各類實體中均有較高的準確率,模型結合上下文語義信息取得良好效果,針對國籍、籍貫、種族3類實體的識別F1值最高,均達到了100%。這是因為這3類實體的表達較為規律,且格式規范,由于Resume數據集來源于新浪財經,簡歷的主人公基本為中國人,所以國籍大部分為“中國國籍”,種族大多為“漢族”。姓名和學歷這兩個實體也取得了較高的F1值,這是因為姓名幾乎都出現在簡歷的開頭部分,學歷這個實體的結尾一般都跟“學歷”兩字,例如“本科學歷”,“大專學歷”等,較容易識別。而模型對于組織機構名、職位名和專業名的識別準確率、召回率偏低,主要原因如下:①專業名和學歷名分布緊密,且專業名實體個數相對于學歷名較少,造成模型學習不充分,產生識別誤差,例如句子“經濟學學士學位”其中的“經濟學”應標注為專業,“學士學位”應標注為學歷,但模型卻將其標注為一個學歷實體;②組織機構名和職位名的實體長度大多偏長,且沒有固定結構,語法特征不明顯,如職位名有“蕪湖市首屆優秀中國特色社會主義事業建設者”、“蕪湖改革開放30周年紀念勛章”等;③組織機構名與籍貫名存在大量嵌套,如“安徽江淮汽車有限公司”為組織機構名,而模型則會識別“安徽江淮”為籍貫名,此類嵌套描述也是影響模型準確率的原因之一。

為進一步驗證本文所提模型在識別簡歷信息中實體的有效性和先進性,本文基于Resume語料庫,將所提模型與一些常用的開源模型進行了比較,識別結果見表7。

表7 相關模型對比

從表7中可以發現,本文的方法比其它4種模型取得了更好的性能。BiLSTM-CRF模型通過BiLSTM進行特征提取,CRF實現標簽約束,最終識別效果取得了90.37%的F1值;IDCNN-CRF模型引入膨脹卷積網絡,通過在卷積核之間增加空洞,提高了計算速度,但因為丟失了局部信息,造成實體抽取結果并沒有BiLSTM-CRF模型好,僅達到了88.06%的F1值;在BiLSTM-CRF模型的基礎上添加了注意力機制后性能得到了些許提升,F1值為91.11%。這些方法均沒有使用預訓練語言模型,使命名實體識別的效果提升仍有較大空間。

目前識別性能最好的是BERT-BiLSTM-CRF模型,F1值為94.82%。通過引入了BERT預訓練語言模型,得到更符合語義的詞表示,但BERT模型參數量過大,使其依賴于龐大的語料庫,訓練時間長。本文所提模型通過采用ALBERT對文本進行字嵌入,獲取動態字向量,解決了一詞多義問題的同時,對比BERT模型,大幅度降低了模型參數,簡化了模型結構,縮短訓練時間。實驗結果顯示,本文所提出的模型對比BiLSTM-CRF模型F1值提高了4.49%,對比IDCNN-CRF模型F1值提高了6.8%,對比BiLSTM-Attention-CRF模型F1值提高了3.75%,而與BERT-BiLSTM-CRF模型比較,性能相當,本文模型采用更少的模型參數和更短的訓練時間。對比表7中所有模型,ALBERT-BiLSTM-CRF模型的取得了94.86%的最高F1 值。

4 結束語

現有的電子簡歷命名實體識別方法識別率低,難以滿足應用需求,而可以獲得較好性能的BERT預訓練語言模型卻存在參數量過大,模型訓練時間長的問題。基于此,本文構建了ALBERT-BiLSTM-CRF模型,進行簡歷文本的實體識別,減少參數量的同時縮短了訓練時間。首先ALBERT層將Resume數據集中的每個字符轉化為字向量,避免了分詞產生噪聲的問題。然后通過BiLSTM進一步學習上下文特征,得到字符在各個標簽上的得分。最后通過CRF學習標簽間的約束關系,使用維特比解碼得到最優標簽序列。實驗結果表明,本文模型在各個實體上都取得了較高的準確率,有3類實體的準確率甚至可以達到100%。但是也有個別實體相較而言識別率稍低,分析原因是因為各類實體訓練樣本數差距過大,如職位實體訓練集中有6308個,而籍貫實體只有47個。因此未來工作需要進一步改善訓練樣本分布,提升識別效果。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99热线精品大全在线观看| 免费一级毛片| 色精品视频| 日韩人妻无码制服丝袜视频| 亚洲欧美日韩精品专区| 狼友视频一区二区三区| 精品国产一区二区三区在线观看| 日本一本在线视频| 亚洲精品另类| 欧美精品成人一区二区在线观看| 视频二区亚洲精品| 婷婷六月在线| 二级毛片免费观看全程| 亚洲天堂在线免费| 自拍亚洲欧美精品| 日本一区中文字幕最新在线| 精品视频一区在线观看| 99热国产这里只有精品无卡顿"| 日本黄色a视频| 青青操视频免费观看| 夜夜拍夜夜爽| 韩日无码在线不卡| 欧美yw精品日本国产精品| av一区二区三区在线观看| 国产在线精品99一区不卡| 一本一道波多野结衣一区二区| 中文字幕欧美日韩高清| 欧美成人精品在线| 亚洲国产理论片在线播放| 538国产视频| 丝袜无码一区二区三区| 国产欧美在线观看一区 | 成人自拍视频在线观看| 色婷婷在线播放| 国产你懂得| 男女男免费视频网站国产| 色妞永久免费视频| 国产91全国探花系列在线播放| 精品久久综合1区2区3区激情| 无码丝袜人妻| 国产日韩欧美中文| 国产精品亚洲精品爽爽| 亚洲中文字幕av无码区| 狠狠干欧美| 漂亮人妻被中出中文字幕久久| 午夜影院a级片| 毛片免费试看| 亚洲男人的天堂在线观看| 欧美不卡视频一区发布| 亚洲精品无码抽插日韩| jizz国产在线| 亚洲日韩AV无码一区二区三区人| 成人午夜网址| 欧美高清三区| 欧美五月婷婷| 在线观看亚洲成人| 亚洲日韩精品欧美中文字幕| 毛片免费高清免费| 天堂在线亚洲| 狠狠色噜噜狠狠狠狠奇米777| 2021国产乱人伦在线播放| 狠狠亚洲五月天| 欧美激情伊人| P尤物久久99国产综合精品| 男女精品视频| 中国毛片网| 国产免费网址| 狠狠v日韩v欧美v| 亚洲人成色在线观看| 在线精品亚洲国产| 日本成人福利视频| 日本成人在线不卡视频| 波多野结衣一区二区三区四区| 夜精品a一区二区三区| 亚洲精品视频在线观看视频| 国产精品漂亮美女在线观看| 99精品在线看| 成人精品免费视频| 乱人伦99久久| 国产微拍一区| 四虎永久在线精品影院| 色综合a怡红院怡红院首页|