999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RoBERTa-BiLSTM-CRF的簡歷實體識別

2023-03-24 15:11:29劉慧敏熊菲王國慶
電腦知識與技術 2023年4期

劉慧敏 熊菲 王國慶

關鍵詞:簡歷實體識別;RoBERTa模型;詞向量;BiLSTM-CRF模型

1 概述

在大數據時代,人才的競爭非常激烈,如何在海量的簡歷中快速地識別、發現與企業需求相符合的求職者成了一個亟待解決的問題。傳統的方式是花費大量的人力物力從各大招聘平臺的簡歷中進行人工篩選,該方法不僅實效性差,并且很容易出現招聘人員與崗位不匹配的后果。

為解決該問題,諸多學者也展開了相應研究,發現人才簡歷的分析與命名實體識別技術具有密不可分的關系。在CoNNL-2003會議[1]中,學者們對多種命名實體識別方法進行了評測,為命名實體識別的研究奠定了基礎。2004年廖先桃等[2]使用隱形馬爾可夫模型(Hidden Markov Model, HMM) 與自動規則提取相結合實現了中文命名實體提取技術。2009年彭春艷等[3]使用條件隨機場CRF(Conditional Random Field) ,結合單詞構詞特性的距離依賴性,對生物命名實體進行了研究。2016年G Lample等人[4]將長短期記憶的循環神經網絡LSTM(Long Short-Term Memory)在命名實體上的應用進行推廣,首次提出了雙向長短期記憶網絡BiL?STM(Bidirectional Long Short-Term Memory) 和CRF結合的神經網絡模型,表明該模型能夠獲取上下文的序列信息, 因此在命名實體識別中得到了廣泛的應用。

但上述方法只關注了詞或者詞之間的特征提取,忽略了上下文的語義。為解決此問題,Devlin等人[5]引入了一種稱為BERT (Bidirectional Encoder Repre?sentation from Transformers)的新模型對詞向量進行表征,該模型借助Transformers結構可以得到上下文的語義信息。Liu Y等人[6]于2019年提出了RoBERTa(ARobustly Optimized BERT Pretraining Approach) 模型,RoBERTa在BERT模型的基礎上增加了大量訓練參數和訓練數據,且在語言表征中使用了雙字節編碼,提高了詞匯表征的準確度和執行效率。

受上述文獻的啟發,本文建立了基于RoBERTa-BiLSTM-CRF模型的中文實體識別方法,并將該方法應用于大數據人才簡歷分析中。具體做法是利用本文建立的RoBERTa-BiLSTM-CRF模型對脫敏后的求職簡歷進行測試。結果表明,本文建立的模型具有較強的識別效果。相關研究結果為企業更高效地招納人才提供了一個廣義的框架,同時對于中文命名實體識別技術的研究具有一定的指導意義和參考價值。

2 理論方法

本文建立了RoBERTa-BiLSTM-CRF 模型,該模型是端到端的語言模型,能夠較好地捕捉文本中存在的語法和語義特征,并且能夠自動理解上下文的關聯性。模型主要由三個模塊構成,分別是RoBERTa模塊、BiLSTM模塊和CRF模塊,各層的功能和原理如圖1所示。

2.1 RoBERTa 模塊

由于計算機只能識別數字、向量或者矩陣,故如何將文字向量化是諸多研究者關注的重點。文本向量化的研究先后經歷了one-hot、Word2Vec、BERT。其中one-hot模型在字典比較大時,會出現維度災難的問題。而Word2Vec 雖然可以學習詞語之間的關系,但不能解決一詞多義的問題。BERT模型雖具有較強的語義表征優勢,但采用的是靜態掩碼,無法兼顧更多的語言信息。相較于BERT模型,RoBERTa采用了動態編碼,且在特征編碼階段借助了雙向Trans?former[7],通過該網絡結構可以得到同一個句子中的詞與詞之間的關聯程度調整權重系數矩陣,進而獲取詞的表征向量。與循環神經網絡(Recurrent Neural Neu?ral Network,RNN) 相比,它可以更充分地利用上下文信息,能捕捉到更長距離的依賴關系。

RoBERTa預訓練語言模型是BERT的一種變種。與經典的BERT模型相比,RoBERTa引入了更多的訓練數據,增大了mini-batch的同時,去除了NSP任務,提升了優化速度和性能。RoBERTa模型采用了動態掩碼,針對每一次輸入序列都會動態生成新的掩碼模式。模型會不斷地適應不同的掩碼策略,學習不同的語義表征。

2.2 BiLSTM 模塊

LSTM是一種改進的RNN,LSTM模型有效地解決了RNN訓練時產生的梯度爆炸或梯度消失問題,同時也實現了對長距離信息的有效利用[8]。與RNN的主要區別在于,它在算法中增加了一個“處理器”來判斷信息是否有用,處理器的結構稱為“門”。LSTM單元中有三個“門”,分別是遺忘門、輸入門和輸出門,以及記憶cell。其中輸入門決定著是否有信息輸入到記憶cell,輸出門決定著是否有信息從記憶cell輸出,遺忘門判斷丟棄哪些信息。

由于LSTM只能從前往后接收待識別的文本,而通過研究發現,下文信息也有很重要的參考價值。為了能夠同時獲得上下文信息,雙向長短期記憶網絡(BiLSTM) 就應運而生。BiLSTM由兩個LSTM層組成,分別用來訓練前向和后向的序列。這種結構可以將過去的信息和未來的信息同時在輸出層進行綜合輸出。所以BiLSTM的最終輸出既包括了過去的隱藏信息也包括了未來的隱藏信息,其結構如下:

2.3 CRF 模塊

在命名實體識別任務中,由于BiLSTM模型無法處理相鄰標簽之間的依賴關系,而條件隨機場(CRF)能通過相鄰標簽關系得到一個最優的預測序列[9]。為保證最終預測結果的可信度。需要在CRF層加入損失函數,區別于常規的損失函數計算方法,CRF損失的函數由實際路徑的分數和所有路徑的分數組成,而真實路徑分數也應該是所有路徑中分數最高的。假設每種可能的路徑分數為Pi,共有N 條路徑,則總路徑分數就是:

3實驗結果與分析

3.1 數據來源及參數設置

本文數據主要收集了求職簡歷952份,有601562個字作為語料庫作為實驗的數據集,進行應聘崗位、應聘公司、工作職位、工作單位、學歷、專業等內容的識別。實驗過程中把語料庫隨機分成訓練集、測試集和評估集。本次實驗采用的預訓練語言模型為Ro?BERTa模型,具體模型訓練參數如表1所示。

3.2 語料標注與評價指標

命名實體識別的語料標注有以下幾種模式:BIO模式、BIEO模式、BIOES模式以及BMEO模式,本次工作采用的標注方式為BIO模式,其中B代表實體開始位置,I表示實體的非開始位置,O代表其他位置[10]。對簡歷中需要識別的命名實體進行標注,標注實體主要包括12個類別,實體名以及標注名稱如表2所示:

在實際的命名實體預測過程中,實體預測正確的條件需要實體的邊界以及實體的類型兩個條件都正確才算是完成了一個有效的命名實體識別的任務。在本次工作中,對命名實體識別性能的判別采用了正確率P、召回率R 和F1 值作為命名實體的評價指標,具體定義如下:

式中,a 為識別出的正確的實體個數,A 為識別出的正確實體個數,B 為所有標注的實體個數。

3.3 實驗結果與分析

本文所有的實驗均在相同的語料、相同配置的環境下進行,最后得到如表3的實驗結果:

通過表3可以看出,模型對姓名、應聘公司、應聘崗位、學歷以及學校的識別結果是非常優異的,但對職稱、技能方面的識別并不理想,具體是因為職稱數據非常少,導致訓練樣本無法學習到其相應的信息,而技能識別結果不理想則是因為技能之間存在簡寫或者縮寫,或者有指代歧義的現象,該部分問題也是后續研究的重點,訓練過程中準確率和損失率如圖3、圖4所示:

從圖3和圖4可以看出,隨著訓練輪數的增加,整個模型的準確率在升高,而損失在下降的,證明模型對于簡歷的命名實體識別任務的效果一直在提升的。說明RoBERTa預訓練模型可以很好地勝任該任務,且對字所表達出的多義性有較好的處理,對文本特征提取的性能也很好。

3.4 模型測試

本節對RoBERTa-BILSTM-CRF訓練出的模型進行測試,選用隱去姓名、電話,郵箱、地址等信息的求職簡歷,進行簡歷命名實體識別的模型調用和測試,具體結果如表4所示:

從表4 可以看出,本文建立的RoBERTa-BiLSTM-CRF模型對簡歷的命名實體識別具有較好的魯棒性,說明RoBERTa模型相比其他模型,其特征提取能力更強。

4 總結與展望

本文的工作雖然在一定程度上取得了一些成果,但仍存在進一步改善的空間。主要集中在以下幾點:1) 沒有充分利用到領域專業的知識,不能對實體的縮寫進行很好地表征。下一步將會在實體的縮寫以及實體消歧方面進行進一步研究。2) 本文的實驗數據量雖然是特定的領域,但語料的規模并不是特別大,導致最終的數據結果不是太理想。并沒有對模型的性能和多領域的應用場景進行探索,接下來將會在命名實體識別的構建方法以及泛化能力上進行研究。3) 并未考慮實體間的相關關系,以及實體間的內在邏輯,下一步將嘗試將命名實體識別和知識圖譜相結合。

主站蜘蛛池模板: 欧美在线导航| 精品综合久久久久久97超人| 人妻无码中文字幕第一区| 国产呦精品一区二区三区下载| 丰满人妻一区二区三区视频| 欧美亚洲国产精品第一页| 国产美女免费| 久久精品国产免费观看频道| 国产视频只有无码精品| 久久久久中文字幕精品视频| 中国成人在线视频| 久久超级碰| 亚洲精品第1页| 亚洲午夜天堂| 国产亚洲欧美在线人成aaaa| 国产精品无码在线看| 亚洲国产一区在线观看| 香蕉视频在线精品| 青草视频网站在线观看| 久久久亚洲色| 国产一区二区三区免费观看| 日韩精品一区二区三区中文无码| 国产中文一区a级毛片视频| 成年网址网站在线观看| 国产精品久久久久久久久久久久| 亚洲精品成人片在线播放| www.99精品视频在线播放| 亚洲欧洲国产成人综合不卡| 亚洲性一区| 中文字幕无码中文字幕有码在线| 国产综合网站| 亚洲一区二区三区在线视频| 久久永久视频| 亚洲欧美另类视频| 一本大道无码日韩精品影视| 日本在线免费网站| 国产手机在线观看| 日本欧美视频在线观看| 久久精品人人做人人| 成人午夜在线播放| 人妻一本久道久久综合久久鬼色| 亚洲av日韩av制服丝袜| 欧美成人免费| 久久99国产乱子伦精品免| 亚洲成人www| 国产免费久久精品99re不卡| 日韩无码精品人妻| 99re在线视频观看| 国产99精品视频| 国产大片喷水在线在线视频| 巨熟乳波霸若妻中文观看免费| 亚洲国内精品自在自线官| 高潮毛片无遮挡高清视频播放| 精品黑人一区二区三区| 浮力影院国产第一页| 免费无码又爽又刺激高| 欧美劲爆第一页| 丰满人妻久久中文字幕| 四虎成人免费毛片| 亚洲美女操| 久久久久青草大香线综合精品| 色噜噜综合网| 国产69囗曝护士吞精在线视频| 园内精品自拍视频在线播放| 国产成人亚洲精品色欲AV| 国产成人精品三级| 欧美精品啪啪一区二区三区| 中文字幕人妻av一区二区| 国产成人三级| 乱系列中文字幕在线视频| 婷婷亚洲最大| 久久国产精品77777| 亚洲成人黄色在线| 亚洲综合二区| 亚洲国产中文欧美在线人成大黄瓜 | 欧美一区二区三区国产精品| 国产男人天堂| 国产小视频在线高清播放| 黑色丝袜高跟国产在线91| 4虎影视国产在线观看精品| 亚洲区第一页| 久久精品人人做人人综合试看|