劉慧敏 熊菲 王國慶



關鍵詞:簡歷實體識別;RoBERTa模型;詞向量;BiLSTM-CRF模型
1 概述
在大數據時代,人才的競爭非常激烈,如何在海量的簡歷中快速地識別、發現與企業需求相符合的求職者成了一個亟待解決的問題。傳統的方式是花費大量的人力物力從各大招聘平臺的簡歷中進行人工篩選,該方法不僅實效性差,并且很容易出現招聘人員與崗位不匹配的后果。
為解決該問題,諸多學者也展開了相應研究,發現人才簡歷的分析與命名實體識別技術具有密不可分的關系。在CoNNL-2003會議[1]中,學者們對多種命名實體識別方法進行了評測,為命名實體識別的研究奠定了基礎。2004年廖先桃等[2]使用隱形馬爾可夫模型(Hidden Markov Model, HMM) 與自動規則提取相結合實現了中文命名實體提取技術。2009年彭春艷等[3]使用條件隨機場CRF(Conditional Random Field) ,結合單詞構詞特性的距離依賴性,對生物命名實體進行了研究。2016年G Lample等人[4]將長短期記憶的循環神經網絡LSTM(Long Short-Term Memory)在命名實體上的應用進行推廣,首次提出了雙向長短期記憶網絡BiL?STM(Bidirectional Long Short-Term Memory) 和CRF結合的神經網絡模型,表明該模型能夠獲取上下文的序列信息, 因此在命名實體識別中得到了廣泛的應用。
但上述方法只關注了詞或者詞之間的特征提取,忽略了上下文的語義。為解決此問題,Devlin等人[5]引入了一種稱為BERT (Bidirectional Encoder Repre?sentation from Transformers)的新模型對詞向量進行表征,該模型借助Transformers結構可以得到上下文的語義信息。Liu Y等人[6]于2019年提出了RoBERTa(ARobustly Optimized BERT Pretraining Approach) 模型,RoBERTa在BERT模型的基礎上增加了大量訓練參數和訓練數據,且在語言表征中使用了雙字節編碼,提高了詞匯表征的準確度和執行效率。
受上述文獻的啟發,本文建立了基于RoBERTa-BiLSTM-CRF模型的中文實體識別方法,并將該方法應用于大數據人才簡歷分析中。具體做法是利用本文建立的RoBERTa-BiLSTM-CRF模型對脫敏后的求職簡歷進行測試。結果表明,本文建立的模型具有較強的識別效果。相關研究結果為企業更高效地招納人才提供了一個廣義的框架,同時對于中文命名實體識別技術的研究具有一定的指導意義和參考價值。
2 理論方法
本文建立了RoBERTa-BiLSTM-CRF 模型,該模型是端到端的語言模型,能夠較好地捕捉文本中存在的語法和語義特征,并且能夠自動理解上下文的關聯性。模型主要由三個模塊構成,分別是RoBERTa模塊、BiLSTM模塊和CRF模塊,各層的功能和原理如圖1所示。
2.1 RoBERTa 模塊
由于計算機只能識別數字、向量或者矩陣,故如何將文字向量化是諸多研究者關注的重點。文本向量化的研究先后經歷了one-hot、Word2Vec、BERT。其中one-hot模型在字典比較大時,會出現維度災難的問題。而Word2Vec 雖然可以學習詞語之間的關系,但不能解決一詞多義的問題。BERT模型雖具有較強的語義表征優勢,但采用的是靜態掩碼,無法兼顧更多的語言信息。相較于BERT模型,RoBERTa采用了動態編碼,且在特征編碼階段借助了雙向Trans?former[7],通過該網絡結構可以得到同一個句子中的詞與詞之間的關聯程度調整權重系數矩陣,進而獲取詞的表征向量。與循環神經網絡(Recurrent Neural Neu?ral Network,RNN) 相比,它可以更充分地利用上下文信息,能捕捉到更長距離的依賴關系。
RoBERTa預訓練語言模型是BERT的一種變種。與經典的BERT模型相比,RoBERTa引入了更多的訓練數據,增大了mini-batch的同時,去除了NSP任務,提升了優化速度和性能。RoBERTa模型采用了動態掩碼,針對每一次輸入序列都會動態生成新的掩碼模式。模型會不斷地適應不同的掩碼策略,學習不同的語義表征。
2.2 BiLSTM 模塊
LSTM是一種改進的RNN,LSTM模型有效地解決了RNN訓練時產生的梯度爆炸或梯度消失問題,同時也實現了對長距離信息的有效利用[8]。與RNN的主要區別在于,它在算法中增加了一個“處理器”來判斷信息是否有用,處理器的結構稱為“門”。LSTM單元中有三個“門”,分別是遺忘門、輸入門和輸出門,以及記憶cell。其中輸入門決定著是否有信息輸入到記憶cell,輸出門決定著是否有信息從記憶cell輸出,遺忘門判斷丟棄哪些信息。
由于LSTM只能從前往后接收待識別的文本,而通過研究發現,下文信息也有很重要的參考價值。為了能夠同時獲得上下文信息,雙向長短期記憶網絡(BiLSTM) 就應運而生。BiLSTM由兩個LSTM層組成,分別用來訓練前向和后向的序列。這種結構可以將過去的信息和未來的信息同時在輸出層進行綜合輸出。所以BiLSTM的最終輸出既包括了過去的隱藏信息也包括了未來的隱藏信息,其結構如下:
2.3 CRF 模塊
在命名實體識別任務中,由于BiLSTM模型無法處理相鄰標簽之間的依賴關系,而條件隨機場(CRF)能通過相鄰標簽關系得到一個最優的預測序列[9]。為保證最終預測結果的可信度。需要在CRF層加入損失函數,區別于常規的損失函數計算方法,CRF損失的函數由實際路徑的分數和所有路徑的分數組成,而真實路徑分數也應該是所有路徑中分數最高的。假設每種可能的路徑分數為Pi,共有N 條路徑,則總路徑分數就是:
3實驗結果與分析
3.1 數據來源及參數設置
本文數據主要收集了求職簡歷952份,有601562個字作為語料庫作為實驗的數據集,進行應聘崗位、應聘公司、工作職位、工作單位、學歷、專業等內容的識別。實驗過程中把語料庫隨機分成訓練集、測試集和評估集。本次實驗采用的預訓練語言模型為Ro?BERTa模型,具體模型訓練參數如表1所示。
3.2 語料標注與評價指標
命名實體識別的語料標注有以下幾種模式:BIO模式、BIEO模式、BIOES模式以及BMEO模式,本次工作采用的標注方式為BIO模式,其中B代表實體開始位置,I表示實體的非開始位置,O代表其他位置[10]。對簡歷中需要識別的命名實體進行標注,標注實體主要包括12個類別,實體名以及標注名稱如表2所示:
在實際的命名實體預測過程中,實體預測正確的條件需要實體的邊界以及實體的類型兩個條件都正確才算是完成了一個有效的命名實體識別的任務。在本次工作中,對命名實體識別性能的判別采用了正確率P、召回率R 和F1 值作為命名實體的評價指標,具體定義如下:
式中,a 為識別出的正確的實體個數,A 為識別出的正確實體個數,B 為所有標注的實體個數。
3.3 實驗結果與分析
本文所有的實驗均在相同的語料、相同配置的環境下進行,最后得到如表3的實驗結果:
通過表3可以看出,模型對姓名、應聘公司、應聘崗位、學歷以及學校的識別結果是非常優異的,但對職稱、技能方面的識別并不理想,具體是因為職稱數據非常少,導致訓練樣本無法學習到其相應的信息,而技能識別結果不理想則是因為技能之間存在簡寫或者縮寫,或者有指代歧義的現象,該部分問題也是后續研究的重點,訓練過程中準確率和損失率如圖3、圖4所示:
從圖3和圖4可以看出,隨著訓練輪數的增加,整個模型的準確率在升高,而損失在下降的,證明模型對于簡歷的命名實體識別任務的效果一直在提升的。說明RoBERTa預訓練模型可以很好地勝任該任務,且對字所表達出的多義性有較好的處理,對文本特征提取的性能也很好。
3.4 模型測試
本節對RoBERTa-BILSTM-CRF訓練出的模型進行測試,選用隱去姓名、電話,郵箱、地址等信息的求職簡歷,進行簡歷命名實體識別的模型調用和測試,具體結果如表4所示:
從表4 可以看出,本文建立的RoBERTa-BiLSTM-CRF模型對簡歷的命名實體識別具有較好的魯棒性,說明RoBERTa模型相比其他模型,其特征提取能力更強。
4 總結與展望
本文的工作雖然在一定程度上取得了一些成果,但仍存在進一步改善的空間。主要集中在以下幾點:1) 沒有充分利用到領域專業的知識,不能對實體的縮寫進行很好地表征。下一步將會在實體的縮寫以及實體消歧方面進行進一步研究。2) 本文的實驗數據量雖然是特定的領域,但語料的規模并不是特別大,導致最終的數據結果不是太理想。并沒有對模型的性能和多領域的應用場景進行探索,接下來將會在命名實體識別的構建方法以及泛化能力上進行研究。3) 并未考慮實體間的相關關系,以及實體間的內在邏輯,下一步將嘗試將命名實體識別和知識圖譜相結合。