基于BERT的施工安全事故文本命名實體識別方法

2023-03-07 10:00:06孫文涵王俊杰

電視技術 2023年1期

孫文涵，王俊杰

（中國海洋大學工程學院，山東青島 266400）

0 引言

施工安全管理是維系建筑業穩定的重要工作。住房和城鄉建設部統計資料顯示，2021年，全國共發生房屋市政工程生產安全事故623起、死亡700人。建設過程中的非結構化事故報告文本數據通常作為制定預防措施的依據。但在傳統施工安全管理中，對事故信息的利用依賴于人工解釋和處理，缺乏把事故信息轉化為可復用知識的工具。施工安全事故的預防，可以通過整合多源異構的施工安全事故案例信息，構建施工安全領域知識圖譜。該圖譜可用于案例檢索、危險源推測以及原因分析[1]等，這些都對施工安全管理水平提升起著重要作用。實體是知識圖譜的基本單元。建立一個事故報告實體自動提取模型，識別施工安全事故中包含領域知識的實體要素，是構建施工安全領域知識圖譜的基礎工作。

基于自然語言處理（Natural Language Processing，NLP）與機器學習的信息抽取方法作為知識提取的關鍵技術[2]，目的是從文本文檔中提取有效信息或領域知識填充預定義的信息模板[3-4]。命名實體識別（Named Entity Recognition，NER）是信息抽取的子任務，通常分為基于規則的方法[5]、基于統計機器學習的方法[6]和基于深度學習的方法[7]。深度學習方法已成為目前解決NER任務的主流方法。張鵬翔[8]和陳業明[9]利用多維字符特征表示對抽取鐵路設備事故信息；FANG D和Chen H[10]基于自然語言數據增強的小樣本訓練方法自動抽取建筑事故新聞報道和法律法規中的信息。這些方法在加強知識管理方面發揮著有益的作用，但輸入的字向量都是由N-gram、Word2Vec模型訓練得到的靜態字向量，不能全面表征字向量在不同上下文中的特征，難以解決實體表述不一致以及一詞多義的問題，影響實體識別效果。

鑒于此，筆者擬收集1 200份施工安全事故報告，構建施工安全事故領域實體標注語料數據集；利用雙向編碼器表示（Bidirectional Encoder Representations from Transformers，BERT）預訓練模型作為模型編碼器獲取動態字向量，以解決傳統命名實體識別方法在靜態字向量表示上的語義信息缺少問題；設計雙向長短時記憶網絡-注意力機制-條件隨機場（Bidirectional Long Short Term Memory-Attention-Conditional Random Field，BiLSTM-Attention-CRF）模型作為解碼器，解決施工安全事故報告文本中的上下文信息利用不充分問題，在此過程中得到的施工安全事故實體將促進施工安全領域知識圖譜的構建，并更好地指導建筑安全管理的安全培訓。

1 概念定義及實體標注規范

由于施工安全事故領域目前沒有可以直接提供使用的數據集，首步工作需先自行構建實驗所需數據集。施工安全事故報告主要包括事故時間、事故地點、施工項目、施工任務以及事故類型等事故知識元素，是有關施工安全事故的重要文本數據。本文所使用的施工安全數據集語料主要來自中華人民共和國住房和城鄉建設部、各地方安全監管部門以及媒體報道，共收集了1 200條左右的施工安全事故報告，并將事故文本序列以句號劃分。

結合建筑施工安全領域的實際應用，本文對事故文本中的實體要素進行分類，構建了包含事故類型、事故時間、事故地點、施工工程、施工任務、死亡人數、受傷人數、相關單位以及金額損失9類實體的安全事故數據集，并利用YEEDA軟件完成標注，如圖1所示。

圖1 數據標注界面

標注規范采取“BIO”方式?！癇-”表示每個實體的首個字符位置，“I-”表示每個實體的中部以及結尾字符位置，“O”表示除實體外的其他無關字符。實體示例及標簽如表1所示。

表1 實體示例及標簽

2 施工安全事故命名實體識別模型

用于施工安全事故報告實體提取的BERTBiLSTM-Attention-CRF模型框架如圖2所示。該模型主要由四層組成：BERT文本向量化層、BiLSTM特征提取層、注意力機制層及CRF推理層。首先，BERT預訓練層通過無監督方式在大量未標注數據上做訓練，實現文本到字符級向量的轉換。其次，采用BiLSTM層對輸入的字符向量進行雙向編碼，通過學習事故報告中的依賴關系，實現對施工安全事故報告文本的深度感知與理解，并將本層提取的特征向量傳遞給注意力機制層。注意力機制層協助模型重點關注顯著性強的信息，對顯著性弱的特征進行抑制，增強模型對事故報告的特征理解。最后，CRF層對注意力機制層的輸出解碼，考慮標簽間的約束關系，獲取最優的事故報告實體的標注序列。

圖2 BERT-BiLSTM-Attention-CRF模型整體結構

2.1 BERT文本向量化層

施工事故報告包含事故時間、事故地點及事故類型等語義信息。這些語義信息是模型理解施工事故報告的基礎。傳統的語義向量是以靜態的方式處理文字，無法解決實體表述不一致及一詞多義的問題。BERT是多層的雙向Transformer結構的預訓練語言表征模型，能夠自動提取出序列中豐富的語法結構特征、語義特征以及位置特征，使模型獲取豐富的語義信息。

BERT的輸入編碼向量為每一個token對應的表征。該表征由對應的詞嵌入、分割嵌入及位置嵌入三部分疊加組成。詞嵌入是輸入序列中每個字符的本身向量表示，分割嵌入用于區分兩個句子，判斷字符所屬句子A或句子B，位置嵌入是指從0開始將字符的位置信息編碼成特征向量。每一個序列都存在[CLS]和[SEP]兩種特殊的token。[CLS]用于每一個序列的開頭位置，[SEP]插入到每個句子之后，用于斷開語料文本中的不同句子，如圖3所示。

圖3 BERT模型輸入

BERT預訓練層輸出的動態向量作為事故報告的字符向量，輸入到BiLSTM層提取和挖掘特征。

2.2 BiLSTM特征提取層

BiLSTM層作為特征提取器，提取事故報告中文本和句子間的順序特征，構建更準確的語義表示。長短時記憶網絡（Long Short-Term Memory，LSTM）通過引入輸入門（input gate）、遺忘門（forget gate）、輸出門（output gate）以及記憶細胞來記錄額外的信息。LSTM單元結構如圖4所示，更新過程如下。

圖4 LSTM單元結構

式中：σ，tanh表示激活函數，Wf，Wi，Wo，Wc表示權重矩陣，bf，bi，bo，bc表示偏置向量，Ct-1和Ct分別為t-1時刻和t時刻細胞狀態，C~t為輸入門控制的候選細胞狀態。

LSTM對輸入的施工安全事故文本序列建模時，無法編碼從后到前的信息。因此，將向量以前、后兩個方向分別輸入LSTM單元，捕獲雙向的語義信息。在t時刻，BiLSTM的輸出ht表示為

民辦大學的教學改革勢在必行，針對應用型護理本科生從翻轉課堂到慕課，再到OSCE模式，都在圍繞以人為本的教學方式不斷改進，而OSCE達到近年高峰期，尤其在護理學專業，不僅可以改善學生課堂注意力低下的情況，還能提高學生獨立處理問題的能力，更重要的是提高了學生臨床能力。在OSCE實施過程中，能看出學生在臨床實際問題的處理能力有弱勢，意味著教學改革應以提高學生處理臨床實際問題能力為中心。

2.3 Attention特征加強層

施工事故報告具有長文本的特點，存在冗雜信息的干擾。為了增強對顯著信息的關注，利用注意力機制捕捉字與字之間的關聯程度，根據關聯程度的大小調整權重系數，以不同權重配比的方式，二次提取出對實體識別起到關鍵性作用的特征，弱化對實體識別無關的特征，使模型更聚焦于與事故實體有關的字符上，提升描述結果的準確性。關聯程度大小計算如式（3）所示：

式中：Q，K，V分別表示Query向量、Key向量和Value向量，dk表示輸入向量的維度。對于t時刻模型經過注意力機制加權后的輸出為

式中：at表示利用注意力機制加權后的特征向量，ht為BiLSTM層輸出的特征向量，權重λt由式（6）計算得出：

2.4 CRF推理層

CRF層能在數據集中學習到句子的約束條件，通過有效約束大量減少錯誤的預測序列。比如，“B-TIME”只能作為事故發生時間的首端，若出現在其他位置則存在錯誤；“B-TIME”后的正確字符標簽為“I-TIME”，若出現其他標簽則是模型預測錯誤。對于一條輸入的施工安全事故報告文本序列X=(X1,X2,…,Xn)，經過CRF層提取特征后會得到輸出矩陣P=[P1,P2,…,Pn]和預測序列Y=(y1,y2,…,yn)，預測標簽序列其預測得分為

式中：T為標簽yi轉移到標簽yi+1的得分，P為第i個字符被標記為標簽yi的得分，最后使用維特比算法輸出當前事故報告文本序列得分最高的最優標簽序列。

3 實驗分析

3.1 實驗參數配置與評價指標

本實驗采用Tensorflow工具進行NER模型搭建，在臺式計算機上完成訓練。訓練所使用的計算設備具體參數如表2所示。

表2 實驗平臺配置

采取通用評價標準作為評價指標，以準確率（Precision，P）、召回率（Recall，R）和F1分數（F1-score，F1）對實體識別效果進行評價，計算公式如下。

式中：TP是預測為正樣本被正確識別的樣本數，FP為負樣本被識別為正樣本的樣本數，FN表示正樣本被識別為負樣本的樣本數。

3.2 對比實驗結果及分析

為驗證本文模型的性能，在同一實驗環境下，與BiLSTM、BiLSTM-CRF和IDCNN-CRF三個命名實體識別模型在P，R及F1值三項指標上進行各識別實體指標對比，實驗結果如表3所示，四種模型的F1值隨迭代次數變化曲線如圖5所示。

圖5 四種模型的F1值隨迭代次數變化曲線圖

由表3可知，本文模型的P，R，F1值均高于對比模型，分別達到92.31%，92.86%和92.58%。與BiLSTM相比，BiLSTM-CRF和IDCNN-CRF模型的識別效果有了較大的提升，總體F1值分別提升了6.26%和4.59%，說明CRF模型在識別語義特征后，考慮到字符之間的約束關系，提升了總體的識別效果。BiLSTM-CRF模型相較于IDCNN-CRF模型的準確率和召回率均有一定的提升，是因為BiLSTM相較于IDCNN具有更強的全局上下特征提取能力。

表3 各類實體識別指標對比（單位：%）

與對比模型相較，本文模型在整體F1值上比其他3種模型分別提高了10.45%，4.19%，5.86%，說明本文引入的BERT模型和注意力機制提升了安全事故文本的字向量表征能力，增強了對重點信息的關注，根據施工安全事故文本的上下文動態微調字向量，增強了字向量的語義表達，對于數據規模較少的特定領域實體，能有效提升識別性能。對于事故時間、事故地點、死亡人數、相關單位和金額損失等實體，識別F1值均可達到91%以上，部分實體類別如事故時間、死亡人數、相關單位和金額損失等的識別準確率可以高達95%以上，主要原因是這些實體類別的周圍會有明顯的邊界特征，如事故時間多以“日、秒、許”等字符結尾，死亡人數常以“死亡”開頭或結尾，相關單位常常以“***公司”等字符結尾，可以使模型捕捉到明顯的特征信息。而其他實體類別周圍往往沒有明顯的邊界特征且實體長度較長，導致識別效果變差。

從圖5可以看出，在剛開始的1—10次迭代時，四種模型的F1值均快速上升；在11—30次迭代時，四種模型處于穩步上升階段，并在較小的范圍上下波動；在30次迭代后，四種模型的F1值趨于平穩，幾乎沒有波動。從圖5還可以看出，本文模型的整體識別效果好于其他三種模型的識別效果，且在第28次迭代時達到最優總體F1值92.58%。

圖6是本文模型在訓練過程中損失值隨迭代次數的變化曲線。模型在訓練過程時，損失值隨著迭代次數的遞增而降低，最后達到穩定的狀態。本文采用Adam優化器，在訓練過程自動調節學習率，損失函數曲線有較為明顯的階段性特征。

圖6 驗證集與訓練集的損失函數曲線

3.3 消融實驗結果及分析

為研究Attention對模型性能的影響，本文設計了消融實驗。在BERT-BiLSTM-CRF模型的基礎上，增加Attention機制，實驗結果如表4所示。

表4 消融實驗結果對比（單位：%）

BERT-BiLSTM-CRF模型融合Attention后，模型F1值提升了1.25%，其原因是注意力機制可以增強模型對句子中關鍵字的利用，弱化與實體無關的語義特征，使得模型識別實體性能有效提高；能夠有效捕獲與當前輸出關聯度較高的信息，解決實體表述不一致以及一詞多義的問題，提高施工安全事故實體識別的識別精度。

4 結語

本文以自建的施工安全事故領域實體標注語料數據集為研究對象，定義了該領域9類實體類別，提出了一種基于BERT的施工安全事故命名實體識別方法。本方法解決傳統命名實體識別方法在靜態字向量表示上的語義信息缺少問題，有效提高施工安全報告實體識別效率和準確率。文中實現的施工安全事故領域實體識別為后續相關領域知識圖譜的構建打下基礎，且不依賴于特定領域的人工特征，因此可以很容易地應用到其他領域。后續將進一步擴大數據集的規模，并開展施工安全領域的關系抽取工作，以滿足建筑施工安全領域知識圖譜的應用需求。