999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練語言模型的建筑施工安全事故文本的命名實體識別研究

2021-05-13 13:30:02宋建煒鄧逸川
圖學學報 2021年2期
關鍵詞:建筑施工文本實驗

宋建煒,鄧逸川,2,3,蘇 成,2,3

基于預訓練語言模型的建筑施工安全事故文本的命名實體識別研究

宋建煒1,鄧逸川1,2,3,蘇 成1,2,3

(1. 華南理工大學土木與交通學院,廣東 廣州 510640; 2.亞熱帶建筑科學國家重點實驗室,廣東 廣州 510640; 3. 中新國際聯合研究院,廣東 廣州 510555)

建筑施工安全事故分析是施工安全管理的重要環節,但分散在事故報告中的施工安全知識不能得到良好的復用,無法為施工安全管理提供充分的借鑒作用。知識圖譜是結構化存儲和復用知識的工具,可以用于事故案例快速檢索、事故關聯路徑分析及統計分析等,從而更好地提高施工安全管理水平。命名實體識別(NER)是自動構建知識圖譜的關鍵工作,目前主要研究集中于醫療、金融、軍事等領域,而在建筑施工安全領域,尚未見到NER的相關研究。根據建筑施工安全領域知識圖譜的應用需求,定義了該領域5類概念,并明確了實體標注規范。采用改進的基于Transformer的雙向編碼表征器(BERT)預訓練語言模型獲取動態字向量,并采用雙向長短期記憶-條件隨機場(BiLSTM-CRF)模型獲取實體最優標簽序列,提出了適用于建筑施工安全領域的NER模型。為了訓練該模型并驗證其實體識別效果,收集、整理和標注了1 000篇施工安全事故報告作為實驗語料。實驗表明,相比于傳統模型,該模型在建筑施工安全事故文本中具有更優的識別效果。

知識圖譜;命名實體識別;施工安全;預訓練語言模型;事故報告

近年來,我國建筑施工安全形勢雖然有所好轉,但各類安全事故時有發生,施工安全問題仍不容忽視,其管理水平仍需進一步提高[1]。雖然施工安全事故數據及相關報告在不斷積累,但在傳統的施工安全管理中并不能充分利用這些信息,其原因在于缺乏將這些信息轉化為可復用知識的手段。然而知識圖譜以結構化的形式描述客觀世界中的概念、實體及其關系,以接近人類認知世界的方式存儲和利用知識,是一種組織和管理海量知識的工具[2]。施工安全領域知識圖譜可用于事故案例快速檢索、事故關聯路徑及統計分析等[3],同時可進行危險源挖掘、事故隱患發現以及事故處理方法檢索[4],這些都將有助于提高施工安全管理水平。

目前,建筑行業在知識圖譜方面的研究工作尚處于起步階段。王丹和宮晶晶[5]基于建筑安全領域相關文獻構建了該領域的知識圖譜,從而通過可視化分析了該領域的熱點問題。李驍[6]構建了建筑信息模型(building information modeling,BIM)知識體系的知識圖譜,從而更好地指導BIM領域的研究與實踐。牛聚粉和汪蘇[7]基于結構健康監測領域相關文獻繪制了該領域的知識圖譜,通過圖譜的可視化直觀展現了國內外結構健康監測領域的研究狀況。上述研究均使用了Citespace軟件,根據文獻作者、機構及其合作關系等數據構建知識圖譜,并未涉及具體的建筑安全信息。王磊[8]和吳松飛[9]采用本體技術構建了建筑施工安全事故知識的本體庫。BOUZIDI等[10]采用本體技術對建筑行業法規一致性檢查的流程進行了簡化。胡培寧和張金月[11]基于BIM和本體技術開展了建筑防火設計自動審查的研究。黃亞春[12]采用自然語言處理(natural language procession,NLP)技術對建筑施工安全事故報告中的風險因素進行研究,采用卷積神經網絡(convolutional neural network,CNN)獲得了文本分類模型。上述研究雖然考慮了建筑安全問題,但未涉及建筑施工安全領域的命名實體識別(named entity recognition,NER)問題。

實體是知識圖譜的最小單元,NER是獲取實體的關鍵。在NLP技術中,NER是指將文本中的實體按事先定義的類別進行分類。NER有3種方法[13]:①基于規則的方法[14],通過人工編寫規則進行識別;②基于統計學習的方法[15-16],包括隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機場(conditional random field,CRF)模型等;③基于深度學習的方法,根據輸入的字向量直接抽取實體,實現知識圖譜的自動構建,是當前NER方法的研究熱點[17]。王莉[3]構建了城市軌道交通安全管理領域的知識圖譜。LENG等[18]針對建筑行業的機械電氣和管道(mechanical electrical and plumbing,MEP)系統開展了NER及關系抽取的研究,并構建了MEP領域的知識圖譜。上述研究的NER部分采用了基于深度學習的方法,但輸入的字向量是由Word2Vec[19-20]模型訓練得到的靜態字向量,不能全面表征字向量在不同上下文中的特征,從而影響命名實體抽取的準確率。

針對靜態字向量不能反映字向量所在語境而導致NER準確性降低的問題,本文采用改進的BERT (Bidirectional Encoder Representations from Transformers)預訓練語言模型[21]獲取動態字向量,并采用雙向長短期記憶-條件隨機場(bidirectional long short term memory-conditional random field, BiLSTM-CRF)模型獲取實體最優標簽序列,提出了適用于建筑施工安全領域的NER模型。實驗表明,本文模型具有理想的識別效果。

1 概念定義及實體標注規范

1.1 概念的定義

建筑施工安全領域NER旨在將建筑施工安全事故文本中的實體按事先定義的類別進行分類,這個“事先定義的類別”也稱作概念。概念是對一類具有相同屬性實體的抽象,實體是概念的實例化表示。概念的定義需要滿足知識圖譜的應用需求,如張寶隆等[4]在構建煤礦案例知識圖譜時,根據實際需求定義了煤礦事故、危險源、事故地點、事故后果等概念。本文針對建筑施工安全領域知識圖譜應用需求,定義了安全事故、施工項目、事故時間、事故地點和事故損失5類概念,見表1。

表1 施工安全事故領域概念

1.2 實體的標注規范

實體的標注采用“BIO”規范,其中“B-某概念”為從屬于該概念的實體首字的標簽;“I-某概念”為從屬于該概念的實體其他字的標簽;“O”為非實體字及符號的標簽。根據以上實體標注規范,對應于表1所列的5類概念,可以得到11類標簽,見表2。

表2 標簽類別

圖1給出了某文本的標簽序列,該文本分別包括施工項目類實體“御景項目”和安全事故類實體“墜落事故”2實體。因此,“御景項目”實體中“御”字的標簽為“B-PRO”,其他字的標簽均為“I-PRO”;“墜落事故”實體中“墜”字的標簽為“B-INC”,其他均為“I-INC”。而文本中“發生”一詞并非實體,所以這2個字的標簽均為“O”。

圖1 實體標簽示例

本文的主要工作是研究和提出適用于建筑施工安全領域的實體標注模型,實現該領域實體的自動識別。

2 NER模型的建立

2.1 BERT預訓練語言模型及改進模型

2.1.1 BERT預訓練語言模型

在NLP領域,通過使用大量未標注文本語料訓練深層網絡結構,從而得到字向量,這種深層網絡結構被稱為預訓練語言模型[22]。早期的Word2Vec模型是靜態模型,其得到的字向量未考慮上下文信息,對后續NER的準確率造成較大影響。針對這一問題,ELMO預訓練語言模型[23]提出了考慮上下文信息的文本表示方法,但其采用的LSTM編碼器在解決長期依賴問題上的表現不如Transform編碼器[24]。因此,2018年Google提出了基于Transform編碼器的BERT預訓練語言模型(簡稱BERT模型),在基于字向量的NER、機器翻譯、情感分類等任務中均取得了當時最好的效果。

BERT模型的網絡結構如圖2所示。從圖中可見,Transform編碼器與輸入文本中每個字都相連,并通過其自注意力機制反映各個字之間的相關程度,從而使各個輸出字向量都充分融合了上下文信息,以解決一詞多義問題。王月等[25]采用BERT模型開展警情文本領域的NER工作,取得了91%的準確率。事實上,BERT模型采用遮擋語言模型(masked language model,MLM)和下一句預測(next sentence prediction,NSP)技術逐漸調整模型參數,使得模型輸出的文本語義表示可以刻畫語言的本質。

圖2 BERT模型結構

2.1.2 改進的BERT模型

在傳統的BERT模型中,雖然MLM與NSP這2個任務可以學習并輸出包含上下文信息的字向量,但仍然存在一定的弊端。MLM任務采用字粒度掩碼的方式進行訓練,不利于學習完整的詞義表示。因此,BERT-WWM(Whole Word Masking)預訓練語言模型(簡稱BERT-WWM模型)改用全詞掩碼的方式進行訓練[26],見表3。從表中可見,全詞掩碼方式用MASK標簽替換一個完整的詞而不是字,更符合中文構詞方式,有助于提升預訓練任務的效果。

表3 全詞掩碼示例

BERT-WWM-EXT模型是哈工大訊飛聯合實驗室發布的基于全詞掩碼的預訓練語言模型[22],該模型在BERT-WWM模型的基礎上增加了訓練步數,同時采用了更大規模(包括了百科、問答、新聞等)的語料進行訓練。

RoBERTa模型是Facebook發布的改進BERT模型[27],其在BERT-WWM模型的基礎上提出一種動態的掩碼機制,可以更深入掌握句子中的語義信息。此外,該模型還同時改進了BERT模型中的NSP任務,可以隨機分割句子群,更加有利于學習句子之間的語義信息。

2.2 BiLSTM模型

長短期記憶(long short term memory,LSTM)模型[28]是帶有門控單元的循環神經網絡(recurrent neural net-work,RNN)模型[29],這些門控單元會對上一個節點的信息進行選擇性記憶和傳遞。因此,相比于普通的RNN模型,LSTM模型在處理長序列文本方面表現更佳。此外,為了同時反映每個字的上、下文信息,GRAVES等[30]提出了BiLSTM模型,如圖3所示。從圖中可見,由預訓練語言模型產生的字向量按照從左向右及從右向左的順序分別輸入正序及逆序LSTM單元,因此BiLSTM模型可以考慮2個方向的信息,綜合輸出字標簽得分向量。

圖3 BiLSTM模型結構[17]

2.3 CRF模型

對于圖1所示的文本,由BiLSTM模型得到的各個字的標簽得分向量如圖4所示。從圖中可見,“景”的標簽得分向量景對應標簽“O”的得分最高,故BiLSTM模型對該字的預測標簽為“O”,而該字的正確標簽為“I-PRO”,模型預測錯誤。出現錯誤的主要原因是,BiLSTM模型僅在字向量的層面進行計算,忽略了字標簽之間相互約束關系,導致其所輸出每個字的標簽得分向量不夠準確,從而出現上述錯誤的預測結果。

圖4 CRF模型結構

實際上,相鄰字標簽之間是存在約束關系的,例如標簽“B-PRO”后面不可能出現標簽“I-INC”,文本開頭的字標簽不可能是“I-”標簽。針對BiLSTM模型的不足,進一步將其輸出的字標簽得分向量輸入CRF模型,如圖4所示。CRF模型[31]考慮了各字標簽之間的約束關系,利用每個字標簽的得分與字標簽之間的轉移得分計算不同標簽序列的出現概率,從中選取出現概率最大的序列作為所考慮文本的標簽序列。圖4中不同標簽序列中最大出現概率為0.9,其對應于“景”的標簽為“I-PRO”,預測正確,糾正了BiLSTM模型的誤判。

2.4 BERT+-BiLSTM-CRF模型總體結構

本文綜合采用改進的BERT模型、BiLSTM模型以及CRF模型(簡稱BERT+-BiLSTM-CRF模型),開展建筑施工安全領域的NER工作,見表4,其總體框架如圖5所示。從圖5可見,BERT+-BiLSTM- CRF模型首先采用改進的BERT模型由輸入文本輸出相應的動態字向量,然后采用BiLSTM模型進一步輸出字標簽得分向量,最后采用CRF模型輸出文本的最優標簽序列,實現命名實體的抽取。

表4 BERT+-BiLSTM-CRF模型

圖5 BERT+-BiLSTM-CRF模型總體框架

3 NER模型評價指標

其中,TP為模型識別出的第類正確實體個數;FP為模型識別出的第類錯誤實體個數;FN為模型未識別出的第類正確實體個數。準確率P用于評估模型抽取第類實體的準確性,召回率R用于評估模型抽取第類實體的全面性。當2個指標不一致時,進一步采用二者的調和平均數F來評估模型對第類實體的識別效果。

除了考慮NER模型對各類別實體的識別效果,還需要考慮模型對所有類別實體的總體識別效果。為了考慮各類別實體數量差異的影響,不宜采用各類別評價指標的算術平均作為總體評價指標,可以采用加權平均的辦法得到總體準確率總、總體召回率總和總體調和平均數總,即

其中,TP,FPFN見式(1)和式(2)。

4 實驗分析

4.1 模型搭建和參數設置

采用模型搭建工具Tensorflow[32]搭建NER模型,Tensorflow是由Google人工智能團隊開發的適用于各類深度學習算法的框架。在BERT及其改進模塊中,使用輕量化版本,將每次讀取語料序列長度seq_設為128,處理句子數量_設為24,訓練輪數取15。在BiLSTM模塊中,采用可加速收斂的優化器Adam[33],訓練學習率_設為2×10-5,采用[34]技術防止過擬合,值取為0.5。在CRF模塊中,全連接層參數取為字標簽類別數,在本文中取為11(表2)。

4.2 實驗語料的合理規模

本文收集、整理了近十年1 000余篇建筑施工安全事故報告,獲得1 000個長度在60字左右的文本,共計6萬字左右的實驗語料。除事故損失類實體數目較多外,大部分文本中都有一個類別的實體,總體來說,實驗語料中各類實體總數分布較均衡,見表5。

本文采用標注工具YEDDA[35]對實驗語料中出現的實體進行人工標注,實驗語料中部分標注示例已在圖1中有所體現,圖6中補充了部分實體類別的標注示例。

表5 實驗語料中各類別實體總數

圖6 實驗語料標注示例

按照8﹕1﹕1的比例將已標注的實驗語料劃分為訓練集、驗證集和測試集,其中訓練集用于訓練模型,驗證集用于調整模型超參數,測試集用于評估模型識別效果。為了減少實驗語料劃分隨機性產生的實驗偏差,按照8﹕1﹕1的比例重復進行10次不同的訓練集、驗證集和測試集的劃分,并對10次實驗結果進行平均處理。

為了考察實驗語料規模的合理性,基于3組不同規模的實驗語料,采用RoBERTa-BiLSTM-CRF模型開展對比實驗。分別考慮800、900和1 000個文本,實驗結果見表6。從表中可見,采用900個文本作為實驗語料所得到的總體準確率總、總體召回率總和總體調和平均數總,分別比采用800個文本所得到的總,總和總高2.64%,1.21%和1.95%,說明增大實驗語料規模可以有效改善模型的識別效果。采用1 000個文本所得到的總和總分別又提升了0.63%和0.25%,而總略微降低了0.11%,說明了文本數量在1 000個左右較為合理,再擴大實驗語料規模其識別效果已不明顯。

表6 不同實驗語料規模下的實驗結果

4.3 實驗語料的合理劃分

為了說明實驗語料劃分比例的合理性,除了采用8﹕1﹕1比例外,還采用6﹕2﹕2比例將實驗語料劃分為訓練集、驗證集和測試集。在1 000個文本情況下,采用RoBERTa-BiLSTM-CRF模型進行對比實驗,結果見表7。從表中可見,采用6﹕2﹕2比例所得到的總,總和總明顯低于采用8﹕1﹕1比例所得到的結果,說明按照8﹕1﹕1比例劃分實驗語料是合理的。

表7 不同實驗語料劃分比例下的實驗結果

4.4 模型總體識別效果對比分析

為了比較各種NER模型在建筑施工安全領域的總體識別效果,共開展7組對比實驗??紤]前述1 000個文本,并按照8﹕1﹕1比例將實驗語料劃分為訓練集、驗證集和測試集,實驗結果見表8。

從表8可見,BiLSTM模型的總比LSTM模型的總提高了7.93%,說明BiLSTM模型由于綜合考慮文本正逆序雙向信息而提升了總體識別效果。BiLSTM-CRF模型的總進一步提高了2.61%,說明CRF模型在考慮字標簽之間約束關系后也提升了總體識別效果。采用BERT-BiLSTM-CRF模型后,總再提高了6.70%,說明BERT模型所獲取的包含上下文語義信息的動態字向量對總體識別能力有較大的提升作用。結合改進的BERT模型后,BERT+-BiLSTM-CRF模型的總比BERT-BiLSTM- CRF模型的總提高了0.19%~0.91%,其中RoBERTa- BiLSTM-CRF模型的總體識別效果最好,原因是RoBERTa模型在BERT模型的基礎上采用了動態掩碼機制以及隨機分割句子群技術,可以更深入理解文本的語義信息,從而進一步提升了模型的總體識別能力。

從表8還可見,不同模型識別出的實體總數不同,雖然識別出的實體總數不能用來衡量模型性能的好壞,但是模型的3個總體評價指標正是由模型識別出的正確與錯誤實體個數計算得到,這也恰好說明不同模型的總不同的原因。

4.5 各個類別實體識別效果分析

從表9還可見,事故時間和事故損失這2類實體識別的調和平均數均達到97%以上,主要原因有2個,一是事故時間與事故損失類別的實體都具有比較明顯的邊界特征,如事故時間多以“日、許、左右”等字結尾,事故時損失多以“死亡、受傷”等字結尾;二是這2類實體的長度適中,多為4~10個字左右。而施工項目、安全事故及事故地點這3類實體識別的調和平均數有所下降,在92%左右,原因分別是,施工項目類別的實體長度過長,多為10~20個字左右,如 “**有限公司**廠房拆除工程”等;安全事故類別的實體較為豐富導致邊界特征不明顯,如“**墜落”、“**坍塌”、“**觸電”、“**中毒”等實體;事故地點類別的實體描述方式過多,同樣導致邊界特征不明顯,如“**交叉路口”、“**市開發區”、“**市境內”等。

表8 各模型總體識別效果對比

表9 各類別實體識別效果對比

4.6 不同領域實體總體識別效果對比分析

為了對比不同領域實體的總體識別效果,表10給出了警情領域、信息化戰爭領域和本文所研究的建筑施工安全領域的數據規模、問題復雜度及實體識別總體評價指標值。從表10可見,雖然不同領域的文本內容各異,但三者的文本復雜度相近,其數據規模均為萬字級,本文采用RoBERTa- BiLSTM-CRF模型所獲得的建筑施工安全領域實體總體識別效果最好,從另一側面也說明了本文模型更適用于不同領域的實體識別研究。

表10 不同領域實體總體識別效果對比

5 結 論

本文根據建筑施工安全領域知識圖譜的應用需求,定義了該領域5類概念,并明確了實體標注規范。在此基礎上,收集、整理和標注了1 000篇施工安全事故報告作為實驗語料,提出了建筑施工安全領域NER的BERT+-BiLSTM-CRF模型,為該領域知識圖譜的構建打下基礎。所提出的模型綜合采用了改進的BERT模塊、BiLSTM模塊和CRF模塊。其中,改進的BERT模塊可以獲取包含上下文信息的動態字向量,BiLSTM模塊可以獲取包含文本正逆序雙向信息的字標簽得分向量,CRF模塊可以考慮字標簽之間的約束關系,從而獲取文本最優標簽序列。實驗表明,相比于傳統模型,BERT+-BiLSTM-CRF模型具有更優的總體識別效果,其中RoBERTa-BiLSTM-CRF模型同時采用了動態掩碼機制及隨機分割句子群技術,可以更深入理解文本的語義信息,對文本實體的總體識別效果最好。

限于本文所收集的實驗語料的覆蓋范圍,所定義的建筑施工安全領域實體類別僅有5類。有必要進一步擴大該領域的實驗語料覆蓋范圍,定義更完備的實體類別,并開展相應類別的實體抽取工作;考慮到NER的應用價值相對有限,后續會開展施工安全領域的關系抽取工作,從而更好地滿足建筑施工安全領域知識圖譜的應用需求。此外,考慮到大數據量下的實驗語料人工標注難度較大的問題,后續研究會嘗試半監督、無監督以及遷移學習的NER方法。

[1] 張揚. 建筑工程施工安全管理[J]. 城市建設理論研究: 電子版, 2017(11): 29. ZHANG Y. Safety management of construction engineering[J]. Theoretical Research on Urban Construction (Electronic Edition), 2017(11): 29 (in Chinese).

[2] 黃恒琪, 于娟, 廖曉, 等. 知識圖譜研究綜述[J]. 計算機系統應用, 2019, 28(6): 1-12. HUANG H Q, YU J, LIAO X, et al. Review on knowledge graphs[J]. Computer Systems & Applications, 2019, 28(6): 1-12 (in Chinese).

[3] 王莉. 基于知識圖譜的城市軌道交通建設安全管理智能知識支持研究[D]. 徐州: 中國礦業大學, 2019. WANG L. Research on intelligent knowledge support for safety management of urban rail transit construction based on knowledge graph[D]. Xuzhou: China University of Mining and Technology, 2019 (in Chinese).

[4] 張寶隆, 王向前, 李慧宗, 等. 煤礦事故案例本體知識庫的構建及推理研究[J]. 工礦自動化, 2018, 44(3): 35-41. ZHANG B L, WANG X Q, LI H Z, et al. Research on construction and reasoning of coal mine accident case ontology knowledge base[J]. Industry and Mine Automation, 2018, 44(3): 35-41(in Chinese).

[5] 王丹, 宮晶晶. 基于知識圖譜的國內建筑安全領域可視化研究[J]. 工程管理學報, 2016, 30(6): 43-48. WANG D, GONG J J. Visualization research in China building safety analysis based on mapping knowledge domain[J]. Journal of Engineering Management, 2016, 30(6): 43-48 (in Chinese).

[6] 李驍. 基于知識圖譜的建筑信息模型知識體系框架研究[D]. 重慶: 重慶大學, 2016. LI X. Research on the framework of knowledge system of building information model based on knowledge graph[D]. Chongqin: Chongqing University, 2016 (in Chinese).

[7] 牛聚粉, 汪蘇. 基于知識圖譜的建筑健康監測研究態勢可視化分析[J]. 安全與環境學報, 2013, 13(5): 225-229. NIU J F, WANG S. Building & construction health monitoring research situation analysis based on knowledge topography[J]. Journal of Safety and Environment, 2013, 13(5): 225-229 (in Chinese).

[8] 王磊. 基于本體技術的建筑安全事故控制措施研究[J]. 現代商貿工業, 2018, 30(23): 195-196. WANG L. Research on control measures of building safety accidents based on ontology technology[J]. Modern Commercial Industry, 2018, 30(23): 195-196 (in Chinese).

[9] 吳松飛. 集成本體與自然語言處理的BIM建筑施工過程安全風險檢查研究[D]. 廣州: 華南理工大學, 2018. WU S F. Research on safety risk inspection of BIM building construction process integrating ontology and natural language processing[D]. Guangzhou: South China University of Technology, 2018 (in Chinese).

[10] BOUZIDI K R, FIES B, FARON-ZUCKER C, et al. Semantic web approach to ease regulation compliance checking in construction industry[J]. Future Internet, 2012, 4(3): 830-851.

[11] 胡培寧, 張金月. 基于BIM和Ontology的建筑防火設計自動審查的方法研究[J]. 工程管理學報, 2017, 31(2): 49-53. HU P N, ZHANG J Y. Research on automatic fire prevention checking in building design based on BIM and ontology[J]. Journal of Engineering Management, 2017, 31(2): 49-53 (in Chinese).

[12] 黃亞春. 基于自然語言處理的建筑工程安全事故報告風險研究[D]. 武漢: 華中科技大學, 2019. HUANG Y C. Research based on natural language processing for risk of construction accident reports[D]. Wuhan: Huazhong University of Science and Technology, 2019 (in Chinese).

[13] 劉瀏, 王東波. 命名實體識別研究綜述[J]. 情報學報, 2018(3): 329-340. LIU L, WANG D B. A review on named entity recognition[J]. Journal of the China Society for Scientific and Technical Information, 2018(3): 329-340 (in Chinese).

[14] 向曉雯, 史曉東, 曾華琳. 一個統計與規則相結合的中文命名實體識別系統[J]. 計算機應用, 2005(10): 2404-2406. XIANG X W, SHI X D, ZENG H L. A Chinese named entity recognition system combining statistics and rules[J]. Computer Applications, 2005(10): 2404-2406 (in Chinese).

[15] 韓普, 姜杰. HMM在自然語言處理領域中的應用研究[J]. 計算機技術與發展, 2010, 20(2): 245-248, 252. HAN P, JIANG J. Application and research of hidden Markov model in natural language processing domain[J]. Computer Technology and Development, 2010, 20(2): 245-248, 252 (in Chinese).

[16] 何炎祥, 羅楚威, 胡彬堯. 基于CRF和規則相結合的地理命名實體識別方法[J]. 計算機應用與軟件, 2015, 32(1): 179-185, 202. HE Y X, LUO C W, HU B Y. Geographic entity recognition method based on crf model and rules combination[J]. Computer Applications and Software, 2015, 32(1): 179-185, 202 (in Chinese).

[17] 張曉海, 操新文, 高源. 基于深度學習的作戰文書命名實體識別[J]. 指揮控制與仿真, 2019, 41(4): 22-26. ZHANG X H, CAO X W, GAO Y. Named entity recognition for combat documents based on deep learning[J]. Command Control & Simulation, 2019, 41(4): 22-26 (in Chinese).

[18] LENG S, HU Z Z, LUO Z, et al. Automatic MEP Knowledge Acquisition Based on Documents and Natural Language Processing[C]//36th CIB W78 2019 Conference: IT in Design, Construction, and Management. Newcastlez: Northumbria University, 2019: 800-809.

[19] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representation in vector space[EB/OL]. [2021-03-12]. https://www.semanticscholar.org/paper/Efficient- Estimation-of-Word-Representations-in-Mikolov-Chen/330da625c15427c6e42ccfa3b747fb29e5835bf0.

[20] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[EB/OL]. [2021-03-12]. https:// arxiv.org/abs/1405.4053.

[21] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. [2021-03-12]. https://xueshu.baidu. com/usercenter/paper/show?paperid=147v0rh04e5c0a70qy4u0mc03q394989&site=xueshu_se.

[22] 李舟軍, 范宇, 吳賢杰. 面向自然語言處理的預訓練技術研究綜述[J]. 計算機科學, 2020, 47(3): 162-173. LI Z J, FAN Y, WU X J. Survey of natural language processing pre-training techniques[J]. Computer Science, 2020, 47(3): 162-173 (in Chinese).

[23] PETERS M E, NEUMANN M, IYYER M, et al. Human language technologies[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics. New Orleans: NAACL Press, 2018: 2227-2237.

[24] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[EB/OL]. [2021-03-12]. https://www.isi.edu/ research_groups/insy/events/attention_all_you_need.

[25] 王月, 王孟軒, 張勝, 等. 基于BERT的警情文本命名實體識別[J]. 計算機應用, 2020, 40(2): 535-540. WANG Y, WANG M X, ZHANG S, et al. Alarm text named entity recognition based on BERT[J]. Journal of Computer Applications, 2020, 40(2): 535-540 (in Chinese).

[26] CUI Y M, CHE W X, LIU T, et al. Pre-training with whole word masking for Chinese BERT[EB/OL]. [2021-03-12]. https://github.com/ymcui/Chinese-BERT-wwm.

[27] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. [2020-03-12]. https://xueshu.baidu.com/usercenter/paper/show?paperid=1m0e08s0bt7k0as0eg4a06d0t5223532&site=xueshu_se.

[28] GERS F A, SCHMIDHUBER E. LSTM recurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340.

[29] BULSARI A B, SAXéN H. A recurrent neural network for time-series modelling[M]//Artificial Neural Nets and Genetic Algorithms. Vienna: Springer Vienna, 1993: 285-291.

[30] GRAVES A, JAITLY N, MOHAMED A R. Hybrid speech recognition with deep bidirectional LSTM[C]//Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. New York: IEEE Press, 2013: 273-278.

[31] WOJEK C, SCHIELE B. A dynamic conditional random field model for joint labeling of object and scene classes[C]//Proceedings of the 10th European Conference on Computer Vision. Heidelberg: Springer, 2008: 733-747.

[32] ABADI M, AGARWAL A, BARHAM P, et al. TensorFlow: large-scale machine learning on heterogeneous distributed systems[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=360778c7d72e9e026f831d208324cc3f&site=xueshu_se.

[33] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. [2019-01-10]. https://arxiv.xilesou. top/pdf/1412.6980.pdf.

[34] WAHLBECK K, TUUNAINEN A, AHOKAS A, et al. Dropout rates in randomised antipsychotic drug trials[J]. Psychopharmacology, 2001, 155(3): 230-233.

[35] YANG J, ZHANG Y, LI L W, et al. YEDDA: a lightweight collaborative text span annotation tool[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/usercenter/paper/show?paperid=ac79fddaa9c91415f8f15be732ba89db&site=xueshu_se.

Research on named entity recognition of construction safety accident text based on pre-trained language model

SONG Jian-wei1, DENG Yi-chuan1,2,3, SU Cheng1,2,3

(1. School of Civil Engineering and Transportation, South China University of Technology, Guangzhou Guangdong 510640, China; 2. State Key Laboratory of Subtropical Building Science, Guangzhou Guangdong 510640, China; 3. Sino-Singapore International Joint Research Institute, Guangzhou Guangdong 510555, China)

The construction safety accident analysis plays an important role in construction safety management, but the construction safety knowledge scattered in accident reports cannot be reused, nor can it shed sufficient light on construction safety management. Knowledge graph serves as a tool for structured storage and knowledge reuse, such as retrieval of accident cases, analysis of accident-related paths, and statistical analysis. Named Entity Recognition (NER) is the key task of automatic knowledge graph construction, and currently mainly concentrates on medical, financial, and military fields. In the realm of construction safety, there has been an absence of relevant research on NER. In this paper, five concepts in this field were defined, and the entity labeling specifications were clarified. The improved Bidirectional Encoder Representations from Transformers (BERT) pre-trained language model was employed to obtain dynamic word vectors, and the Bidirectional Long Short-Term Memory-Conditional Random Field (BiLSTM-CRF) model was utilized to gain the optimal entity tag sequence, thus proposing the NER model for the field of construction safety. In order to train and verify the proposed model, 1,000 accident reports on construction safety were collected, sorted, and annotated as an experimental corpus. Experiments show that compared with traditional models, the proposed model can yield a better recognition effect in texts on construction safety accident.

knowledge graph; named entity recognition; construction safety; pre-trained language model; accident report

TP 391

10.11996/JG.j.2095-302X.2021020307

A

2095-302X(2021)02-0307-09

2020-09-04;

4 September,2020;

2020-10-21

21 October,2020

廣東省自然科學基金項目(2018A030310363,2017A030313393);廣州市科技計劃重點項目(20181003SF0059)

Natural Science Foundation of Guangdong Province (2018A030310363, 2017A030313393); Key Project of Guangzhou Science and Technology Plan (20181003SF0059)

宋建煒(1994–),男,湖北襄陽人,碩士研究生。主要研究方向為建筑信息模型、自然語言處理。E-mail:sjwmmt@163.com

SONG Jian-wei (1994–), male, master student. His main research interests cover BIM, NLP. E-mail:sjwmmt@163.com

鄧逸川(1989–),男,廣東河源人,助理教授,博士。主要研究方向為建筑信息模型、計算機視覺。E-mail:ctycdeng@scut.edu.cn

DENG Yi-chuan (1989–), male, assistant professor, Ph.D. His main research interests cover BIM, computervision.E-mail:ctycdeng@scut.edu.cn

猜你喜歡
建筑施工文本實驗
記一次有趣的實驗
建筑施工及加強建筑施工安全管理
土木工程建筑施工技術創新
建筑施工管理工作探討
土木工程建筑施工技術創新初探
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 日韩无码黄色| 国产男人的天堂| 国产在线第二页| 欧美狠狠干| 日本精品视频一区二区| 精品久久人人爽人人玩人人妻| 欧美一级夜夜爽| 国产精品制服| 亚洲码一区二区三区| 91伊人国产| 毛片一级在线| 99视频精品全国免费品| 深爱婷婷激情网| 国模沟沟一区二区三区| 一本大道视频精品人妻| 国产毛片久久国产| 亚洲第一成年网| 国产成a人片在线播放| 日日碰狠狠添天天爽| av在线手机播放| 欧美在线观看不卡| 青青草91视频| 亚洲日本中文综合在线| 欧美中出一区二区| 日韩经典精品无码一区二区| 欧美人与性动交a欧美精品| 国产小视频a在线观看| 国产精品九九视频| 国产办公室秘书无码精品| 久久精品女人天堂aaa| 婷婷中文在线| 日韩在线播放中文字幕| 午夜人性色福利无码视频在线观看| 国产超碰在线观看| 国产老女人精品免费视频| 久久综合丝袜长腿丝袜| 试看120秒男女啪啪免费| 中文字幕日韩久久综合影院| 国产美女自慰在线观看| 国产97公开成人免费视频| 97国产在线播放| 国产欧美又粗又猛又爽老| 狠狠躁天天躁夜夜躁婷婷| 国产成+人+综合+亚洲欧美| 欧美黄色网站在线看| 久久国产毛片| 免费女人18毛片a级毛片视频| 久热中文字幕在线| 丁香综合在线| 91偷拍一区| 国产亚洲视频免费播放| 谁有在线观看日韩亚洲最新视频 | 精品久久国产综合精麻豆| 国产高清无码第一十页在线观看| 国产另类视频| 99久久成人国产精品免费| 国产一区二区三区免费观看| 免费一级α片在线观看| 欧亚日韩Av| 青青草国产一区二区三区| 99久久99这里只有免费的精品| 一区二区三区在线不卡免费| 亚洲资源站av无码网址| 老司国产精品视频| 国产剧情无码视频在线观看| 欧美亚洲中文精品三区| 好久久免费视频高清| 国产一区二区三区日韩精品| 欧美劲爆第一页| 女人18毛片久久| 婷婷午夜影院| 国产毛片基地| 99999久久久久久亚洲| 亚洲日韩日本中文在线| 亚洲高清中文字幕在线看不卡| 欧美精品啪啪一区二区三区| 亚洲av片在线免费观看| 欲色天天综合网| 欧美日韩国产高清一区二区三区| 欧美成人精品一级在线观看| av无码久久精品| 国产成人精品视频一区二区电影|