



中圖分類號:TP391.7 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2025)16-0044-07
Knowledge Extraction for Water Conservancy Engineering Inspection Based on Machine Reading Comprehension
ZHAIXiangchao,ZHANGJianhao,HANWenhao (SchoolofInformationEngeering,NorthinaUiversityofWaterRsourcsandElectricower,Zengzou4o46,Cina)
Abstract: The inspection data of water conservancy projects contains rich risk information. Aiming at the problems ofcomplex long entitiesand nested entities inthedata,ahierarchicalontologymodelandamulti-task kowledgeextraction frameworkareconstructedtosolve theproblemofentityandrelationshipextraction.Firstlyaiming atthecomplexityof domaindata,the hierarchicaltrategy isusedtoefectivelysolvethe modeling problemofcomplex inspectiondata.Secondly,a knowledgeextraction modelcombining machinereading comprehensionand multi-task learning is proposed innovatively.The modelincludesentityextractiontaskbasedonquestionanswering,entityrclasificationtaskbasedondescriptiondisrimination andrelationship extraction task.Each task ealizes collborative optimization through shared parameters and jointtraining. Finally,xperimentalverificationsowstattheentityandrelationshipextractionefectoftheproposedmetodissigiantly beter than otherbaseline models,and itcan meet the actualneeds ofknowledge extractionofengineeing inspectiondata.
Keywords: water conservancy project inspection data ; knowledge extraction ; machine reading comprehension ∴ multitask learning
0 引言
水利工程涉及線路長、地質(zhì)條件復(fù)雜,運行過程中積累了大量工程巡檢數(shù)據(jù)。這些數(shù)據(jù)詳細(xì)記錄了工程運行中各類風(fēng)險隱患信息,是評估項目安全性的重要依據(jù)。如何高效、準(zhǔn)確地對這些數(shù)據(jù)進(jìn)行知識抽取與整理,已成為推動工程數(shù)字化、智能化轉(zhuǎn)型的關(guān)鍵問題。
知識抽取主要包括實體抽取與關(guān)系抽取兩個核心任務(wù),旨在從非結(jié)構(gòu)化數(shù)據(jù)中抽取各類型實體及其相互關(guān)系。目前,得益于BERT預(yù)訓(xùn)練模型強大的語義理解能力和遷移能力,基于深度學(xué)習(xí)的知識抽取技術(shù)得到了廣泛研究與應(yīng)用。在實體抽取方法中,針對扁平數(shù)據(jù)集,通常采用BERT-BiLSTM-CRF[2]架構(gòu)將抽取任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù),廣泛應(yīng)用于醫(yī)療[、電力[等眾多領(lǐng)域。對于嵌套數(shù)據(jù)集,Yu等采用雙仿射模型與依存句法分析方法,通過構(gòu)建所有可能起始-終止詞對評分機制來抽取實體,解決嵌套問題。Li等[采用機器閱讀理解方法針對每種類別實體單獨抽取,規(guī)避了不同類別實體間的嵌套問題。在關(guān)系抽取任務(wù)中,分為流水線和聯(lián)合抽取兩種范式。流水線方法先進(jìn)行實體抽取,再基于抽取結(jié)果進(jìn)行關(guān)系識別任務(wù)。例如PURE[方法設(shè)計兩個編碼器分別進(jìn)行實體與關(guān)系抽取,并通過提前融入實體類別信息提高關(guān)系三元組抽取效果。聯(lián)合抽取方法通常基于同一編碼層進(jìn)行實體與關(guān)系抽取,例如SpERT方法[將BERT作為共享編碼層,采用分類的思想結(jié)合上下文信息進(jìn)行實體與關(guān)系聯(lián)合抽取。Wang等[9]提出的TPLinker方法將聯(lián)合抽取任務(wù)轉(zhuǎn)化為詞對鏈接問題,引入握手標(biāo)注方案有效解決了實體及重疊關(guān)系抽取問題。
與傳統(tǒng)領(lǐng)域中包含常規(guī)實體類型的扁平數(shù)據(jù)集不同,工程巡檢數(shù)據(jù)中包含大量專業(yè)名詞,其中實體文本復(fù)雜、跨度大,且實體間存在嵌套關(guān)系,如圖1所示,這使得目前主流的實體與關(guān)系抽取方法難以有效應(yīng)對。本文針對工程巡檢數(shù)據(jù)知識抽取問題,完成以下工作:
1)提出分層定義的工程巡檢數(shù)據(jù)本體模型[10],為知識抽取的準(zhǔn)確性和全面性提供了理論支撐。
2)設(shè)計面向工程巡檢數(shù)據(jù)的實體與關(guān)系抽取框架。該框架結(jié)合機器閱讀理解的問答機制實現(xiàn)實體抽取,并通過實體類別判別和三元組描述判別任務(wù)提升實體與關(guān)系抽取的準(zhǔn)確性,有效解決了復(fù)雜長實體、嵌套實體及關(guān)系抽取等難題。
3)在工程巡檢數(shù)據(jù)集上進(jìn)行充分實驗,并與多個先進(jìn)基線模型進(jìn)行對比。實驗結(jié)果表明,所提出的模型在實體關(guān)系三元組抽取任務(wù)中取得了顯著優(yōu)勢,為該類型數(shù)據(jù)的知識抽取提供了有效的技術(shù)解決方案。

1數(shù)據(jù)分析與建模
工程巡檢數(shù)據(jù)以電子文檔的形式存儲,主要形式如圖2所示。與通用領(lǐng)域數(shù)據(jù)不同,巡檢數(shù)據(jù)中實體稠密,對風(fēng)險發(fā)生的地點、設(shè)備設(shè)施等的描述通常由多個常規(guī)(簡單)實體及其描述詞構(gòu)成。如圖1中,“常莊左岸橋下涵洞排水溝”是事件“積水”的發(fā)生地點,其中包含村莊、橋梁、涵洞、排水溝等多個具體的實體實例,它們共同精確地描述了風(fēng)險發(fā)生的地點。對于該類型數(shù)據(jù),基于傳統(tǒng)抽取方法對各類簡單實體進(jìn)行標(biāo)注會導(dǎo)致實體間缺乏語義關(guān)聯(lián),造成信息缺失問題。因此,為保證抽取得到的實體關(guān)系對原數(shù)據(jù)描述的準(zhǔn)確性,本文提出分層本體建模方法,將水利工程巡檢數(shù)據(jù)中實體關(guān)系分為兩個級別,整體數(shù)據(jù)建模如圖3所示。


其中,定義“一級實體”具有較長文本跨度,由多個常規(guī)實體及相關(guān)描述組成。通過一級實體及關(guān)系定義,可保證對原巡檢記錄中風(fēng)險信息的準(zhǔn)確概括。“二級實體”為常規(guī)實體,劃分為表1所示7種類別。基于該方法的數(shù)據(jù)抽取實例如圖4所示。

2 知識抽取方法
針對巡檢風(fēng)險描述數(shù)據(jù)中存在的復(fù)雜長實體、實體重疊及關(guān)系抽取問題,本文提出基于BERT結(jié)合多任務(wù)學(xué)習(xí)與機器閱讀理解的實體與關(guān)系抽取模型(QANER-EC-RE),整體結(jié)構(gòu)如圖5所示。該模型將實體和關(guān)系抽取任務(wù)轉(zhuǎn)換為問答和描述判斷任務(wù),通過共享編碼層參數(shù)和聯(lián)合訓(xùn)練優(yōu)化模型,采用流水線方法進(jìn)行實體與關(guān)系抽取(如圖6所示)。

2.1 問答實體抽取
采用基于機器閱讀理解(MachineReadingComprehension,MRC)的問答形式進(jìn)行實體抽取。首先,為各類型實體設(shè)計簡單查詢模板:“找出文中所有 類型實體”,其中‘ lt;tgt;\" 使用實體類型替換。例如對于“地點”類型實體,生成問題:“找出文中所有地點類型實體”。每條數(shù)據(jù)需要構(gòu)建等同于實體類型數(shù)量的查詢,依次與上下文內(nèi)容組合作為模型輸入,具體輸入 Iner 為:
Iner={[CLS]q1,q2,…,qm[SEP]c1,c2,…,cn[CLS]}
其中[CLS]是BERT中的特殊標(biāo)識,經(jīng)過編碼后包含整個輸入句子的語義信息;[SEP]是分割標(biāo)記;qi 表示查詢
中第 i 個token, ci 表示原文本中第 i 個token; m 、 n 分別是查詢
和原文本 C 的長度。
數(shù)據(jù)實體標(biāo)注采用BMESO方法,如圖7所示,其中,B表示實體開始,M表示實體中間,E表示實體結(jié)尾,S表示單字實體,O表示非實體。此外,使用S或O標(biāo)注[CLS],表示數(shù)據(jù)中是否有查詢實體。

模型使用預(yù)訓(xùn)練BERT作為編碼器,基于自注意力機制,每個token能夠同時關(guān)注到查詢 Q 和上下文C 之間的語義信息,嵌入向量表示為:

經(jīng)過Dropout層、簡單的線性層和Softmax獲得中 token關(guān)于每個標(biāo)簽的預(yù)測得分:

其中, yit 表示第 i 個token被預(yù)測為標(biāo)簽 t (BMESO其中之一)的概率; WT 表示可學(xué)習(xí)的權(quán)重矩陣; b 表示偏置項。最后根據(jù)每個token的預(yù)測標(biāo)簽得出答案實體,完成實體抽取任務(wù)。
2.2 實體再分類
對于長實體或類別較多的數(shù)據(jù),其中部分實體類別模糊,會導(dǎo)致一個實體在多個不同類別查詢中都被作為答案實體抽取的問題。因此添加此任務(wù),對被錯誤分為多個類型的實體進(jìn)行重新分類,過濾類別不正確的實體。
該任務(wù)采用與問答實體抽取一致的輸入框架,為實體及類別生成描述句(例如:“實體 lt;egt; 是 lt;tgt; 類型”),將描述句與上下文組合作為BERT模型的輸入,通過[CLS]的嵌入表示對描述正誤進(jìn)行判斷。在訓(xùn)練時需要基于實體及類型生成正負(fù)樣本,例如,對于實體“設(shè)備設(shè)施:液壓啟閉機”,生成描述:“液壓啟閉機是設(shè)備設(shè)施類型”作為正樣本。然后隨機選擇兩個非對應(yīng)的實體類型生成描述,作為負(fù)樣本。依次處理所有實體,保持正負(fù)樣本比例為1:2左右。將正負(fù)樣本描述與上下文信息組合作為模型輸入 Iec ,表示如下:
Iec={[CLS]d1,d2,…,dm[SEP]c1,c2,…,cn[SEP]}
其中, di 表示生成描述的第 i 個token。通過BERT獲取輸入的嵌入表示:

將 e[CLS]i 作為判別器的輸入,得到描述 Di 為正確的概率:
yDi=Softmax(WTe[CLS]i+b)
訓(xùn)練時設(shè)置閾值為0.6,得分大于閾值則認(rèn)為描
述正確:

其中 yDi 表示模型預(yù)測描述 Di 正確的概率;
表示描述是否正確的預(yù)測標(biāo)簽(正確為1,錯誤為0)。
在預(yù)測時,僅對被預(yù)測為多個類別的實體進(jìn)行類別重分類,
取Softmax得分最高的類型 T 作為預(yù)測結(jié)果。
其中, ft 表示選擇得分最高的描述句所對應(yīng)的實體類型。
2.3 關(guān)系抽取
基于實體抽取結(jié)果,在本體模型限定的關(guān)系類型內(nèi),對可能存在關(guān)系的實體對基于模板生成描述,如表2所示,通過模型對描述的正誤判斷來抽取關(guān)系。
表2部分關(guān)系三元組描述模板

構(gòu)建此模塊的訓(xùn)練數(shù)據(jù)時,將真實關(guān)系生成的描述作為正樣本,將真實三元組中的關(guān)系或?qū)嶓w隨機替換后生成的描述作為負(fù)樣本,正負(fù)樣本比例為1:2。在預(yù)測時,僅對可能存在的關(guān)系三元組生成描述。
同樣將正負(fù)樣本描述與上下文組合作為模型輸入,使用BERT作為編碼器,最后經(jīng)過Dropout、線性層和Softmax得到描述正確的得分,公式與(4)~(7)一致,最后當(dāng)Softmax得分大于閾值0.6時認(rèn)為描述正確,將對應(yīng)三元組作為抽取結(jié)果,流程如圖8所示。

2.4 損失函數(shù)
問答實體抽取任務(wù)使用交叉熵?fù)p失函數(shù)為:

其中, N 表示樣本類別個數(shù), yi 表示第 i 個樣本的真實標(biāo)簽,
表示類別 i 的預(yù)測概率。實體再分類任務(wù)和關(guān)系抽取任務(wù)都采用二元交叉熵?fù)p失函數(shù):
(10)三個子任務(wù)采用聯(lián)合訓(xùn)練方式優(yōu)化,聯(lián)合損失計算式為:
Loss=αLossner+βLossec+γLossre
其中 a 、 β 、y表示損失函數(shù)的權(quán)重系數(shù),在本文中,分別設(shè)置為0.5、0.25、0.25。
3 實驗結(jié)果及分析
3.1 數(shù)據(jù)集
基于本體概念模型,人工標(biāo)注4550條巡檢數(shù)據(jù),詳情如表3、表4所示。按照8:2隨機劃分訓(xùn)練集與測試集。根據(jù)一級實體及關(guān)系、二級實體的不同定義劃分為三種類別數(shù)據(jù)集:
1)T1:包含5種一級實體和7種關(guān)系,表5中統(tǒng)計了一級實體的長度信息。2)T2:包含7種類型二級實體。3)T1_T2:一、二級實體的并集,包括T1、T2中的12個類型實體,不含關(guān)系。其中一級實體與二級實體存在大量嵌套情況,整體嵌套率為 51% (被包含實體數(shù)/實體總數(shù))。
表3實體信息統(tǒng)計

表4T1_Relations三元組類型統(tǒng)計

表5一級實體長度分布及示例

數(shù)據(jù)集T1驗證模型對長實體與復(fù)雜實體的抽取能力及關(guān)系抽取能力,數(shù)據(jù)集T2驗證模型對常規(guī)格式實體的抽取能力,數(shù)據(jù)集T1T2驗證模型面對嵌套實體時的實體抽取能力。同時,數(shù)據(jù)集中保留了數(shù)量較少的實體類型,以驗證模型在實際應(yīng)用中樣本類別不均衡及樣本不足情況下的有效性。
3.2評價指標(biāo)和參數(shù)
評價標(biāo)準(zhǔn)采用準(zhǔn)確率 P (Precision)、召回率 R (Recall)和F1值,計算公式如下:

其中,TP表示預(yù)測正確的個數(shù),F(xiàn)P表示預(yù)測錯誤個數(shù),F(xiàn)N表示未被抽取出的正確標(biāo)簽個數(shù)。
本實驗基于BERT中文預(yù)訓(xùn)練模型bert-base-chinese作為語義編碼器,超參數(shù)batchsize、maxlength、learningrate、droupt分別被設(shè)置為:256、256、10、 2×10-5 、0.1。
3.3 實驗結(jié)果分析
本文在基于巡檢數(shù)據(jù)的三個知識抽取數(shù)據(jù)集上分別進(jìn)行實驗,選擇3種具有代表性的模型作為比較的基準(zhǔn)模型,所有方法如下:
1)BERT-RE(BERT-BiLSTM-CRF+RE):基于序列標(biāo)注的主流實體識別模型,其中RE是在實體抽取后,基于BERT構(gòu)建的關(guān)系分類任務(wù),整體按照流水線式方法完成實體識別和關(guān)系抽取。
2)PURE:流水線式關(guān)系三元組抽取模型。基于跨度進(jìn)行實體抽取,并在關(guān)系抽取時通過添加實體類型標(biāo)簽引入實體信息以提高抽取效果。
3)SpERT:基于跨度的實體與關(guān)系聯(lián)合抽取模型,采用分類的思想進(jìn)行實體與關(guān)系抽取。
4)QANER-EC-RE:本文多任務(wù)模型,聯(lián)合訓(xùn)練,流水線式完成實體和關(guān)系抽取。
5)QANER-RE:本文模型去掉實體再分類模塊(EC),作為對比實驗。
基于上述數(shù)據(jù)集分別進(jìn)行實體、關(guān)系抽取實驗,取多次實驗中最后三次epoch的均值,結(jié)果如表6、表7和圖9所示。
表6統(tǒng)計了本文模型與對比模型在三個不同特點數(shù)據(jù)集中的實體抽取結(jié)果。在T1數(shù)據(jù)集(實體跨度較大)中,本文方法顯著優(yōu)于其他基線模型,F(xiàn)1值高出 9% ,主要因為本文方法專注于處理對應(yīng)類別實體,避免了其他類別實體的干擾。在T2數(shù)據(jù)集(常規(guī)實體抽取)中,受人工標(biāo)注噪聲影響,所有模型優(yōu)化空間較小,但本文方法仍取得小幅提升。對于T1T2數(shù)據(jù)集(復(fù)雜長實體與常規(guī)實體混合,且存在大量嵌套結(jié)構(gòu)),本文方法依然表現(xiàn)最佳,F(xiàn)1值高于基線模型 7% 。對于EC模塊,表6表明該模塊通過修正實體抽取結(jié)果,進(jìn)一步提升了準(zhǔn)確率。


表7展示基于真實實體的獨立關(guān)系抽取模型性能驗證結(jié)果,表8表示基于整體模型的關(guān)系抽取結(jié)果。在T1數(shù)據(jù)集中,關(guān)系定義簡單(如地點與事件間的“發(fā)生”關(guān)系),BERT-RE憑借單獨針對關(guān)系訓(xùn)練的優(yōu)勢,取得了最好效果。本文方法略低于BERT-RE,但仍取得 93.5% 的F1值,比PURE方法高 3% 。在三元組抽取任務(wù)中,本文模型因在實體抽取和關(guān)系抽取中均表現(xiàn)良好,獲得了最佳結(jié)果,F(xiàn)1值比其他方法高 8% 。
表8基于預(yù)測實體的關(guān)系三元組抽取結(jié)果

4結(jié)論
本研究聚焦于水利工程巡檢數(shù)據(jù)的數(shù)據(jù)本體建模與知識抽取問題。首先,基于巡檢數(shù)據(jù)構(gòu)建了分層次的本體概念模型,通過多粒度實體定義確保了后續(xù)知識抽取的準(zhǔn)確性。其次,針對數(shù)據(jù)中存在的復(fù)雜長實體、實體嵌套及關(guān)系抽取等難點問題,創(chuàng)新性地提出了基于機器閱讀理解與多任務(wù)學(xué)習(xí)的知識抽取模型。該模型包含實體識別、實體類別再分類和關(guān)系抽取三個聯(lián)合訓(xùn)練任務(wù),通過共享編碼層實現(xiàn)任務(wù)間的信息交互與聯(lián)合優(yōu)化。最后,基于實際巡檢數(shù)據(jù)集開展了充分的實驗驗證,結(jié)果表明本文提出的方法在實體與關(guān)系抽取任務(wù)上顯著優(yōu)于現(xiàn)有方法,具有優(yōu)越的性能表現(xiàn)。
參考文獻(xiàn):
[1]DEVLINJ,CHANGMW,LEEK,etal.BERT:
Pre-training of Deep Bidirectional Transformers for Language
Understanding[J/OL]arXiv:1810.04805[cs.CL].[2025-02-03].
https://doi.0rg/10.48550/arXiv.1810.04805.
[2] DAI ZJ,WANGXT,NIP,etal.Named Entity
RecognitionUsingBERTBiLSTMCRF forChineseElectronic
Health Records [C]//2019 12th International Congress on Image
and Signal Processing,BioMedical Engineering and Informatics
(CISP-BMEI).Suzhou:IEEE,2019:1-5.
[3]李旻哲,殷繼彬.融合BERT模型與詞匯增強的中醫(yī)
命名實體識別模型[J].計算機科學(xué),2024,51(S1):134-
139.
[4]趙貴中,黃淼華.基于BERT-BiLSTM-CRF的電力事
故信息抽取方法[J].綜合智慧能源,2024,46(11):19-28.
[5]YU JT,BOHNET B,POESIO M.Named Entity
RecognitionasDependency Parsing[J/OL].arXiv:20o5.07150[cs.
CL].[2025-02-10].https://doi.org/10.48550/arXiv.2005.07150.
[6]LIXY,F(xiàn)ENGJR,MENGYX,etal.AUnified
MRC Framework for Named Entity Recognition [J/OL].
arXiv:1910.11476 [cs.CL].[2025-02-13].https://doi.0rg/10.48550/
arXiv.1910.11476.
[7]ZHONGZ,CHEND.AFrustratinglyEasyApproach for
Entity and Relation Extraction[J/OL].arXiv:2010.12812[cs.CL].
[2025-02-16].https://doi.0rg/10.48550/arXiv.2010.12812.
[8]EBERTSM,ULGESA.Span-based JointEntity
andRelation Extraction with Transformer Pre-training[J/OL].
arXiv:1909.07755 [cs.CL].[2025-02-11].https://doi.0rg/10.48550/
arXiv.1909.07755.
[9]WANGYC,YUBW,ZHANGYY,etal.TPLinker: Single-stageJointExtraction ofEntitiesand Relations Through TokenPairLinking[J/OL].arXiv:2010.13415[cs.CL].[2025-02- 09].https://doi.org/10.48550/arXiv.2010.13415.
[10]HAOXJ,JIZ,LIXH,etal.Construction and Application of a Knowledge Graph[J/OL].Remote Sensing,
[9]MAX,HOVYE.End-to-End SequenceLabeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin:Association for Computational Linguistics,2016:1064-1074. [10]LIX,MENGY,SUNX,etal.IsWord Segmentation Necessary for Deep Learning of Chinese Representations? [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:Association for Computational Linguistics,2016:3242-3252.
[11] ZHANG Y,YANG J. Chinese NER Using Lattice LSTM [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne:Association for Computational Linguistics, 2018:1554-1564
[12] ZHANG N,LIF,XUG,et al. Chinese NER Using Dynamic Meta-Embeddings[J].IEEE Access,2019,7:64450- 64459.
[13]李源,洛桑嘎登,蔣衛(wèi)麗.融合外部知識和位置信息 的中文命名實體識別[J].計算機工程與應(yīng)用,2024,60(22): 162-171.
[14] SENNRICH R,HADDOW B,BIRCH A. Improving Neural Machine Translation Models with Monolingual Data [J/ OL].arXiv:1511.06709 [cs.CL]. (2016-06-03).https://arxiv.org/ abs/1511.06709.
[15] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al.Generative Adversarial Networks [C]//Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2.Cambridge:MITPress,2014:2672-2680.
[16]XUR,ZHANGY,RENK,et al.Probabilistic Interpolation with Mixup Data Augmentation for Text Classification [C]//International Conference on Inteligent Computing.Singapore:Springer,2024:1-12.
[17]WOO S,PARKJ,LEE JY,et al.CBAM: Convolutional Block Attention Module [C]//Proceedings of the European Conference on Computer Vision(ECCV).Munich: Springer,2018:3-19.
[18] WANG Q,ZHOU Y,RUAN T,et al. Incorporating Dictionaries into Deep Neural Networks for Chinese Clinical Named Entity Recognition [J/OL].Journal of Biomedical Informatics,2019,92:103133(2019-03-05).https://doi. org/10.1016/j.jbi.2019.103133.
作者簡介:李源(1995一),男,漢族,河南信陽人,助教,碩士,研究方向:機器學(xué)習(xí)、自然語言處理。
2021,13 (13):2511[2025-01-19].https://doi.org/10.3390/ rs13132511.
作者簡介:翟向超(1998一),男,漢族,河南駐馬店人,碩士研究生在讀,研究方向:自然語言處理;張健豪(1999一),男,漢族,河南鄭州人,碩士研究生在讀,研究方向:自然語言處理;韓文豪(1999一),男,漢族,河南商丘人,碩士研究生在讀,研究方向:自然語言處理。