關鍵詞:水產養殖;長文本;實體關系聯合抽取;N-Gram算法;多模型融合算法DOI:10. 15938/j. jhust. 2025. 02. 010中圖分類號:TP391.1;S951.2 文獻標志碼:A 文章編號:1007-2683(2025)02-0091-13
Abstract:Tosolvetheproblemofmisjudgmentandlossofvalidinformationcausedbyalargeamountof irelevantinformationin aquaculturelongtext,ajointextractionmethodofentityrelationsbasedonN-Gramfusionwasproposed.Firstly,themulti-model fusionalgorithmisused toextract thetextmatrixfeaturemapbasedonBERTiitialization,andthenthecascadingBiLSTMisusedto extractedepfeatures.Afterthat,thefeaturesofthelongtextslcematrixpreprocessedbyfusionN-Gramalgorithmareeracted layerbylayer,andtherelativeandabsolutepositionsofslicematrixaremodeled.Theexperimentalresultsontheself-constructed aquaculturelong textdatasetandSKE publicdataset show significant improvementscompared withthe benchmark model.The experimentalresultsshowthatthismethodcanfullacquireandprocessthesemanticinformation inaquaculturelongtext,and effectively improve the accuracy and integrity of entity relation extraction.
Keywords:aquaculture;long text;joint extractionof entityrelations;N-Gram algorithm;multi-model fusion algorithm
0 引言
隨著我國經濟的高速發展,各行各業都在向智慧化方向轉型[1-3],水產養殖業也在向精準化和集約化的養殖方式轉變。借助先進的科學技術,提高水產養殖智慧化建設水平已成為水產養殖業高速發展的重要保障和未來發展的趨勢。構建水產養殖知識圖譜是整合和共享水產養殖領域知識的有效手段,為水產養殖產業的可持續發展提供支持和保障。其中,關系抽取是構建知識圖譜的主要任務之一,其目的是判斷自然語言文本中兩個實體之間的潛在語義關系[4]。水產養殖關系抽取的目標是從水產養殖相關的文本中自動抽取出生物存在的關系,通過將這些關系組織成知識圖譜的形式,可以更加清晰和準確地了解水產養殖生態系統中不同生物和環境等之間的相互作用,為決策者提供更加全面的參考和指導。因此,關系抽取技術在漁業智慧化養殖中充當關鍵角色,使水產養殖業向更智能、可持續的方向發展。
實體關系抽取方法主要有基于流水線的方法和基于實體關系聯合抽取的方法。然而,基于流水線的三元組抽取方法存在一些問題,如實體和關系的特征建模相對獨立,導致語義關聯難以有效利用;以及出現許多錯誤的三元組導致識別準確率低等。這些問題使基于流水線的方法在處理大規模復雜文本時效果受限,尤其在專業性強的水產養殖長文本三元組抽取方面難以發揮好的效果。
為了解決這些問題,基于實體關系聯合抽取的方法應運而生。這種方法通過共享參數和多任務學習等技術,將實體和關系的特征建模相互融合,更好地利用它們之間的語義關聯,提高了實體和關系識別的準確率和效率。同時,這種方法可以有效解決錯誤三元組的問題,促進了三元組抽取技術的發展和應用。相比于基于流水線的方法,基于實體關系聯合抽取的方法更加靈活和高效,適用于處理大規模、復雜的文本數據。因此,基于實體關系聯合抽取的方法是當前文本知識關系抽取領域的研究熱點和發展趨勢。
當前學術界提出的實體關系聯合抽取算法已在FB15K[5] 、NELL-995[6等公開數據集上的全路徑搜索和鏈接預測任務上取得了較高的準確率。然而,現階段無開源可用的水產養殖文本數據集,目前水產養殖知識主要集中在權威水產養殖教材中,不同教材對相同水產養殖技術關鍵術語定義不盡相同,水產知識往往以長文本的方式進行描述。為有效解決水產知識數據集問題,本文基于《海水養殖致富寶典》等權威教材以具體章節為基礎,通過抽取水產養殖長文本中的實體關系,構建水產養殖數據集。在這些長文本中,常常包含與目標主題無關的信息,甚至部分文本與其他主題相關,如何準確識別實體以及實體之間的關聯關系,是當前水產領域智慧化養殖最為迫切的研究問題。
本文提出了一種融合 N-Gram[7-8] 的水產養殖長文本實體關系抽取方法(JE-ALN,a jointextractionmethod of entity relationships in aquaculture long textusingN-Gramfusion)。該算法主要包括兩個部分:首先,采用N-Gram和多模型融合的方法對水產養殖長文本進行建模。通過字詞之間的相互語義關聯關系以及聯合建模實現了對實體語義更加完善的識別;其次,采用基于加權多模型融合算法對實體建模,通過貢獻度向量動態建模長文本的空間特征矩陣和靜態特征矩陣對實體建模的貢獻度。JE-ALN算法為水產養殖領域的長文本實體關系抽取提供了一種有效的解決方案。該算法不僅能夠識別出長文本中的實體,還能夠準確識別實體之間的關聯關系,為水產養殖領域的知識提取和應用提供了有力支持。
1 相關工作
實體關系聯合抽取方法已經成為大規模知識抽取的主要方法之一。實體關系聯合抽取的目的是從非結構化文本中同時檢測實體和實體之間的語義關系。該方法在眾多開源數據集以及小領域數據集上取得了很高的準確率。實體關系聯合抽取方法可以緩解錯誤傳播并有效利用命名實體識別和關系抽取之間的相互關系[9],因此該方法已被廣泛應用于自然語言處理領域。
在實體關系抽取任務中,深度學習方法近年來發揮著越來越重要的作用。相較于傳統的方法,深度學習方法可以更完整地學習特征表示,且更加高效便捷。目前已經有相關的研究成果取得了一定的進展。Shen等[10]提出一個觸發器感知記憶流框架,通過多級記憶流注意力機制,以增強實體識別和關系抽取之間的雙向交互,但對于特定實體關系抽取還存在不足。Qin等[]提出了關注圖卷積網絡A-GCN(Attentive Graph Convolutional Networks),以器的存在。在模型中,N-Gram 內和跨N-Gram的上下文中的不同詞對被加權并且相應地促進關系抽取。在兩個英語基準數據集上都觀察到了先進的性能。Liu 等[12]提出了一種端到端的互斥二進制交叉標記算法BCT(binary cross tagging),能夠有效的提取重疊三元組,但當句子中三元組的數量增加時,BCT會錯誤地檢測冗余三元組。隨著膠囊網絡在自然語言處理任務中的應用,楊超男等[13]提出融合雙向簡單循環網絡與膠囊網絡的文檔級實體關系抽取模型,利用膠囊網絡優化學習實體關系在空間、方向等多個維度上的關系表示,使得文檔級實體關系抽取的關系特征更精確。在生物醫學領域,秦健等[14]針對醫療文本命名實體識別缺乏足夠標記數據的問題,提出一種新的命名實體識別神經網絡和數據增強方法。該方法利用漢字的拼音和筆畫擴展BERT(bidirectional encoder representation from trans-formers)詞向量,將命名實體識別模型與分詞模型進行聯合訓練,采用改進的數據增強方法處理訓練數據,在訓練數據減少一半的情況下,識別率仍能繼續保持沒有明顯下降。Zhang 等[15]提出了一種基于注意力機制的深度殘差網絡ResNet(residualnetwork)模型來識別中文電子病歷中的醫學概念關系。在人工標注的中文電子病歷語料上取得了 77.8% 的F1值,可以降低語料噪聲對參數學習的負面影響,結合字符位置注意力機制可以增強不同類型實體的識別特征。常見的關系抽取模式是先抽取實體,然后再對實體對進行關系分類預測,Wei等[16]采用了與之不同的模式:先抽取subject實體,然后在主體(sub-ject)基礎上同時抽取關系及其對應的客體(object)實體。該模型能夠解決三元組重疊問題,但存在關系冗余和計算效率低的問題,若關系類別較多,由于許多冗余的關系則會導致過多的計算,影響計算效率。Zheng 等[17]針對上面問題進行改進,PRGC(po-tential relation and global correspondence)模型提出一個新的端到端的框架,將三元組聯合抽取分解成了三個子任務:關系判斷、實體抽取和 subject-object 對齊。但存在誤差傳遞和暴露偏差問題,影響最終三元組提取的精度。
在水產領域,楊鶴等[18]提出了一種基于多重注意力與BERT-BiLSTM-CRF相結合的漁業實體關系抽取算法,基于字詞和句子兩個層面的注意力深入學習注意力矩陣的權重分配,提高了關系抽取的準確率。劉巨升等[9提出基于多核卷積的實體識別算法,使用多核卷積對嵌套實體建模。首先使用BERT初始化樣本得到特征矩陣,對嵌套實體位置進行建模,將建模得到的特征圖與原始輸人矩陣進行融合,得到最終的特征表示。姜鑫等[20]提出了一種水產動物疾病樣本的實體關系聯合抽取方法。基于BERT + BiLSTM + Attention +CRF 算法以及行業規則聯合抽取三元組構建知識圖譜,選用Neo4j圖數據庫完成對抽取到的實體三元組的知識存儲。該方法在自構建水產動物疾病數據集上抽取性能較好,但還需要提升,以在其他數據集上表現出好的效果。以上這些研究為漁業知識長文本實體關系抽取任務的發展提供了一定的參考價值,但仍有一些問題需要進一步解決,
實體關系聯合抽取的性能仍然受限于所處理領域的數據特點和語言表達方式,針對多種實體和關系類型之間的復雜聯系,需要進行不同情況的模型設計和優化。水產養殖領域的長文本主要關注水生生物的養殖、水體管理、飼料配方和疾病防治等特定主題。相比之下,通用領域長文本則涵蓋了各種主題,因此需要根據不同的主題內容選擇合適的方法和技術。此外,水產養殖領域的長文本通常具有較高的專業性和技術性,數據間的關系通常是基于具體的業務場景和技術要求建立的。例如,水質監測與魚類繁殖之間的關系是基于對水生生物生長環境的特定要求建立的。而在通用領域長文本中,關系可能更加抽象和廣泛,例如人與事物之間的關系。因此,在進行關系聯合抽取時,需要根據具體的情況選擇合適的關系類型和方法。
水產養殖的長文本中出現的部分特征詞實例如表1所示。


在水產養殖領域文本中,長文本語料包含大量無關信息,因此如何準確地識別出實體之間的關聯關系是一個迫切需要解決的問題。本文提出的JE-ALN模型通過多模型融合方法和基于N-Gram的長文本切片位置建模方法,對特定領域復雜長文本實體關系聯合抽取取得了較好的效果,
2 DLOU-ALT數據集構建
2.1 數據預處理
本文對水產養殖技術教材中的實體關系進行挖掘,采用機器學習方法識別水產養殖長文本中的三元組。為獲取有效權威的知識并保證水產知識的準確性,本文基于《海水名特優魚類健康養殖實用技術》、《海水養殖致富寶典》等書籍進行人工標注形成可用半成品數據集。教材中的文本往往是結構化或半結構化的片段,需要進行文本處理算法以制作實際可用的知識圖譜數據集。數據處理流程如圖1所示。
預處理過程如下:
1)使用Python腳本將教材分解為若干個不相交的子集;2)采用多線程的方式,并行處理1)產生的子集,按照段落標題切分文本,文本內容以“lt;段落標題,段落內容 gt; ”格式保存;3)進行人工篩選,刪除目錄,大量空行、頁眉、特殊符號等,得到相對干凈的數據集;4)將3)得到的樣本進行合并,以“##空行”作為樣本(段落)之間的分割符;

5)將結構化的樣本進行分詞,區分實體和非實體,制作成半成品數據集。
6本文得到的半成品數據集樣本為三元組形式,格式為“lt;標題\t分詞\t分詞類別 gt; ”。如果該分詞是實體,則分詞類別指該實體的實際類別;如果該分詞不是實體,則分詞類別為空。
本文后續算法對每條樣本進行處理時,可通過分詞類別確定當前分詞是否是實體,并使用程序對各分詞進行BIO自動化標注。從句子中抽取所有頭實體和尾實體,面向頭實體的尾實體標注過程能夠捕獲頭實體與尾實體之間的依賴關系。然后將所有實體向量映射到關系語義空間,聯合抽取的方法是將頭尾實體的標注聯合學習,最后在不同的關系語義子空間中計算所有實體對以獲得關系三元組。
本文數據集來源于具體教材,因此可以通過段落的標題大致確定段落內容包含的實體和關系類型。水產養殖主要圍繞魚的繁殖、生長和營養需求,通過科學的管理和控制環境條件,保證魚類健康快速生長。基于此,首先對已標注的半成品數據集進行分析,將相似實體進行合并,并對實體間的關系進行分類,最終得到實體關系三元組類別。具體分類匯總如表2所示

2.2 數據標注流程
本文對DLOU-ALT數據集進行程序自動化標注,并結合人工的方式過濾不合適的文本。數據預處理過程大部分工作由程序自動完成,但可能存在一些程序無法識別的特殊文本或字符,需要通過人工的方式進行剔除。需要注意的是,本文首先使用拼音首字母縮寫的方式將所有中文實體類別轉換成英文,以實現中英文實體類別的轉換,并基于此進行BIO實體標注。水產養殖樣本自動化標注流程如圖2所示。
處理流程細化如下:
1)加載成品數據集并逐行讀取樣本;
2)對每個樣本進行分詞,并使用預先設計的規則對實體進行分詞,該規則如表3所示。使用B/I-LH/T標簽對實體進行標注,使用標簽O標注非實體;

3)按原始位置融合B/I-L-H/T和O標注,得到完整標注;
4)人工檢查所有的標注樣本,重點關注是否將非B/I-L-H/T標注的樣本標注,是否存在多余空格,以得到干凈的標注數據集。其中,B/I-L-H/T表示實體的標注方式,L是實體類別,H和T表示該實體是頭部實體還是尾部實體。圖3為水產養殖長文本數據標注示例。最后,通過此方法得到可用的標注數據集。

2.3 數據集質量評價
在數據采集階段,本數據集的數據來自專業書籍,數據源本身的可信度較高,確保了每條數據的采集都有可靠的憑證支持。在數據處理階段,采取了一系列的數據清洗和文字校正措施,以確保數據的準確性。比對來自不同書籍的數據并進行互補合并,以保證數據采集的全面性和數據質量的可靠性。經過整理和合并后邀請水產養殖領域的專家對數據集進行檢查和核對,并根據專家意見和建議進行了進一步修改和完善。通過這種專業的審查和反饋機制,確保數據集的準確性和可靠性,使其更符合專業要求。
表4為數據統計信息。其中成功率表示成功匹配包含該實體的三元組的句子數占包含該實體的標注句子總數的百分比;準確率表示正確標注的三元組數占包含該實體的三元組數的百分比。實驗中根據實體得到了實體識別篩選標注語料中的語句,語料庫的總體回標成功率為 82.65% ,總體關系標注準確率為 88.36% 。

同時為驗證本文所建數據集的有效性,在4.3.1DLOU-ALT數據集上的對比實驗中利用JE-ALN模型進行水產養殖實體關系抽取實驗。實驗結果顯示,F1值為 90.79% 、準確率為 92.98% 、召回率為 88.7% ,優于基線模型實體關系抽取效果。
3 JE-ALN模型
水產養殖實體關系抽取是揭示水產養殖中規律、發現新方法和優化生產流程的關鍵。為了解決水產養殖文本中長文本描述和存在大量無關信息的問題,提出了融合N-Gram的水產養殖長文本實體關系聯合抽取方法。該方法采用N-Gram和多模型融合的方法對長文本進行建模。通過深人建模長文本實體內部詞語之間的語義依存關系來更加準確地識別實體的語義,并且采用了基于加權多模型融合算法對實體進行建模,使向量動態學習長文本的空間特征矩陣和靜態特征。使用BERT作為輸入層,然后使用膠囊網絡和殘差網絡對BERT層的輸出進行進一步編碼,經過一系列卷積操作對特征圖進行降維,將其作為級聯BiLSTM的輸人。此外,我們還使用了N-Gram模型來擴展模型的上下文理解能力,從而增強對實體關系的抽取能力。實驗結果表明,該方法在水產養殖實體關系抽取任務中表現出了出色的性能。
JE-ALN模型基本框架由多模型融合實體關系聯合建模(MER)和基于N-Gram算法預處理樣本的位置建模(N-GramM)兩部分組成。本文首先介
紹多模型融合實體關系聯合建模方法,其通過多種深度學習模型對實體進行分類和關系建模,綜合各個模型的輸出結果來得到最終的實體關系分類;其次介紹融合N-Gram方法預處理樣本的位置建模,該方法使用N-Gram算法對文本進行預處理,將不同長度的子串作為樣本特征,通過分類模型對其進行分類。最后,將MER和N-GramM結合起來得到完整的JE-ALN模型,其框架如圖4所示。
從圖4可看出,JE-ALN算法使用兩個平行網絡分別實現對三元組建模和基于N-Gram的長文本切片建模,然后將兩者進行融合,達到共同建模的目的。

3.1基于多模型實體關系抽取模型(MER)
JE-ALN多模型融合實體關系聯合建模算法如圖5所示。

圖5中,首先使用開源BERT[21]中文模型實現對水產養殖短文本進行初始化,得到句子的嵌入矩陣S,然后使用殘差網絡[22]和膠囊網絡[23]分別對矩陣S進行特征抽取,為簡化膠囊網絡的路由過程,本文將膠囊網絡的路由深度限制為2。將膠囊網絡和殘差網絡提取的特征圖在詞向量維度進行融合,再經過若干卷積進行降維,最后將其作為級聯BiLSTM[24]的輸入。BiLSTM 隱藏層節點數逐級遞減,通過逐級學習特征圖的深層特征,最終得到原始輸入序列的特征表示,如式(1)所示,整個過程實現了對水產養殖短文本的高效特征提取。

式中: δbert,δcaps?δres?δbis,α 分別表示BERT模型、膠囊模型、殘差模型、級聯BiLSTM模型以及基礎卷積等模型參數。基于特征圖 F ,本文進行如下2個方面的進一步學習:
首先,將級聯BiLSTM的最后一層輸出作為二分類模型的輸入,通過交叉熵損失函數進行訓練,得到三元組的真假分類
其次,基于CRF算法[25]和Viterbi算法[26]實現對BiLSTM最后一層輸出的實體標簽預測。在識別出水產養殖短文本的實體后,根據實體的標注規則對實體標簽進行劃分,將實體組合形成三元組。
三元組的損失來源于3個方面:真假分類損失、實體標簽預測損失和關系分類損失。其中,關系分為6大類,關系預測的損失采用多標簽分類損失。使用交叉熵損失函數優化模型參數。這3類損失均稱之為三元組損失,其計算過程如下:

式中: Suripletloss 為3類損失的線性求和,各類損失單獨計算;B為樣本批次大小, Closs 為 CRF 算法計算的損失。三元組真假損失為標準二分類;字符序列標簽的預測序列采用CRF損失計算。
3.2 基于N-Gram的樣本切片(N-GramM)
本文研究的漁業數據集樣本來源于多個教材,其中大多數樣本為長文本,長文本特征抽取是實體識別的難點,如何高效地對長文本進行建模,以準確
的識別出每個分詞的實體標簽是本文的研究重點為此,本文采用融合N-Gram算法的切片方式,對每個樣本進行切片,具體如式(3)所示:

式中:參數 eindex 是當前實體文本的索引向量; d 為全局分詞索引字典,是長度為 n 的連續索引序列,每個序列的長度均為 n ,以每個分詞為起點,連續截取長度為 n 的分詞序列作為整體賦值給,當索引 k 接近文本末尾,導致長度不夠時,使用 dpad|i 按順序補充缺失的部分,參數pad 是無效分詞標識,本文中d padliε=0 。通過上述樣本切片的補全方法可知,每個blockk 的長度均為 n 。
基于式(3)預處理后樣本樣為轉化成矩陣,且滿足式(4)所示。

式中: NG 為單個樣本最終構建的N-Gram切片序列,多個樣本切片成的多維矩陣 BNG 的維度為 B×l ×n ,其中 B 表示樣本個數。參數 k 的取值范圍與式(3)相同。
JE-ALN基于N-Gram切片的位置建模算法如圖6所示。首先基于式(4)將每一個樣本按窗口為N ,步長為1進行滑動切割,產生切片矩陣 NG ,矩陣NG 的維度為 l×N ,其中 l 是樣本分詞個數。切片矩陣 NG 作為每個句子的目標標簽。整個批次的樣本切片矩陣 BNG 大小為 B×l×N 。
該模型首先使用BERT中文預訓練模型對切片矩陣 NG 初始化,得到嵌入矩陣 SNG 。接著,使用殘差網絡提取 SNG 矩陣特征,使用基礎卷積網絡降低維度后,再通過多層堆疊BiLSTM對切片矩陣NGS進行時序預測,得到預測矩陣(predict)。目標矩陣(targets)的維度與式(4)中得到的 BNG 矩陣維度相同,將目標矩陣與預測矩陣之間進行損失求解。圖6中,每個模塊的輸入和輸出特征矩陣大小如表5所示。


根據表5,本文對文本建模著重考慮了分詞之間的絕對位置和靜態特征的建模。由于實體類分詞和非實體類分詞的交叉存在,對整個樣本進行建模可以更準確地把握句子內部不同類別分詞之間的局部空間依賴關系。圖5的輸出為對切片位置的建模序列,每一個切片都包含了對分詞絕對位置和相對位置的建模結果。該序列采用交叉熵損失作為優化
函數,如式(5)所示:

JE-ALN算法的總損失為實體關系聯合建模(MER)損失和基于N-Gram算法的位置建模(N-GramM)損失之和,即總損失為
Lall=Stripletloss+Snloss
4實驗
4.1 實驗環境及參數設置
本文所使用的水產養殖數據集樣本數目低于20萬條。為快速訓練,提出的JE-ALN算法與其他算法進行對比實驗,實驗硬件條件、實驗參數設置如表6、表7所示。


4.2 實驗結果與分析
本文模型性能評價指標分別是:精度(precision)、召回率(recall)和F1值 (F1)[27] 。具體公式表示如下:


其中:TP為模型預測正確的頭尾實體與關系為真的組合數量;FP為模型預測錯誤的頭尾實體與關系為真的組合數量;FN為模型預測正確的頭尾實體與關系為假的組合數量。JE-ALN算法直接調用Sklearn.metrics封裝好的庫函數基于預測序列和目標序列進行準確率計算。為驗證N-Gram不同的 N 值設置對實體關系聯合抽取識別準確率的影響,本文設置 N 值分別為1,2,3,4,5開展驗證實驗,實驗結果和準確率匯總如圖7、表8所示。


從圖7以及表8可看出,本文提出的JE-ALN算法在水產養殖數據集上基于不同的N-Gram取值進行了實驗評估。實驗結果表明,當 N 值為3時,SPrecision?SRecall 和 F1 值上3個評估指標均高于 N=1 :N=2 ) N=4 和 N=5 的情況。在最終實驗中,本文方法選擇 N=3 ,即JE-ALN:3Gram與其他算法進行對比實驗。基于以上結果,可知當 N=3 時,本文提出的方法能夠相對取得更好的準確率,具有更好的實用性和應用價值。
使用本文提出的針對水產養殖長文本特點的標注規范和聯合抽取模型后得到的各個三元組的抽取結果如表9所示。從表9中可看出,本文算法在面向水產養殖長文本實體關系抽取研究中取得了較好的結果。

4.3 對比實驗
4.3.1 DLOU-ALT數據集上的對比實驗
由于本文模型是基于多模型融合的實體關系聯合抽取模型,并且為實現對分詞位置建模,引入了基于N-Gram切片建模方法。為形成有效的對比結果,本文 選取BERT-CRF、BERT-BiLSTM-CRF、BERT-MultiBiLSTM-CRF等經典的命名實體識別模型作為基線模型進行對比實驗,Multi-BiLSTM即多層級聯BiLSTM,網絡參數設置與本文相同,BERT為谷歌發布的中文訓練模型BERT-Chinese。JE-ALN:3Gram模型與基線模型對比實驗結果如表10所示。

由表10可見,本文算法相對于基線模型而言,在F1、Precision以及Recall等3個準確率指標上的結果均優于對比算法,在 F1 指標上,準確率最大提升了 6.80% ,最小提升了 5.73% ;在 SPrecision 指標上,準確率最大提升了 8% ,最小提升了 4.89% ;在SRecall 指標上,準確率最大提升了 6.47% ,最小提升了 5.38% 。JE-ALN模型在DLOU-ALT數據集上取得較好的性能,離不開N-Gram切片建模,通過深入建模長文本實體內部詞語之間的語義依存關系來更好地學習句子和關系之間的上下文信息。并且膠囊網絡和殘差網絡融合機制能夠實現靜態特征和空間特征的互補補全,使模型能捕捉到實體和關系的搭配和結構,提高模型的理解和表達能力,增強模型的魯棒性和泛化能力。
4.3.2 公開數據集上的對比實驗
為更有效的證明本文提出的JE-ALN算法的有效性和魯棒性,基于表8的對比模型在開源數據集SKE[28]數據集上進行實驗。SKE(schema basedknowledgeextraction)是基于百度提供的業界規模最大的基于模式的中文信息抽取數據集,來源于2019語言與智能技術競賽中信息抽取任務的官方指定數據集。其中包含了約43萬個三元組數據,21萬個中文句子,以及定義好的50種關系類別。數據集中的句子來自百度百科和百度信息流文本,數據集分為17萬訓練集,2萬測試集和2萬驗證集。SKE數據集以subject、object方式進行實體標注,其他無關字符用0表示。該數據集中包含一些較長的文本示例,能更好地驗證本文在實體關系聯合抽取的關系長文本問題上的抽取性能。基于SKE數據集,JE-ALN 模型與基線模型在 SPrecision?SRecall?F1 上的準確率如表11所示

由表11可見,本文算法相對于對比算法而言,在 F1?Sprecision 以及 SRecall 等3個準確率指標上的結果均優于基線模型,在 F1 指標上,準確率最大提升了12.54% ,最小提升了 4.15% ;在 Sprecision 指標上,準確率最大提升了 10.5% ,最小提升了 2.82% ;在SRecall 指標上,準確率最大提升了 14.72% ,最小提升了 5.59% 。這主要是因為算法在模型融合的基礎上,充分考慮實體和關系之間的依賴關系并引入了N-Gram模型來擴展模型的上下文理解能力,能較好地學習句子之間的語義關聯,從而增強實體和關系之間的依賴關系,因此,JE-ALN的整體性能優于對比的基線模型,
綜上所述,本文算法JE-ALN 在領域數據集DLOU-ALT以及公共數據集SKE上均取得了相對最好的準確率,對比實驗驗證了JE-ALN模型的可行性。
4.4 消融實驗
選取BERT-ResNet18-CRF、 BERT-CapsNet-CRF、BERT-CapsNet-ResNet-CRF、BERT-ResNet18-Mul-tiBiLSTM-CRF、 BERT-CapsNet-MultiBiLSTM-CRF等5個模型在DLOU-ALT數據集上作為JE-ALN 模型的消融實驗。基于JE-ALN設置的消融實驗結果表12所示。

從表12可看出,與JE-ALN模型相比,F1值在沒有融入殘差網絡和多層級聯BiLSTM的模型時,分別降低了 0.93% 和 1.62% ,這表明加入殘差網絡和多層級聯BiLSTM,有助于更好地學習長文本的特征,雖然BERT-ResNet18-MultiBiLSTM-CRF的召回率為最高值,但是JE-ALN在精確率和 F1 值上均取得最高值,所以JE-ALN模型的整體性能更優
4.5基于對比模型的準確率變化情況
為更直觀展示本文模型相對于對比模型在各指標上的準確率提升情況,以本文模型JE-ALN:3Gram準確率為基線,計算其它模型相對于JE-ALN:3Gram模型的準確率變化情況,對比結果如表13所示。

通過對本文所使用的DLOU-ALT數據集進行實驗,可以從表13中看出,其他模型相對于本文模型在 F1 指標上最小下降了 0.49% ,最大下降了6.8% ;在 Sprecision 指標上最小下降了 1.21% ,最大下降了 8% ;在 SRecall 指標上最小下降了 0.28% ,最大下降了 6.47% ;同時,在消融實驗和對比實驗中,本文模型在 F1 指標、 Sprecision 指標、 SRecall 指標上也取得了一定的優勢。所以本文模型相較于其他模型能夠挖掘更深層次的語義信息和句法信息,從而兼顧到實體與其他詞之間的聯系及不同句法結構的重要程度,更充分地提取訓練語句的實體及關系。綜上所述,當前實驗結果表明本文模型具有一定的準確率優勢。
5結語
本文提出了一種融合N-Gram的模型,旨在增強水產養殖長文本實體關系抽取的能力。該模型采用了多模型融合實體關系聯合建模和基于N-Gram算法預處理樣本的位置建模兩部分組成。通過多模型融合算法提取基于BERT初始化文本矩陣特征圖,然后采用級聯BiLSTM進一步提取深層次特征,使得該方法具有較強的魯棒性和可擴展性,可以應對不同領域和場景下的文本數據。使用多模型融合算法逐層提取基于N-Gram算法預處理的長文本切片矩陣特征,以實現對切片矩陣的相對位置和絕對位置進行建模。實驗結果表明,相較于現有的模型,
JE-ALN在DLOU-ALT數據集上取得了更好的結果然而,本文所使用的水產養殖數據集樣本數目較少,需要繼續擴充語料庫中的數據。此外,在構建數據集時采用了程序自動化和人工篩查相結合的方式,后續可以嘗試使用自動化或半自動化方式來提高效率。實驗部分N-Gram取值為1\~5,應繼續實驗嘗試更大的N值對水產養殖長文本實體關系抽取結果的影響。由于水產養殖技術實體關系不夠全面,還需要通過完善更多的關系進一步擴展水產養殖技術知識圖譜。
參考文獻:
[1]丁梓軒,韓寶睿,濮海建,等.基于空間句法的小城鎮 路網結構與功能分析[J].森林工程,2021,37 (3) :111. DING Zixuan,HAN Baorui,PU Haijian,et al. Analysis ofthe Structure and Function of Road Network in Small Town Based on Space Syntax[J]. Forest Engineering, 2021,37(3) :111.
[2]劉建華,楊皓楠,何靜,等.基于約束對抗卷積自編碼 記憶融合網絡的故障診斷[J].電機與控制學報, 2023,27(6) :148. LIU Jianhua,YANG Haonan,HE Jing,et al. Fault Diagnosis Based on Constraint Adversarial Convolution Auto-encoding Memory Fusion Network[J].Electric Machines and Control,2023,27(6) :148.
[3]趙彪,雷小飛,陳濤,等.面向航空航天難加工材料磨 削過程的模擬與智能控制[J].金剛石與磨料磨具工 程,2023,43(2) :127. ZHAO Biao,LEI Xiaofei,CHEN Tao,et al, Simulation and Intelligent Control during Grinding Process for Diffcult-to-machine Materials in Aerospace[J].Diamond amp; Abrasives Engineering,2023,43(02) :127.
[4]姚博文,曾碧卿,蔡劍,等.基于預訓練和多層次信息 的中文人物關系抽取模型[J].計算機應用,2021,41 (12) :3637. YAO Bowen,ZENG Biqing,CAI Jian,et al. Chinese Character Relation Extraction Model Based on Pretraining and Multi-level Information[J]. Computer Applications, 2021,41(12) :3637.
[5]CHEN P,WANG Y, YU X,et al. QLogicE:QuantumLogic Empowered Embedding for Knowledge Graph Completion[J].Knowledge-BasedSystems, 2022, 239 :107963.
[6]WANG Z,LI L, ZENG D D. Hierarchical Multihop Reasoning on Knowledge Graphs[J]. IEEE Intelligent Systems,2021,37(1) : 71. cigus Mathematics,2023,11(6):1380.
[8]GHUDE T,CHAUHAN R,DAHAKE K,et al. N-gramModels for Text Generationin Hindi Language[C]//ITM Web of Conferences.EDP Sciences,Les Ulis,France, 2022,44:03062.
[9]張少偉,王鑫,陳子睿,等.有監督實體關系聯合抽取 方法研究綜述[J].計算機科學與探索,2022,16 (4) :713. ZHANG Shaowei,WANG Xin,CHEN Zirui,et al.Survey of Supervised Joint Entity Relation ExtractionMethods [J].Frontiers of Computer Scienceand Technology, 2022,16(4) :713.
[10] SHEN Y, MA X,TANG Y, et al. A Trigger-sense Memory Flow Framework for Joint Entity and Relation Extraction[C]// Proceedings of the Web Conference 2021. New York, 2021: 1704.
[11]QIN H, TIAN Y,SONG Y. Relation Extraction with Word Graphs from N-grams[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing,2021: 2860.
[12]LIU X,DU W,WANG X,et al. A Mutually-exclusive Binary Cross Tagging Framework for Joint Extractionof Entities andRelations [J].Plo Sone,2O22,17 (1) :e260426.
[13]楊超男,彭敦陸.融合BSRU和膠囊網絡的文檔級實體 關系抽取模型[J].小型微型計算機系統,2022,43 (5) :964. YANG Chaonan,PENG Dunlu.Document-level Entity Relation Extraction Method Integrating Bidirectional Simple Recurrent Unit and Capsule Network[J]. Chinese Computer Systems, 2022,43(5) :964.
[14]秦健,侯建新,謝怡寧,等.醫療文本的小樣本命名實 體識別[J].哈爾濱理工大學學報,2021,26(4):94. QIN Jian,HOU Jianxin,XIE Yining,et al. Few-shot Named Entity Recognition for Medical Text[J]. Harbin University of Science and Technology,2021,26(4) :94.
[15]ZHANG Z, ZHOU T, ZHANG Y,et al. Attention-baseddeep Residual Learning Network for Entity Relationextraction in Chinese EMRs[J]. BMC medical informaticsand Decision Making,2019,19 :171.
[16] WEI Z, SU J,WANG Y,et al. A Novel CascadeBinary Tagging Framework for Relational Triple Extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020:1476.
[17] ZHENG H,WEN R,CHEN X,et al. PRGC: Potential Relation and Global Correspondence Based Joint Relation
al Triple Extraction[C]//Proceedings of the 59thAnnual Meeting of the Association for Computational Linguistics
and the 1lth International Joint Conferenceon Natural LanguageProcessing( Volume1: LongPapers), 2021:6225.
[18]楊鶴,于紅,孫哲濤,等.基于雙重注意力機制的漁業 標準實體關系抽取[J].農業工程學報,2021,37 (14) :204. YANG He,YU Hong,SUN Zhetao,et al. Fishery Standard Entity Relation Extraction Using Dual Attention Mechanism[J]. The Chinese Society of Agricul Engineering, 2021,37(14) :204.
[19]劉巨升,于紅,楊惠寧,等.基于多核卷積神經網絡 ( BERT+Multi-CNN+CRF? 的水產醫學嵌套命名實體 識別[J].海洋大學學報,2022,37(3):524. LIU Jusheng,YU Hong,YANG Huining,et al. Recognitionof Nested Named Entities in Aquature Medicine Based on Multikernel Convolution(BERT + Multi-CNN + CRF)[J].Dalian OceanUniversity,2022,37(3):524.
[20]姜鑫.水產動物疾病診斷的知識圖譜構建[D].: 海洋大學,2022.
[21]DEVLINJ,CHANG M W,LEE K,et al. BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding[C]//Processings of the 2019 North American Chapter of the Associationfor Computational Linguistics,2018:4147.
[22]HEK,ZHANGX,RENS,et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770.
[23] SABOUR S,FROSST N,HINTON G E. Dynamic RoutingBetween Capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3859.
[24]ZHANG S,ZHENG D,HU X C,et al. Bidirectional Long Short-Term Memory Networks for Relation Classification[C]//Proceedings of the 29th Pacific AsiaconferenceonLanguage, Information and Computation, 2015: 73.
[25]LAFFERTY J. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of the Eighteenth International Conference on Machine Learning,20O1:282.
[26]VITERBI A. Error Bounds for Convolutional Codesandan Asymptotically Optimum Decoding Algorithm[J]. IEEE Transactions on Information Theory,1967,13(2) : 260.
[27]李冬梅,張揚,李東遠,等.實體關系抽取方法研究綜 述[J].計算機研究與發展,2020,57(7):1424. LI Dongmei,ZHANG Yang,LI Dongyuan,et al. Review ofEntity RelationExtraction Methods[J].ComputerResearch and Development,2020,57(7):1424.
[28]WANG Q,WU W,SHI Y,et al. An Overview of the 2019 Language and Intelligence Challenge[C]//Natural Language Processing and Chinese Computing: 8th CCF International Conference,2019:818.
(編輯:溫澤宇)