基于BETR-BiGRU-CRF模型的文物檔案知識圖譜構建研究
——以北京中軸線文化遺產檔案為例

2024-03-05 04:54:18關定邦趙慶聰

黑龍江科學 2024年3期

關定邦,趙慶聰,2

(1.北京信息科技大學信息管理學院,北京100192; 2.綠色發展大數據決策北京市重點實驗室,北京100192)

文物檔案包括對文物本身信息的記載,如文物的年代、類型、產地、材質等,還包括對與文物相關活動的記載,如挖掘文物期間的視頻資料、文物保護與收藏展覽期間的資料及保護管理規劃相關文件等。隨著國家各項文物保護政策的提出與文博事業的發展,實現文物檔案數字化成為必然趨勢。文物檔案知識圖譜可將各種文物檔案中的信息進行可視化展示,同時通過語義網絡將這些信息進行歸類、整合與關聯,幫助人們更好地理解文物的背景、歷史與文化價值,促進對文物的保護及活化利用。

中軸線是中國傳統建筑文化中重要的設計理念,北京中軸線是一條南北走向的虛擬軸線,貫穿北京市中心,連接眾多著名文化遺址與景點。目前,各遺產點的數字化檔案存在分散存放、檢索效率低、利用率不高等問題。以北京市中軸線文化遺產部分遺產點(鐘鼓樓、正陽門、景山、先農壇、太廟、社稷壇)的數字化檔案為研究對象,構建中軸線文化遺產檔案知識圖譜,支持全面、高效、準確的文物檔案檢索與利用,以期為文物保護工作提供支持,為文物管理與研究提供參考。

1 理論基礎

1.1 知識圖譜

知識圖譜是利用計算機技術與人工智能技術從數據中挖掘相關信息并組織成有機網絡的知識體系,能為研究者提供知識的可視化展示、查詢與推理等服務。知識圖譜中的實體以節點表示,實體間關系以邊表示,通過三元組對知識進行結構化呈現[1]。知識圖譜近年廣泛應用于醫療、金融、文化等領域,幫助專業人員快速掌握關鍵概念、知識點與相關關系,探索新的研究方向,促進知識共享與團隊合作。

知識圖譜領域近年取得了許多成果。曾蘭蘭提出一種基于BERT與聯合學習的實體抽取方法(JLB-BiLSTM-CRF),通過對輸入文檔進行編碼并結合實體上下文信息確定關系分類,縮短了模型訓練時間并獲得良好的分類結果。使用余弦相似度計算方法實現實體對齊,最終完成知識圖譜構建[2]。李文亮使用CNN與BiLSTM-CRF網絡模型,利用中文關系抽取工具DeepKE對文物相關領域的數據進行實體抽取,使用Neo4j圖數據庫完成知識存儲[3]。

1.2 命名實體識別

命名實體識別是構建知識圖譜的重要技術之一,可自動從文本中識別出具有特定意義的實體,如地名、人名、機構名等,為知識圖譜提供實體信息,確保圖譜構建效率與準確性。命名實體識別分為預處理與實體識別兩個階段,預處理階段包括分詞、詞性標注與命名實體識別模型的訓練;實體識別階段則使用訓練好的模型分析文本,并為命名實體打上標簽。常見的命名實體識別技術包括規則方法、統計方法與深度學習方法[4]。

近年來,人工智能技術的發展推動了命名實體識別的研究。馬文祥基于BERT-BiGRU-CRF構建了中文電子簡歷實體抽取模型,成功提取出中文電子簡歷命名實體,有效提高了識別準確率[5]。易黎等提出自監督深度學習模型訓練方法,通過BERT-BiLSTM-CRF實體識別模型完成檔案實體識別任務[6]。馮強構建了BTBL-CRF模型,通過BiTCN與BiLSTM提取文物藏品句子特征,將二者融合后使用條件隨機場對融合結果進行解碼,標注文物藏品實體[7]。

1.3 實體關系構建

知識圖譜實體關系構建是從文本中抽取實體關系,構建實體關系圖譜的過程,可自動提取人與人、人與組織等不同類型實體間的關系,為知識圖譜構建提供豐富的信息。

通過實體關系圖譜可更系統地理解實體間的聯系與作用,更深入地開展研究。彭博提出抽取非結構化文物信息資源實體關系的方法,利用知識庫中的實體關系和基于規則的實體關系標注技術對文物信息資源中的實體關系進行標注。利用預訓練語言模型獲取字符特征,運用深度學習技術獲取語義特征,成功提取出文物信息資源實體關系[8]。陳彥光提出基于刑事案例的多粒度信息抽取方法,通過訓練基于神經網絡的案情三元組抽取模型,成功提取細粒度實體關系信息。通過改進關系抽取模塊的訓練階段,進一步提升模型性能,完成實體關系抽取任務[9]。

2 基于BETR-BiGRU-CRF模型的文物檔案知識圖譜的構建

2.1 模式層設計

采用自頂向下的模式構建文物檔案知識圖譜,知識圖譜模式層的設計可幫助構建與管理知識圖譜的結構化模式,更好地理解知識的組織結構,實現知識的擴展與重用,從而提升知識圖譜的質量與效能。對文物檔案數據集進行分析,從六個遺產點的文物檔案文字卷數據中選取六種實體類型進行建模,分別為 “文物”“朝代”“機構”“時間點”“地點”“人物”。詳見表1。

表1 文物檔案的實體類型Tab.1 Types of entity of cultural heritage archives

2.2 文物檔案數據預處理

選取中軸線遺產點中六個遺產點的文字卷作為研究對象,文字卷中大多是非結構化數據,對其進行整理分析,設置如下的實體字段,詳見表2。

表2 文物檔案數據字段說明Tab.2 Description of heritage archive data field

2.3 基于BERT-BiGRU-CRF模型的實體抽取過程

2.3.1 BERT-BiGRU-CRF模型架構

BERT-BiGRU-CRF作為一種序列標注模型,主要用于實體抽取任務。該模型整體上分為四層,其中：輸入層接受文本輸入,BERT層將文本轉換為向量,BiGRU層學習上下文信息,CRF層考慮上下文信息以提升標注的準確性。模型各層間的連接方式與數據流動路徑將各部分的作用組合在一起,以提升實體抽取的準確性與效率。詳見圖1。

圖1 BERT-BiGRU-CRF模型架構Fig.1 BERT-BiGRU-CRF model architecture

2.3.2 BERT層

BERT是谷歌公司于2018年提出的語言表示模型,采用雙向Transformer編碼器,利用上下文信息提升模型效果,支持并行訓練,加快模型訓練速度。

BERT模型的輸入結構由三部分組成：詞嵌入、分段嵌入與位置嵌入。詞嵌入將輸入的單詞或符號表示為向量,反映其語義與詞性信息。一般使用預訓練的詞向量作為初始值。在BERT中,詞嵌入的維度與隱藏層向量維度相同。分段嵌入將輸入的段落或句子進行區分,以劃分不同句子間的關系,輸入可能是單個句子或多個句子的組合。在BERT中,將輸入序列分為A與B兩段,每段分配一個Embedding,表示兩個不同的句子。在序列開頭添加CLS標記表示分類任務的輸出結果,結尾添加兩個SEP標記表示句子分界。位置嵌入利用絕對位置與相對位置,為每個單詞或符號分配唯一的位置向量,確保模型能夠區分序列中每個單詞的位置。通過這三部分的組合,BERT能夠提供更好的句子表示。詳見圖2。

圖2 BERT層輸入結構Fig.2 BERT model input structure

2.3.3 BiGRU層

BiGRU是雙向循環神經網絡(RNN)中基于門控循環單元(GRU)的一種算法,通過正向與反向的GRU單元對輸入序列進行處理,將兩個方向的結果拼接在一起輸出。

BiGRU的門控系統包括重置門與更新門,用于控制輸入信息對隱含狀態與歷史信息的影響程度,從而增加模型的記憶功能與穩定性。相比于傳統的RNN與LSTM,BiGRU能更好地處理長序列數據,避免梯度消失與梯度爆炸問題,提升模型的準確性,其優勢如下：

1)雙向循環：同時考慮了前向與后向的信息,可更好地捕捉序列中的依賴關系。

2)門控機制：引入GRU單元的門控機制,能夠更好地控制信息的流動,增強模型的記憶功能與泛化能力。

3)訓練穩定：由于存在梯度消失與梯度爆炸的問題,傳統的RNN與LSTM在訓練時往往穩定性較差,而BiGRU可通過引入門控機制解決這一問題,使訓練更穩定。

在進行具體的門單元計算時,xt是輸入數據,ht是GRU單元的輸出,rt是重置門,zt是更新門,zt與rt共同控制從ht-1隱藏狀態到ht隱藏狀態的計算, 更新門同時控制當前輸入數據與先前記憶信息ht-1,輸出一個0～1之間的數值zt,zt決定以多大程度將ht-1向下一個狀態傳遞,公式如下：

zt=σ(wz·[ht-1,xt])

(1)

rt=σ(wr·[ht-1,xt])

(2)

(3)

(4)

式中,σ是Sigmoid函數,Wz,Wr,W分別為更新門、重置門及候選隱含狀態的權重矩陣。重置門控制ht-1對結果ht的重要程度,當先前記憶ht-1與新記憶完全相關性較大時, 可通過重置門發揮作用,提升先前記憶的影響。根據重置門、更新門與隱含狀態的計算結果可得到當前時刻的輸出ht。

2.3.4 CRF層

條件隨機場(CRF)是一種用于序列標注的概率模型,主要用于自然語言處理時的命名實體識別、詞性標注等任務。CRF是基于馬爾可夫隨機場(Markov Random Field)的擴展,其核心思想是通過最大化輸出給定序列的條件概率分布得到最優的標注序列。在命名實體識別中添加CRF層的原因在于,CRF可有效地利用上下文信息對標注結果進行約束,提升模型的準確性與穩定性。

CRF的算法核心是定義一個條件概率模型,模型的輸入是一組特征函數與一組特征權重。特征函數用于提取輸入序列的局部信息,特征權重用于給不同特征賦予權重,反映其對標注結果的貢獻。CRF學習這些特征函數的權重,以最大化標注結果的條件概率。具體而言,CRF模型將標注序列視為一個隨機過程,并將標注序列的概率建模成聯合概率分布,用馬爾可夫隨機場的方法建模,將標注的聯合概率分布轉化為圖上的一個無向圖,使得給定條件下標注的概率最大。

在自然語言處理問題上,通常使用線性鏈條件隨機場,給定觀測序列X,輸出標記序列Y,當X取值為x時,Y取值為y的條件概率具有如下形式：

(5)

式中,λk表示權值,tk表示特征函數,Z(x)表示規一化因子。

2.4 文物檔案知識圖譜存儲與可視化

2.4.1 Neo4j圖數據庫

Neo4j圖數據庫是一種基于圖形理論的高性能、原生圖形數據庫[10],可存儲與查詢知識圖譜中的實體、屬性與關系,也可支持應用程序對知識圖譜進行操作與分析。知識圖譜的數據模型與語義可利用Neo4j的相關特性進行表達與查詢,Neo4j的高擴展性與靈活性能夠為知識圖譜的構建與維護提供有效支持。

2.4.2 實體對齊與知識存儲

由于文物檔案具有特殊性,在做實體對齊時只需考慮實體統一問題,且此問題于文物檔案中存在的情況較少。采用針對性的方法,將所需對齊的實體整理匯總后,在入庫前完成實體對齊操作,實現實體對齊功能。

3 實證分析

3.1 實驗數據集

以中軸線部分遺產點的91篇文物檔案數據集作為知識圖譜構建對象。將數據集標注為機構、時代、地址、文物、時間點與人物6個類別,并按照8∶2的比例劃分數據集與測試集,用于模型的訓練與測試。

3.2 評價指標

使用F1值、召回率(Recall)與準確率(Precision)作為對實驗模型的評價指標,各評價指標計算公式如下：

(6)

(7)

(8)

3.3 命名實體識別

采用BIOES的標注方式對文物檔案數據集數據進行標注,通過數據標注對實驗模型命名實體識別的效果進行指標對比。

3.3.1 數據標注對照實驗

用不同數據量進行模型訓練,根據評價指標進行對比分析。當訓練集從124條數據增加到323條數據時,模型的召回率提升了17.93%,F1值也從0.813上升到0.882。實驗結果充分說明本次實驗設計的模型合理有效,可完成實驗需求,達到實驗預期。詳見表3。

表3 BERT-BiGRU-CRF模型實體抽取結果Tab.3 Results of BERT-BiGRU-CRF model entity extraction

3.3.2 實體抽取模型對照實驗

引入BERT-CRF、BERT-BiLSTM-CRF、BiLSTM-CRF三個模型與BERT-BiGRU-CRF模型進行對比發現,相較于其他實體抽取模型,BERT-BiGRU-CRF模型下評價指標基本都有所提高。與傳統模型BiLSTM-CRF相比,準確率提升了17%,F1值也提升了0.2。相較于BERT-CRF與BERT-BiLSTM-CRF模型準確率分別提升了1.08%與2.19%,F1值提升了0.006與0.025,可見BiGRU模型能夠捕捉更多的線性特征,進一步提升模型的特征提取能力。使用相同訓練數據的情況下,BERT-BiGRU-CRF模型推理速度更快,訓練速度也更快,在實體抽取任務中具有更高的精確度與召回率,可高效完成實體抽取任務。詳見表4。

表4 實體抽取模型對比結果Tab.4 Results of entity extraction model comparison

可見,采用BERT-BiGRU-CRF模型完成實體抽取,模型的準確率達到88.87%,F1值達到0.902,展現出較好的性能,高效完成了抽取任務。通過實體對齊、關系構建、知識存儲等步驟構建的中軸線部分遺產點文物檔案知識圖譜,能為文物檔案的進一步研究與利用提供有力支持。

基于BETR-BiGRU-CRF模型的文物檔案知識圖譜構建研究——以北京中軸線文化遺產檔案為例