彭博



關鍵詞:知識圖譜;深度學習;文物信息;關系抽取;BERT;BiLSTM;知識發現
中華文化上下五千年傳承,誕生了無數璀璨的文化瑰寶,文物作為其中重要的產物之一,有著巨大的研究價值。同時,文物研究工作中產生的大量信息資源蘊含了無數的文化知識.但是這些信息資源多以非結構化數據為主,知識往往隱含在眾多非結構化語料之中。如何全面與精確地挖掘及發現文物信息資源中的知識,成為了傳承和推廣中華文化所面臨的首要問題。
同時,隨著人工智能的迅速發展,自然語言處理技術的相關研究也取得了顯著進展。在以數字人文為導向進行人文及歷史研究的今天,文物信息資源中的結構化數據已無法滿足學者們進行文物知識挖掘、關聯與利用的研究需要。如何從非結構化的古籍文本、現代研究論文、各類型百科詞條中發現、挖掘、關聯并進行知識的深度利用,成為了數字人文相關學科亟待解決的重要問題。實體之間的關系作為知識的基本載體,成為進行知識開發與利用的源數據.如何抽取信息資源中的文物實體關系,成為了進行數字人文有關研究的基礎。文章以文物信息資源為研究對象.使用知識庫數據構建文物知識圖譜進行實體及實體關系的自動標注,通過BERT-BiLSTM-ATF模型進行實體關系抽取,在實體關系抽取與發現的實驗中取得了較好的效果,為文物信息資源中知識的利用提供了數據基礎。
1相關研究
1.1文物信息資源國內外研究現狀
目前國內外有關文物信息資源的研究以結構化數據的發布、存儲與開發利用為主,主要集中在文物元數據標準的制定、領域本體的構建以及結構化數據中文物知識關聯關系的挖掘與利用。文物元數據的有關研究由概括性質的元數據標準細化而來,如針對網絡資源的都柏林核心(Dublin Core)元數據標準成為后來眾多標準制定及復用的基礎。還有如蓋蒂研究所發布的藝術品描述類目(CDWA)成為了眾多文物元數據標準制定時的參考。國內學者龔花萍等融合以上多種元數據標準,提出了針對文物信息資源元數據的著錄標準,構建了針對文物信息資源的元數據模型。艾雪松等則進一步細化,使用標準復用等手段,依據博物館文物信息資源的特點構建了針對博物館文物信息資源元數據模型。文物領域本體構建則是針對某一個或者某幾種特征較強.難以復用某一類文物元數據標準進行的文物信息共享標準制定。如張華等針對湖北唐崖土司城遺址中的“荊南雄鎮”石牌坊結合文物元數據標準與文物特征構建了文物信息本體,實現了文物要素之間的語義關聯。Hyvionen使用關聯數據有關技術構建與整合了文化遺產領域本體.為進行文物信息資源語義的相關研究提供了數據基礎。文物語義相關的研究中,Tsai C M等使用情境感知等方法試圖將非結構化文物信息資源轉換為文物元數據的著錄格式。也有Boer VD等以阿姆斯特丹博物館為例,將博物館中文化信息資源通過關聯數據有關技術轉化為具有語義的結構化數據。曾子明等從數字人文角度針對文化遺產的多媒體資源、視頻資源中的潛在語義關聯進行了文物知識組織研究。
從以上的國內外研究現狀不難發現,目前文物信息資源中結構化數據的有關研究已取得豐碩成果,但受自然語言處理、實體識別、關系抽取等研究發展的限制,針對非結構化數據的研究較少。如何將非結構化數據的研究成果應用到非結構化數據中將會成為文物信息資源研究的發展趨勢。
1.2深度學習與關系抽取的國內外研究現狀
關系抽取的主要目的是從非結構化數據中提取具有語義關系的實體與實體間關系,目前主流的關系抽取方法分為有監督的學習方法、半監督的學習方法與無監督的學習方法。與其他兩種方法相比,有監督的學習方法能夠更有效地進行特征抽取,其準確率和召回率更高。深度學習是有監督學習的關系抽取研究中的關鍵技術,Miller S等采用增強解析樹聯合訓練訶性識別、實體識別、句法分析、語義解析4個步驟抽取句子級別中的實體關系。Mooney R J等基于核方法通過一個實體將一個句子分為前、中、后3部分進行訓練,更加精細地得到實體特征,提高了關系抽取的準確率。Mintz M等開創性的將遠程監督運用于關系抽取,該方法假設兩個實體在知識庫中存在關聯關系,當這兩個實體在同一個句子中時,該句也在表達這種關系,這種方法解決了有監督學習方法中語料標注的問題,但同時也會制造一定噪音。Zeng D等使用卷積神經網絡進行關系抽取.采用詞向量作為卷積神經網絡的輸入,通過卷積層、池化層和非線性層得到句子表示,依據實體的位置向量和詞匯特征進行關系抽取。Xu Y等使用LSTM進行關系抽取,通過找到兩個實體在依存樹中的最短路徑可以有效提取關鍵信息.對這兩條路徑進行特征提取得到關系分類的結果進行實體關系抽取。預訓練模型的出現為深度學習與實體關系抽取提供了新的思路.即通過預訓練模型使用更少的數據進行學習,通過引入自注意力機制在泛化的應用場景中進行高效的實體關系抽取。
將深度學習用于實體關系抽取可以從文本中識別實體并抽取實體之間的語義關系,所得結果能夠將非結構化數據轉化為結構化數據,為后續的語義挖掘以知識利用提供數據基礎。但同時可以看到,針對文物信息資源中實體關系抽取的研究較少,文物元數據所具有的標準化、唯一性、關聯性特征能夠為實體標注、關系標引提供良好的數據支撐,文物領域能夠成為深度學習及關系抽取的一個較好的研究方向。
2基于深度學習的文物實體關系抽取模型
2.1文物知識圖譜的構建
使用深度學習進行文物實體關系抽取的首要問題就是實體與實體關系標注,要標注句中存在的實體及其關系首先需要從事實中獲得實體名稱及實體間的關聯關系。知識圖譜的出現為實體及其關系的獲取提供了解決方法.“實體1一關系一實體2”的三元組表示形式能夠自動標注句中存在的實體,并為關系標注提供額外信息。文章從兩方面數據來源構建面向研究對象的文物知識圖譜,其一是利用網絡知識庫如維基數據(Wikidata)、中文通用百科知識圖譜(CN-DBpedia)以文物信息資源描述對象為檢索人口,通過SPARQL查詢得到與研究對象有關的實體的三元組集合轉換為RDF中的(S,P,O)三元組。
在得到三元組集合后,使用數據清洗、去重等手段通過圖模型將三元組中的實體及屬性映射為節點和邊,,邊E的標簽表示為P,構建面向研究對象的文物知識圖譜。
2.2信息資源中文物實體及關系標注
實體及關系標注是進行深度學習關系抽取的前提.由于僅依靠實體名稱進行實體標注存在的重名等問題會導致標注錯誤.使用兩個或兩個以上具有關聯關系的實體名稱進行聯合標注則可以降低錯誤概率。因此文章以句為單位,若句中存在兩個字或詞與知識圖譜中的實體名稱一致,則相應將其對應知識圖譜中的節點名稱標注為(E1,E2),實體關系標注為V若句中存在兩個以上字或詞與知識圖譜中的實體名稱一致時,則依次選取在知識圖譜中節點距離為1的節點名稱進行標注,標注為(E1,E2)、…、(E,E),實體關系對應標注為、而當知識圖譜中部分節點間屬性為“別名”“字”“號”等表示兩節點指代同一實體時,則在實體及關系標注時認為這些節點距離為0進行標注以增加對同一實體的標注精度。為了避免出現實體與名稱不符的情況,文章控制知識庫中進行實體再檢索的次數.這樣一方面能夠保留與文物實體關系緊密的實體;另一方面通過控制知識圖譜的網絡規模降低重名實體出現的概率。
2.3關系抽取模型構建
關系抽取實際上可以被看作是一個分類問題,即給定兩個實體及其共同出現的句子,根據給定的屬性將實體關系進行分類。進行關系抽取需要經過字、句向量生成提取文本特征和使用神經網絡提取語義兩個步驟。在文本特征的提取中文章使用預訓練模型BERT其利用Transformer Encoder與Self-attention機制,可以更好地描述上下文的語義特征。BERT相較于Word2Vec等僅通過詞及窗口范圍進行訓練獲取詞向量的方法,加入了NextSentence Prediction與Masked-LM進行聯合訓練,從而能夠獲取句子級別的語義特征。該模型是一種基于百科語料預訓練的具有泛化應用場景的語言模型.無需進行二次訓練便可以直接使用,輸入是語料中字或者詞,輸出的是文本中各個字或詞融合句子語義特征后的向量表示,由此形成的預訓練向量在許多自然語言處理任務中表現出了良好的性能,尤其針對小樣本環境下的自然語言處理任務。
在高層語義特征的提取上文章選擇長短記憶神經網絡模型(LSTM)進行,該模型既能更好地處理序列數據,又能夠處理循環神經網絡(RNN)中序列過長引發的梯度消失問題。LSTM每個隱藏層中包含了遺忘門、輸入門及輸出門。文章加入由單向的、方向相反的兩個LSTM的狀態組成神經網絡.輸入經過兩個方向相反的LSTM,而輸出則由這兩個LSTM共同決定雙向門控循環單元(BiL.STM)來進行文本深層次特征的提取。而為了減小文物信息資源中長輸入序列對神經網絡模型學習效果的影響,文章加入注意力機制(ATT)擇性地篩選輸入中的對應的有關信息,并將輸出序列與之關聯以提高輸出序列的準確性。最終如圖1所示,神經網絡關系抽取模型分為5層,分別是輸入層、用于文本特征提取的BERT層、進行深度學習的雙向LSTM層、注意力層及輸出層。
3實驗
為了驗證知識圖譜與深度學習融合方法在文物信息資源實體關系抽取中的效果以及進行未標注實體關系發現的能力,文章以中國十大傳世名畫之一的北宋風俗畫《清明上河圖》的百科類型文物信息資源為例進行實體關系抽取研究。
3.1數據采集與預處理
文章以文物信息資源文本的來源分類,選定《清明上河圖》有關的百科類型文本為數據來源,包括百度百科、維基百科、搜狗百科等關于“清明上河圖”的介紹以及網絡問答社區“知乎中關于“清明上河圖”話題的回答共50篇文本為研究對象。
在文物知識圖譜構建方面,文章在Wikidata知識庫中以“清明上河圖”(編號Q714802)進行檢索.隨后檢索結果中的實體為人口進行了3次再檢索共得到RDF三元組380對。隨后,在中文知識庫CN-Dbpedia中以“Named-Entity Disambigu.ation:清明上河圖(北宋張擇端風俗畫)”同樣對檢索結果中的實體進行了3次再檢索得到RDF三元組108對,經去重得到含有401個節點、409條邊的“清明上河圖”知識圖譜,結果如圖2所示。
3.2文物實體與關系標注
不同知識庫對實體間關系標注的名稱不盡相同,在進行文物實體關系標注前需針對這些關系依照統一的標準進行對齊,否則會造成同一關系因為不同名稱的標注而出現歧義。同時依據已有的元數據標準對類似的實體關系進行歸并能夠減少小樣本數據中實體關系種數,增加同類關系在語料中的集中度,提高神經網絡的學習效果。
因此,文章根據知識圖譜中節點及節點關系以句為單位依照前文中的方法進行標注,參考都柏林核心(DC)、藝術品描述類目(CDWA)、地名本體(GeoNames)元數據標準中的一級元數據元素對知識庫中提取的實體關系進行歸類合并,將知識庫提供的25種實體關系歸并為6大類,歸并結果如表1所示。以句為單位,依照“實體1”“實體2”“關系”及關系所在句子的格式,共自動標注實體關系508條.其中時間關系141條,作者關系121條,位置關系81條,屬性關系58條,內容關系57條,收藏關系50條。
為了研究文章模型在百科類型信息資源中文物實體關系抽取的效果,文章通過人工標注的方式對實驗語料的50篇文本中的實體關系進行標注以加入測試集,經過對比在原有508條自動標注的實體關系,人工標注增加了77條經知識庫中未收錄的實體關聯關系.其中時間關系14條,作者關系11條,位置關系11條,收藏關系11條,內容關系5條,屬性關系25條。
3.3實驗結果及分析
文章實驗平臺為CPU:17-9750H,內存:16GB,顯卡:GTX-1660Ti,顯存:6G,實驗環境為Python3.6、TensorFlowl.13.1、Keras2.4,BERT預訓練模型選取BERT-base-Chinese,共110M個參數,768個維度。訓練時,最大序列長度采用樣本中句子的最大長度278.train_batch_size為16,droup_out_rate為0.2,learning_rate為0.02,BiL-STM隱藏層維數為128,Epochs設置為30,但由于實驗為小樣本,為了防止過擬合,文章加入Ear-ly Stopping機制,連續5個Epoch未達到最佳精度則停止。
為檢驗模型在實體關系抽取中的效果,文章采用精確度(Precision,P)、召回率(Recall,R)和F1(F1-score)值作為度量指標。精確度代表被預測為正樣本的正確率.召回率代表實際為正樣本被正確預測的比例,F1值為兩種指標的調和平均值,模型的綜合抽取效果與其值正相關。
文章首先將自動標注的實體關系按8:2的比例隨機劃分為訓練集與測試集,再將人工標注中知識庫未收錄的實體關系隨機選取20%加入測試集中,最終訓練集中實體關系為406,測試集中實體關系為118.將文章方法與另外4種實體關系抽取方法進行對比,探究模型對于文物實體關系的抽取能力,其結果如圖3所示,“時間”關系與“位置”關系F1值相對較高,這一方面是由于時間與位置信息的名稱相對標準,關系特征明顯;另一方面也說明文物信息資源中有關“時間”與“位置”關系所描述的內容較為一致,使用深度學習的方法能夠較為準確地識別和抽取該類型關系。同時“內容”關系是與《清明上河圖》有關內容的描述,其承載信息有限,使得“內容”關系的抽取也取得了較好的效果。為了對比實驗結果,文章加入雙向循環神經網絡(BiRNN)、雙向門控循環單元(BiG.RU)、深度金字塔卷積神經網絡(DPCNN)進行對比。BiRNN使用Keras中的SimpleRNN函數進行實現,BiRNN和BiGRU參數與BiLSTM一致。同時為了研究BERT預訓練模型在提取字符級別特征中的效果,文章選擇整合了百科及新聞語料的中文詞向量進行對比,采用Skip-gram進行訓練,詞向量維度為300,窗口長度為5。從結果上看,BERT-BiLSTM-ATT方法抽取效果最好,但其與使用循環神經網絡有關方法抽取結果間差距不大.BiLSTM、BiGRU、BiRNN 3種方法獲得的加權平均F1值分別為0.91、0.9、0.88。BERT預訓練語言模型相較于Word2vec詞向量在字符特征的提取上具有一定的優勢.使用BERT預訓練模型與Word2vec詞向量搭配BiLSTM-ATF深度學習取得的加權平均F1值分別為0.91和0.88。相較于循環神經網絡,卷積神經網絡在同樣的預訓練語言模型下取得的加權平均F1值為0.67,結果相對較低。
為了更進一步研究文章使用的實體關系抽取方法在文物信息資源實體關系挖掘中的效果,文章將自動標注的508條實體關系作為訓練集.人工標注中知識庫未收錄的77條實體關系作為測試集,與另外兩種實體關系抽取方法進行對比,探究模型對于未根據知識庫數據規則進行標注的文物實體關系的發現能力,實驗結果如表2所示。
從表2的結果可以發現,精確度要明顯高于召回率,這說明經過自動標注后的關系抽取模型在發現實體關系的準確率上要高于發現關系的能力。在分類關系的抽取上,對比前文中“時間”關系的抽取,關系抽取模型對于自動標準之外的“時間”關系抽取效果有所降低.通過結合自動標注與人工標注在“時間”關系上的差異發現,《清明上河圖》創作于北宋時期,從知識庫中提取的時間有關信息大多描述該畫在北宋以及北宋后一定跨度時間內的流轉情況,而隨著時間的推移,后續信息逐漸減少.人工標注中新增部分多以該畫在清朝以及近現代流轉情況為主,深度學習方法無法獲取到近現代時間描述的有關特征,導致“時間”關系提取效果下降。“位置”和“作者”實體關系的提取在發現實驗中降低比例較為一致,這說明知識庫存有的實體關聯關系在經過神經網絡提取特征后對上述兩種關系具有一定的預測能力。“內容”實體關系由于文物信息資源中對于內容有關信息的描述較少且難以通過標準化數據手段收集,致使與內容有關的實體關聯關系抽取效率變化不明顯。“屬性”與“收藏”兩種實體關系抽取效果較差.說明如要提升這兩種關系的抽取效率需要在知識庫關聯關系以后通過其他方法添加外部信息,擴充這兩種實體關系的相關特征。
而在模型對比上BERT-BiLSTM-ATT效果最好.這說明BiGRU相對簡單的結構一定程度上忽略了文物實體關系具有的特征,導致實體關系發現效率下降。BiRNN相較于BiLSTM忽略掉了部分長序列中存在的實體關聯關系,導致抽取效率降低。
綜合圖3與表2的關系抽取與關系發現結果可以得到如下結論:①關系抽取模型經過自動標注以及訓練后能夠在隨機環境中抽取到文物信息資源中大部分的實體關系,精確度與召回率較好,說明百科類型文物信息資源實體關系較為集中與重復,適合使用預訓練語言模型提取字符特征后利用深度學習方法進行關系抽取。②相對于其他深度學習方法.循環神經網絡及其改進方法能夠在實體抽取中取得較好的效果,長短記憶神經網絡模型實體關系抽取效率稍高于現有的其他循環神經網絡方法.這一特征在實體關系的發現實驗中更為明顯。這說明長短記憶神經網絡對于未標記實體關系的預測能力更為優秀。③在小樣本數據中,BERT預訓練語言模型由于在字符語義特征之外還能夠提取句子級別語義特征,使得其得到的序列數據特征相較于Word2vec能夠更好的被深度學習模型提取,提高實體關系抽取效率。④在隨機環境下的6種不同類別文物實體關系的抽取中,“時間”與“位置”關系抽取效果最好,這與文物信息資源中“時間”與“位置”信息具有較為標準化的描述以及明確的表達規范有關,使其具有強烈與一致的語義特征.利用深度學習有關方法對文物信息資源中的時間與位置信息進行分析有著較高的效率。⑤在知識庫未收錄文物實體關系的發現實驗中.方法在“時間”關系的發現中效果最好,但由于時間具有演進特征.新的時間稱為與表述方法不斷出現,“時間”關系受知識庫更新延遲的影響較大。受制于知識庫實體關系存儲數量.其他幾類文物信息資源實體關系則需要通過補充外部信息來提高實體關系抽取效率。
4總結
為解決文物信息資源中實體關系的抽取問題,文章提出了融合知識圖譜與深度學習的文物信息資源實體關系抽取方法.構建了基于深度學習的文物實體關系抽取模型.進行了實體關系抽取與發現的有關實驗。結果顯示,該方法對于小樣本語料的關系抽取與發現有著較好的應用前景。BERT-BiL.STM-ATT在與另外兩種方法以及循環神經網絡有關衍生方法的兩次對比實驗中精確度與召回率均最高,取得了不錯的效果。
文章的主要貢獻與創新之處有以下幾點:首先,依據文物信息資源中研究對象實體的特點,利用知識庫檢索提取關聯實體及關聯關系集合并構建知識圖譜,通過規則進行針對百科類文物信息資源文本中文物實體關系的自動標注。其次,文章通過BERT-BiLSTM-ATT模型進行實體關系抽取,利用預訓練模型提取字符語義特征,為小樣本數據進行實體關系發現提供了一種切實可行的方法。此外,文章方法對于文物信息資源中的時間以及空間特征具有較好的提取與發現效果,為文物信息資源的時空數據研究提供新的視野。
未來的研究中,文章將模型與其他的神經網絡進行性能比較.擴大數據集規模,進行更廣泛領域的文物信息資源實體關系抽取研究。