崔鑫,王琰,侯小剛,周月
(1.北京郵電大學計算機學院,北京 100876;2.北京郵電大學人工智能學院,北京 100876;3.北京郵電大學電子工程學院,北京 100876)
文物是中華文化的重要組成部分,對于保護和傳承中華文化具有不可替代的作用。本文選取可移動文物中的三類典型文物石刻、陶瓷、青銅器作為研究對象,這些文物是中國文化遺產(chǎn)中較為珍貴且受到廣泛關注的部分,對于研究中國古代科技、美學和文化歷史等方面具有極為重要的價值。文物數(shù)據(jù)是指文物各種屬性和信息的數(shù)字化記錄和存儲,例如文物的名稱、年代、類別、材質(zhì)、尺寸、形態(tài)、寓意、保存狀況、歷史背景等各方面的信息。通過對文物數(shù)據(jù)的采集、整理和分析,可以更好地了解和挖掘文物的歷史文化價值,同時也為文物的保護和傳承提供了基礎數(shù)據(jù)支持。通過命名實體識別技術(shù)可以從非結(jié)構(gòu)化文本數(shù)據(jù)中得到實體位置以及實體類型信息,減輕博物館工作人員人工標注的壓力,促進三元組數(shù)據(jù)的構(gòu)建。
典型文物數(shù)據(jù)具有構(gòu)詞的特殊性,比如“四子折桂”表達了石刻的寓意,使用現(xiàn)有的命名實體識別算法很難將“四子折桂”識別為相應的寓意。為了解決該問題,本文提出了一種基于詞匯增強的典型文物命名實體識別算法,算法在輸入表示層和上下文編碼層都引入詞匯信息,提高了詞語領域?qū)I(yè)性。算法通過構(gòu)建文物領域詞庫,將其作為基于詞匯增強的典型文物命名實體識別算法詞典,最終較好地解決了詞邊界判斷錯誤問題,在典型文物數(shù)據(jù)集上取得了較好的效果。
命名實體識別是從句子中提取特定的實體并將其分為對應的類別,比如人名、地名、組織名等,是知識圖譜構(gòu)建的關鍵步驟,影響之后的關系抽取和知識圖譜構(gòu)建。基于深度學習的命名實體識別方法占據(jù)著支配性作用,深度學習采用多層次的處理結(jié)構(gòu),每一層都會從前一層中抽取部分特征信息,并抽象化表示出更高層次的特征,從而增強數(shù)據(jù)的表征能力。
基于深度學習的命名實體識別模型主要用到了三類輸入表示:單詞級別的輸入表示、字符級別的輸入表示以及混合表示。對于單詞級別的輸入表示,經(jīng)過訓練,每個單詞可以用一個低維度的實值向量表示,Zheng 等人[1]采用Word2Vec 模型,對于字符級別的輸入表示,可以更有效地利用詞級別的信息,能夠很好的處理詞匯溢出(Out-of-vocabulary,OOV)問題,可以對沒有見過的單詞進行表示,并在語素層面上共享、處理信息。Peters 等人提出了ELMo[2]表示,利用深度雙向語言模型對大規(guī)模語料進行預訓練,經(jīng)原始任務數(shù)據(jù)集微調(diào),產(chǎn)生適用于命名實體識別等任務的詞向量表示。Kuru 等人[3]提出了CharNER,將句子視為字符序列,并利用LSTM 提取字符級別的表示。除上述兩種輸入表示,一些研究將附加信息納入到單詞的最終表示中,然后再輸入上下文編碼層,附加信息包括地名錄[4]、詞匯相似性[5]、語言依賴性[6]和視覺特征[7]。Devlin 等人[8]提出了預訓練語言模型BERT,通過無監(jiān)督的預訓練方式學習文本中的雙向上下文信息,從而能夠更好地理解單詞和文本之間的關系。
中文命名實體識別方法通常先使用中文分詞工具進行分詞,再進行詞級別的序列標注,中文分詞工具不可避免地會錯誤地分割句子。一些方法[9,10]使用基于BERT 的方法進行命名實體識別,借助預訓練語言模型BERT 提取通用的包含上下文的文本信息,但是BERT 在垂直領域的表現(xiàn)一般,特別是在文物類的文本中表現(xiàn)不佳,BERT提取的信息更加全局,而命名實體識別任務更需要局部信息,因此依然會有詞邊界判斷錯誤的問題。Zhang 和Yang[11]提出了Lattice LSTM,Ma 等人[12]提出了SoftLexicon,在基于深度學習的命名實體識別方法的基礎上,引入詞匯信息,較好地解決了詞邊界識別錯誤的問題。SoftLexicon 在輸入表示層引入詞匯信息,Lattice LSTM 修改了原有LSTM的結(jié)構(gòu),在上下文編碼層引入了詞匯信息。
本文提出了一種結(jié)合SoftLexicon與Lattice LSTM的基于詞匯增強的典型文物命名實體識別算法,在輸入表示層采用SoftLexicon 特征進行編碼,在上下文編碼層采用Lattice LSTM 獲取上下文語義信息,在輸入表示層跟上下文編碼層都引入詞匯信息,并且構(gòu)建了文物領域詞庫,將其作為詞典引入基于詞匯增強的典型文物命名實體識別算法,較好地解決了詞邊界判斷錯誤的問題。
典型文物數(shù)據(jù)集選取了石刻、陶瓷、青銅器三類典型文物,主要數(shù)據(jù)來源于各地博物館的官網(wǎng)(比如故宮博物院、山東博物館),從博物館官網(wǎng)上爬取到文物的名稱、對應圖片、對應的文字描述以及來源,具體如表1所示。

表1 典型文物數(shù)據(jù)集示例
在命名實體識別數(shù)據(jù)集構(gòu)建中,主要對非結(jié)構(gòu)化的文字描述進行標注。總計收集3128條數(shù)據(jù),經(jīng)過清洗之后的有效數(shù)據(jù)為3000 條,將其劃分為訓練集2400 條、驗證集300 條以及測試集300 條。根據(jù)文博專家的指導意見,制定了如表2所示的實體類型。

表2 典型文物數(shù)據(jù)集的8種實體類型
序列標注的主要方法有BIO、BIOES以及BMES。BMES 常用于分詞標注,BIO 標注缺少顯式的單詞結(jié)尾信息,在Lattice LSTM 跟SoftLexicon 模型中,需要用到單詞結(jié)尾的信息,因此在數(shù)據(jù)集的標注階段采用BIOES標注法。
典型文物數(shù)據(jù)集中的文本有很多文物領域的專有名詞和領域詞匯,比如:“四子折桂”、“北方七宿”、“磁山文化”等。使用常見的中文分詞工具對文物語料進行分詞,往往無法進行準確地切分,影響語義信息的提取。文物領域詞庫的豐富性和準確性影響著命名實體識別以及之后的關系抽取,因此,非常有必要制作文物領域的領域詞庫。
本文主要研究的是文物領域的知識圖譜構(gòu)建,因此主要關注與文物名稱、朝代、出土地點、博物館、紋樣、寓意等有關的細分領域詞庫。通過收集輸入法詞庫、百科類詞庫、以及一些細分領域的詞庫,再加入人工篩選,以及領域?qū)<姨峁┎糠址N子詞語,得到種子領域詞庫。在構(gòu)建種子領域詞庫的過程中,主要參考了THUOCL 詞庫、搜狗輸入法詞庫以及DomainWords‐Dict詞庫中一些細分領域詞庫,具體如表3所示。

表3 構(gòu)建種子詞庫所需的領域詞庫
本文利用詞向量技術(shù)擴充領域詞庫,采用騰訊AI Lab 提供的包含800 萬詞匯的中文詞向量,對種子領域詞庫中的紋樣、朝代、寓意等詞語,計算語義相似的前10 個詞,具體示例如表4 所示。以“龍紋”為例,可以通過詞向量技術(shù)獲得相似詞“風紋”、“云紋”以及“龍風紋”,但是也會出現(xiàn)一些噪聲詞,比如“紋飾”、“夔龍”,所以還需要進行人工篩選。

表4 詞向量相似詞擴展示例
借助已有領域詞庫構(gòu)建種子詞庫以及通過詞向量技術(shù)對種子詞庫進行擴充,最終得到15000 個文物領域的詞語,部分例子如表5所示。

表5 文物領域詞庫示例
如圖1 所示,基于詞匯增強的典型文物命名實體識別算法可以分為輸入表示層、上下文編碼層以及標簽解碼層。輸入表示層采用SoftLexicon,上下文編碼層采用Lattice LSTM,標簽解碼層采用CRF,輸入表示層跟上下文編碼層都引入了詞匯信息,以增強命名實體識別模型鑒別詞邊界的能力。

圖1 基于詞匯增強的典型文物命名實體識別算法框架
本文分別對比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型(本文方法)。實驗結(jié)果如表6所示。

表6 實驗結(jié)果
對于Lattice LSTM 方法、SoftLexicon 方法以及本文算法,本文使用兩種詞典分別進行實驗,無‘*’標記符表示使用Lattice LSTM 提出的詞庫,‘*’標記符表示使用本文制作的文物領域詞庫。實驗結(jié)果表明,BERT+CRF 模型與BERT+BiLSTM+CRF 的效果差別不大,這是由于BERT 強大的上下文編碼能力可以提取出需要的信息,BiLSTM 只是在BERT 的基礎上選擇有效的信息進行處理。引入詞匯信息的方法有明顯的提升。輸入表示層SoftLexicon 和上下文編碼層Lattice LSTM 都引入詞匯信息優(yōu)于分別在兩層單獨引入詞匯信息的效果。
為了解決文物領域數(shù)據(jù)構(gòu)詞特殊性導致實體邊界識別錯誤的問題,本文構(gòu)建了文物領域詞庫,并提出了一種基于詞匯增強的典型文物命名實體識別算法。首先,在輸入表示層采用SoftLexicon,引入詞匯信息;其次,在上下文編碼層采用Lattice LSTM,在輸入表示層的基礎上再次引入詞匯信息;最后,在標簽解碼層采用CRF解碼,獲取最終的標簽。實驗結(jié)果表明,使用本文構(gòu)建的文物領域詞庫,基于詞匯增強的命名實體識別方法在典型文物數(shù)據(jù)集上有較好的表現(xiàn)。
本文在構(gòu)建典型文物數(shù)據(jù)集時,主要數(shù)據(jù)來源于相關博物館官網(wǎng)的圖文對數(shù)據(jù),只對文本數(shù)據(jù)進行了算法處理。目前并沒有高精度的文物多模態(tài)命名實體識別數(shù)據(jù)集,未來會考慮在領域?qū)<业闹笇聦D文數(shù)據(jù)進行多模態(tài)標注,融合圖像文本信息,進行命名實體識別。