999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞匯增強的典型文物命名實體識別算法

2023-06-12 07:57:58崔鑫王琰侯小剛周月
關鍵詞:詞匯信息

崔鑫,王琰,侯小剛,周月

(1.北京郵電大學計算機學院,北京 100876;2.北京郵電大學人工智能學院,北京 100876;3.北京郵電大學電子工程學院,北京 100876)

1 引言

文物是中華文化的重要組成部分,對于保護和傳承中華文化具有不可替代的作用。本文選取可移動文物中的三類典型文物石刻、陶瓷、青銅器作為研究對象,這些文物是中國文化遺產(chǎn)中較為珍貴且受到廣泛關注的部分,對于研究中國古代科技、美學和文化歷史等方面具有極為重要的價值。文物數(shù)據(jù)是指文物各種屬性和信息的數(shù)字化記錄和存儲,例如文物的名稱、年代、類別、材質(zhì)、尺寸、形態(tài)、寓意、保存狀況、歷史背景等各方面的信息。通過對文物數(shù)據(jù)的采集、整理和分析,可以更好地了解和挖掘文物的歷史文化價值,同時也為文物的保護和傳承提供了基礎數(shù)據(jù)支持。通過命名實體識別技術(shù)可以從非結(jié)構(gòu)化文本數(shù)據(jù)中得到實體位置以及實體類型信息,減輕博物館工作人員人工標注的壓力,促進三元組數(shù)據(jù)的構(gòu)建。

典型文物數(shù)據(jù)具有構(gòu)詞的特殊性,比如“四子折桂”表達了石刻的寓意,使用現(xiàn)有的命名實體識別算法很難將“四子折桂”識別為相應的寓意。為了解決該問題,本文提出了一種基于詞匯增強的典型文物命名實體識別算法,算法在輸入表示層和上下文編碼層都引入詞匯信息,提高了詞語領域?qū)I(yè)性。算法通過構(gòu)建文物領域詞庫,將其作為基于詞匯增強的典型文物命名實體識別算法詞典,最終較好地解決了詞邊界判斷錯誤問題,在典型文物數(shù)據(jù)集上取得了較好的效果。

2 相關工作

命名實體識別是從句子中提取特定的實體并將其分為對應的類別,比如人名、地名、組織名等,是知識圖譜構(gòu)建的關鍵步驟,影響之后的關系抽取和知識圖譜構(gòu)建。基于深度學習的命名實體識別方法占據(jù)著支配性作用,深度學習采用多層次的處理結(jié)構(gòu),每一層都會從前一層中抽取部分特征信息,并抽象化表示出更高層次的特征,從而增強數(shù)據(jù)的表征能力。

基于深度學習的命名實體識別模型主要用到了三類輸入表示:單詞級別的輸入表示、字符級別的輸入表示以及混合表示。對于單詞級別的輸入表示,經(jīng)過訓練,每個單詞可以用一個低維度的實值向量表示,Zheng 等人[1]采用Word2Vec 模型,對于字符級別的輸入表示,可以更有效地利用詞級別的信息,能夠很好的處理詞匯溢出(Out-of-vocabulary,OOV)問題,可以對沒有見過的單詞進行表示,并在語素層面上共享、處理信息。Peters 等人提出了ELMo[2]表示,利用深度雙向語言模型對大規(guī)模語料進行預訓練,經(jīng)原始任務數(shù)據(jù)集微調(diào),產(chǎn)生適用于命名實體識別等任務的詞向量表示。Kuru 等人[3]提出了CharNER,將句子視為字符序列,并利用LSTM 提取字符級別的表示。除上述兩種輸入表示,一些研究將附加信息納入到單詞的最終表示中,然后再輸入上下文編碼層,附加信息包括地名錄[4]、詞匯相似性[5]、語言依賴性[6]和視覺特征[7]。Devlin 等人[8]提出了預訓練語言模型BERT,通過無監(jiān)督的預訓練方式學習文本中的雙向上下文信息,從而能夠更好地理解單詞和文本之間的關系。

中文命名實體識別方法通常先使用中文分詞工具進行分詞,再進行詞級別的序列標注,中文分詞工具不可避免地會錯誤地分割句子。一些方法[9,10]使用基于BERT 的方法進行命名實體識別,借助預訓練語言模型BERT 提取通用的包含上下文的文本信息,但是BERT 在垂直領域的表現(xiàn)一般,特別是在文物類的文本中表現(xiàn)不佳,BERT提取的信息更加全局,而命名實體識別任務更需要局部信息,因此依然會有詞邊界判斷錯誤的問題。Zhang 和Yang[11]提出了Lattice LSTM,Ma 等人[12]提出了SoftLexicon,在基于深度學習的命名實體識別方法的基礎上,引入詞匯信息,較好地解決了詞邊界識別錯誤的問題。SoftLexicon 在輸入表示層引入詞匯信息,Lattice LSTM 修改了原有LSTM的結(jié)構(gòu),在上下文編碼層引入了詞匯信息。

本文提出了一種結(jié)合SoftLexicon與Lattice LSTM的基于詞匯增強的典型文物命名實體識別算法,在輸入表示層采用SoftLexicon 特征進行編碼,在上下文編碼層采用Lattice LSTM 獲取上下文語義信息,在輸入表示層跟上下文編碼層都引入詞匯信息,并且構(gòu)建了文物領域詞庫,將其作為詞典引入基于詞匯增強的典型文物命名實體識別算法,較好地解決了詞邊界判斷錯誤的問題。

3 領域詞庫構(gòu)建與典型文物數(shù)據(jù)集制作

3.1 典型文物數(shù)據(jù)集制作

典型文物數(shù)據(jù)集選取了石刻、陶瓷、青銅器三類典型文物,主要數(shù)據(jù)來源于各地博物館的官網(wǎng)(比如故宮博物院、山東博物館),從博物館官網(wǎng)上爬取到文物的名稱、對應圖片、對應的文字描述以及來源,具體如表1所示。

表1 典型文物數(shù)據(jù)集示例

在命名實體識別數(shù)據(jù)集構(gòu)建中,主要對非結(jié)構(gòu)化的文字描述進行標注。總計收集3128條數(shù)據(jù),經(jīng)過清洗之后的有效數(shù)據(jù)為3000 條,將其劃分為訓練集2400 條、驗證集300 條以及測試集300 條。根據(jù)文博專家的指導意見,制定了如表2所示的實體類型。

表2 典型文物數(shù)據(jù)集的8種實體類型

序列標注的主要方法有BIO、BIOES以及BMES。BMES 常用于分詞標注,BIO 標注缺少顯式的單詞結(jié)尾信息,在Lattice LSTM 跟SoftLexicon 模型中,需要用到單詞結(jié)尾的信息,因此在數(shù)據(jù)集的標注階段采用BIOES標注法。

3.2 領域詞庫構(gòu)建

典型文物數(shù)據(jù)集中的文本有很多文物領域的專有名詞和領域詞匯,比如:“四子折桂”、“北方七宿”、“磁山文化”等。使用常見的中文分詞工具對文物語料進行分詞,往往無法進行準確地切分,影響語義信息的提取。文物領域詞庫的豐富性和準確性影響著命名實體識別以及之后的關系抽取,因此,非常有必要制作文物領域的領域詞庫。

本文主要研究的是文物領域的知識圖譜構(gòu)建,因此主要關注與文物名稱、朝代、出土地點、博物館、紋樣、寓意等有關的細分領域詞庫。通過收集輸入法詞庫、百科類詞庫、以及一些細分領域的詞庫,再加入人工篩選,以及領域?qū)<姨峁┎糠址N子詞語,得到種子領域詞庫。在構(gòu)建種子領域詞庫的過程中,主要參考了THUOCL 詞庫、搜狗輸入法詞庫以及DomainWords‐Dict詞庫中一些細分領域詞庫,具體如表3所示。

表3 構(gòu)建種子詞庫所需的領域詞庫

本文利用詞向量技術(shù)擴充領域詞庫,采用騰訊AI Lab 提供的包含800 萬詞匯的中文詞向量,對種子領域詞庫中的紋樣、朝代、寓意等詞語,計算語義相似的前10 個詞,具體示例如表4 所示。以“龍紋”為例,可以通過詞向量技術(shù)獲得相似詞“風紋”、“云紋”以及“龍風紋”,但是也會出現(xiàn)一些噪聲詞,比如“紋飾”、“夔龍”,所以還需要進行人工篩選。

表4 詞向量相似詞擴展示例

借助已有領域詞庫構(gòu)建種子詞庫以及通過詞向量技術(shù)對種子詞庫進行擴充,最終得到15000 個文物領域的詞語,部分例子如表5所示。

表5 文物領域詞庫示例

4 算法框架

如圖1 所示,基于詞匯增強的典型文物命名實體識別算法可以分為輸入表示層、上下文編碼層以及標簽解碼層。輸入表示層采用SoftLexicon,上下文編碼層采用Lattice LSTM,標簽解碼層采用CRF,輸入表示層跟上下文編碼層都引入了詞匯信息,以增強命名實體識別模型鑒別詞邊界的能力。

圖1 基于詞匯增強的典型文物命名實體識別算法框架

5 實驗結(jié)果

本文分別對比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型(本文方法)。實驗結(jié)果如表6所示。

表6 實驗結(jié)果

對于Lattice LSTM 方法、SoftLexicon 方法以及本文算法,本文使用兩種詞典分別進行實驗,無‘*’標記符表示使用Lattice LSTM 提出的詞庫,‘*’標記符表示使用本文制作的文物領域詞庫。實驗結(jié)果表明,BERT+CRF 模型與BERT+BiLSTM+CRF 的效果差別不大,這是由于BERT 強大的上下文編碼能力可以提取出需要的信息,BiLSTM 只是在BERT 的基礎上選擇有效的信息進行處理。引入詞匯信息的方法有明顯的提升。輸入表示層SoftLexicon 和上下文編碼層Lattice LSTM 都引入詞匯信息優(yōu)于分別在兩層單獨引入詞匯信息的效果。

6 結(jié)論

為了解決文物領域數(shù)據(jù)構(gòu)詞特殊性導致實體邊界識別錯誤的問題,本文構(gòu)建了文物領域詞庫,并提出了一種基于詞匯增強的典型文物命名實體識別算法。首先,在輸入表示層采用SoftLexicon,引入詞匯信息;其次,在上下文編碼層采用Lattice LSTM,在輸入表示層的基礎上再次引入詞匯信息;最后,在標簽解碼層采用CRF解碼,獲取最終的標簽。實驗結(jié)果表明,使用本文構(gòu)建的文物領域詞庫,基于詞匯增強的命名實體識別方法在典型文物數(shù)據(jù)集上有較好的表現(xiàn)。

本文在構(gòu)建典型文物數(shù)據(jù)集時,主要數(shù)據(jù)來源于相關博物館官網(wǎng)的圖文對數(shù)據(jù),只對文本數(shù)據(jù)進行了算法處理。目前并沒有高精度的文物多模態(tài)命名實體識別數(shù)據(jù)集,未來會考慮在領域?qū)<业闹笇聦D文數(shù)據(jù)進行多模態(tài)標注,融合圖像文本信息,進行命名實體識別。

猜你喜歡
詞匯信息
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
本刊可直接用縮寫的常用詞匯
本刊一些常用詞匯可直接用縮寫
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 高清不卡一区二区三区香蕉| 国产91精品调教在线播放| 精品成人一区二区三区电影| 真人免费一级毛片一区二区| 九九热在线视频| WWW丫丫国产成人精品| 国产清纯在线一区二区WWW| 亚洲一级毛片在线观播放| 一级毛片在线免费视频| 亚洲嫩模喷白浆| 亚洲天堂区| 久久精品国产精品青草app| 亚洲一级毛片免费看| 在线观看无码a∨| av手机版在线播放| 国产成人综合日韩精品无码不卡 | 国产成人资源| 香蕉伊思人视频| 亚洲va精品中文字幕| 在线一级毛片| 福利视频久久| 日本国产精品| 亚洲二三区| 日韩在线2020专区| 国产精品天干天干在线观看| 国产成人精品第一区二区| 看国产毛片| 国产自产视频一区二区三区| 亚洲精品国产首次亮相| 国产成人综合亚洲欧美在| 国产在线精彩视频二区| 久久久久九九精品影院| 国产在线观看99| 色综合热无码热国产| 18禁不卡免费网站| 啪啪永久免费av| 综合色在线| 亚洲精品动漫| 91免费在线看| 99精品国产高清一区二区| 国产精品手机视频| 亚洲αv毛片| 丰满人妻中出白浆| 国产人人乐人人爱| 欧美午夜在线观看| 免费一级全黄少妇性色生活片| 99热最新在线| 欧美一级在线播放| 91精品国产91欠久久久久| 爆乳熟妇一区二区三区| 亚洲中文字幕av无码区| 国产成人无码播放| 精品夜恋影院亚洲欧洲| 国产区在线看| 久久精品人人做人人综合试看| 亚洲女同欧美在线| 久久永久视频| 免费一极毛片| 亚洲人成人无码www| 综合亚洲网| 国产不卡网| 国内精品久久人妻无码大片高| 国产精品亚洲а∨天堂免下载| 亚洲一级毛片免费看| 看国产一级毛片| 中文字幕第4页| 五月婷婷综合色| 日本a级免费| 国产精品无码一区二区桃花视频| 大陆国产精品视频| 美女内射视频WWW网站午夜| 热久久国产| 精品久久蜜桃| 伊人成人在线| 露脸一二三区国语对白| 国产电话自拍伊人| 亚洲精品大秀视频| 91黄视频在线观看| 成人无码一区二区三区视频在线观看| 九九免费观看全部免费视频| 日韩精品无码不卡无码| 一级毛片基地|