999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的廣西非遺知識圖譜構建

2024-01-03 08:42:00李宏杰
現代計算機 2023年21期
關鍵詞:模型

李宏杰,黃 薇,王 奔

(1. 廣西民族大學人工智能學院,南寧 530006;2. 廣西民族大學電子信息學院,南寧 530006)

0 引言

知識圖譜從被提出至今,已經被各行各業廣泛關注和使用[1]。知識圖譜模仿人類推理和解決問題的方式,通過圖表示節點、邊表示節點間的關系來表示知識,從知識圖譜所存儲的知識中獲得解決更復雜問題的能力[2-3]。作為一種結構化的知識形式[4],知識圖譜是一種語義圖,用于表示知識,在各界都得到了廣泛應用。知識圖譜所表示的語義結構化信息特性為許多任務提供了潛在的解決方案,包括問答、推薦和信息檢索,并且許多研究人員認為有更大的發展前景。自“大數據”一詞出現以來,知識圖已經在各個場景和領域得到運用[5]。知識圖譜的應用和構建是兩個重要的研究方向。構造技術的研究側重于圖中知識的提取、表示、融合和推理[6],例如從非結構化文本中提取實體和關系后,將它們正確地連接到知識圖譜,并從這些知識圖譜中推理新的事實。而應用研究則側重于將知識圖譜應用于實際系統和特定領域。知識圖譜作為語義網的數據支撐,近年來成為了研究與應用的熱點問題。知識圖譜將實體表示為節點,實體與實體間的關系表示為節點間的邊,從而形成了一個巨大的知識網絡[7]。

廣西壯族自治區擁有秀美的自然風光資源,豐富的風土人情文化,孕育出燦爛的的非物質文化遺產項目文化和優秀的非物質文化遺產傳承人。廣西擁有著豐富的非物質文化遺產資源,是廣西乃至全國的文化瑰寶,但在傳播與宣傳上存在著明顯的不足,傳播形式不夠多元[8],保護措施不夠完善等。

目前,雖然已有結構化的廣西非物質文化遺產數據,但是仍存在著大量的非結構化數據未被利用與挖掘。從非結構化數據中抽取信息是廣西非物質文化遺產知識構建的一個巨大挑戰。無論是使用基于規則或基于語法等傳統的自然語言的方法都無法準確地從非結構化數據中抽取知識,因此,本文基于BERT模型對非結構化數據進行實體與關系抽取,從而從非機構化數據中準確抽取知識[9-10]。

1 構建廣西非遺知識圖譜

1.1 分詞

中文文本處理的一大難點在于分詞處理,但在特定領域下的中文分詞,無論是精準模式、全模式、搜索引擎模式下的jieba 分詞模式,非遺數據的分詞效果都不理想,見表1。

表1 jieba分詞效果

由于非遺名稱以及非遺數據中的一些詞匯并非通用詞匯,在jieba 原始詞典中并沒有關于非遺領域的詞,導致了使用jieba 分詞后有些實體并沒有被精準地切分出來。分詞的效果會直接影響實體的提取以及最終知識圖譜的構建效果。因此簡單的分詞方法已不適用于非遺數據文本處理。

1.2 詞性標注

詞性標注的方法分為基于規則的詞性標注方法和基于統計的詞性標注方法,基于統計的詞性標注方法主要有隱馬爾科夫模型(HMM)[11]。該模型可以由隱藏狀態序列生成觀測序列。利用該模型進行詞性標注,見表2[12]。

表2 jieba詞性標注

1.3 基于BERT的命名實體識別

由于分詞和詞性標注方法都無法把實體抽取出來,因此,本文使用基于BERT模型的命名實體識別方法對文本中的實體進行抽取。首先,需要把每一個詞轉換成詞向量,這樣做是為了把每一個單詞轉換成可用于計算機計算的向量。獨熱編碼、Word2Vec 和Glove 都是傳統的詞向量模型,但這些詞向量模型僅僅只是把低維的向量影射到更高維的向量空間中,并沒有很好地表現詞與詞之間的關聯。本文使用BERT模型作為詞向量的生成模型,BERT 模型參考上下文信息,相對于其它模型而言可以解決一詞多義的問題。

BiLSTM 模型被廣泛應用于自然語言處理任務中,它的出現代表著LSTM 有更大的改進,更好地解決了卷積神經網絡中梯度消失或梯度爆炸的問題。BiLSTM 層由雙向的LSTM 層組成,即前向和后向的LSTM 層,因此該模型能夠更加精確地獲取上下文信息。基本的LSTM 單元由遺忘門、輸出門、輸入門和記憶單元組成,之間的橫向箭頭被稱為單元狀態,它就像一個傳送帶,可以控制信息傳遞給下一時刻,它保存了每個神經元的狀態。通過門控機制控制信息傳遞的路徑。

BERT-BiLSTM-CRF 模型由詞嵌入層、雙向注意力機制網絡層和條件隨機場層組成。本文采用BIO 標注形式對非遺數據進行數據標注,B表示實體詞的開始字符,I 表示實體詞的其余字符,O 表示與實體無關的字符。先使用BERT 模型預訓練文本字向量,然后通過雙向LSTM 層學習上下文特征,輸出層通過softmax 預測各個標簽的概率,最后通過CRF 模型得到序列標簽,至此就完成命名實體識別任務。命名實體識別預測結果見表3。

表3 命名實體識別預測結果

1.4 關系抽取

關系抽取是抽取兩個實體之間的支配關系,它是關系詞(如:是、位于、所屬等級等)與其否定詞的集合,否定詞也是兩實體之間的一種支配關系。在命名實體識別任務中,識別出句子中廣西非遺項目名和其它實體名,并按照先后順序進行排序。從構建好的關系詞表中抽出關系R 與詞庫中的關系詞進行對比,若關系詞未在詞庫中,則使用詞庫中最相似的詞作為該詞的替換。此時便完成實體間關系的抽取。

至此就完成了廣西非遺知識圖譜構建,知識圖譜構建步驟如圖1所示。

圖1 知識圖譜構建步驟

2 廣西非遺知識圖譜展示

圖2為廣西非遺知識圖譜總圖,我們成功從文本信息中抽取了實體間地域、時間、類別、級別等關系信息,并將數據存儲于Neo4j圖數據庫中。圖3為廣西非遺知識圖譜中部份數據的類別關系。圖4為廣西非遺知識圖譜位置關系圖。

圖2 廣西非遺知識圖譜總圖

圖3 廣西非遺知識圖譜類別關系

圖4 廣西非遺知識圖位置關系圖

3 結語

知識圖譜作為一種人工智能的重要部份,越來越被廣泛地運用到各行各業中。由于廣西非物質文化遺產數據領域特殊,詞匯和表達與日常用詞存在比較大的差異,在該領域的應用研究尚有不足,非遺數據間的時空關聯性不強。廣西非遺知識圖譜的構建為廣西非遺資源保護和傳承提供了新的方向。本文對知識構建和知識存儲進行了分析,但對廣西非遺知識圖譜構建與應用研究還比較淺顯,有待進一步完善。如何把知識圖譜可視化呈現出來,從知識圖譜中挖掘更多的信息,靈活應用知識圖譜將是以后研究的重點。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久受www免费人成| 在线不卡免费视频| 日日拍夜夜嗷嗷叫国产| 精品無碼一區在線觀看 | 国产成人高清精品免费软件| 亚洲人成网站色7799在线播放 | 波多野结衣一区二区三视频| 综合色88| a在线观看免费| 久久久久免费看成人影片 | 99久久国产综合精品2023| 成人毛片免费在线观看| 日韩123欧美字幕| 色香蕉影院| 毛片在线区| 国产成年女人特黄特色毛片免| 国产手机在线ΑⅤ片无码观看| 亚洲欧美在线精品一区二区| 亚洲精品成人福利在线电影| 中文字幕av无码不卡免费 | 狠狠做深爱婷婷综合一区| 波多野结衣无码视频在线观看| 色婷婷成人网| 91视频99| 午夜电影在线观看国产1区| 久爱午夜精品免费视频| 国产一级毛片网站| 国产丝袜无码精品| 国产女同自拍视频| 成人亚洲视频| 国产精品永久在线| 九九久久精品国产av片囯产区| 国产在线小视频| 婷婷亚洲最大| 久久国产高潮流白浆免费观看| 91久久青青草原精品国产| 亚洲欧美日韩精品专区| 久久免费观看视频| 欧美中文字幕第一页线路一| 欧美97欧美综合色伦图| 日韩欧美91| 毛片网站在线看| 国产福利影院在线观看| 欧美激情视频一区二区三区免费| 国产精品吹潮在线观看中文| 天堂成人av| 伊人AV天堂| 三区在线视频| 少妇高潮惨叫久久久久久| 欧美激情二区三区| 最新国产你懂的在线网址| 丝袜高跟美脚国产1区| 久久久久亚洲Av片无码观看| 国产三区二区| 一级片一区| 五月婷婷欧美| 国产日韩欧美视频| 亚洲水蜜桃久久综合网站| 性色生活片在线观看| 成人免费一区二区三区| 国产欧美精品一区二区| 中文国产成人久久精品小说| 爱色欧美亚洲综合图区| 91精品啪在线观看国产91| 国产精品成人免费视频99| 狠狠操夜夜爽| 亚洲香蕉久久| 国产一级视频久久| 色偷偷一区| 精品国产美女福到在线不卡f| 国产国产人免费视频成18| 亚洲一级色| 米奇精品一区二区三区| 九九九精品成人免费视频7| 欧美日韩国产在线播放| 三上悠亚精品二区在线观看| 亚亚洲乱码一二三四区| 伊人成人在线| 99视频只有精品| 天堂亚洲网| 久久综合伊人 六十路| 日韩色图区|