999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文檔知識圖譜構建及智能檢索

2022-09-07 04:06:02盧卓君
信息記錄材料 2022年7期
關鍵詞:語義融合模型

盧卓君

(湖南省交通規(guī)劃勘察設計院有限公司 湖南 長沙 410008)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,文檔數(shù)量急劇增加。但文檔間存在著關聯(lián)性較弱,查找不便,知識管理難的問題。此外,文檔數(shù)據(jù)和其他數(shù)據(jù)相互隔離,而無法融合其他知識庫的知識。另外,傳統(tǒng)的文檔數(shù)據(jù)維度單一,進行文檔檢索時,除了文本內(nèi)容外,可利用的其他信息很少。如何從海量文檔中快速、準確地檢索出想要的文檔已成為國內(nèi)外研究的熱點。

基于語義網(wǎng),Google于2012年提出了知識圖譜[1]的概念。它是一種以語義網(wǎng)絡圖來描述知識和構建各種事物之間關聯(lián)關系的技術方法,基本組成單位為<實體,關系,實體>三元組以及<實體、屬性、屬性值>對。因其強大的知識語義處理和組織能力,知識圖譜成為語義搜索、智能推薦[2]、大數(shù)據(jù)分析[3]等領域的研究熱點。其構建過程見圖1。

知識抽取:從非結(jié)構化和半結(jié)構化的數(shù)據(jù)中抽取出實體、關系和屬性等結(jié)構化信息,并形成本體化的知識表達。

知識融合:將從不同來源得到的同一實體或概念的描述信息融合起來[4],形成全局統(tǒng)一的知識標識和關聯(lián)。

知識加工:主要包括本體構建、質(zhì)量評估等。通過構建本體能夠?qū)哟吻逦孛枋鲋R庫的概念層次體系。質(zhì)量評估則是對知識圖譜知識進行置信度評估,從而保證知識圖譜總體質(zhì)量。

本文以文檔為出發(fā)點,構建文檔知識圖譜,通過圖譜方式表達知識與實體及實體與實體間的關聯(lián)關系,解決了文檔間相互孤立、不規(guī)范、零散性等問題。為提高檢索性能,設計了基于文檔知識圖譜的智能檢索模型(Document Knowledge Graph Intelligent Retrieval,DKGIR)。

1 文檔知識圖譜構建

文檔知識圖譜構建是本文的核心方法之一,具體流程見圖2。本文開發(fā)了統(tǒng)一的文檔適配器模塊;采用BERT-BiLSTM-CRF等技術進行關鍵詞、實體、關系等知識的抽取;通過實體鏈接等技術進行本體融合和實體對齊,進而達到與業(yè)務知識圖譜進行融合,最終形成融合的知識圖譜。

1.1 知識建模

本文采用自頂向下的方式構建模式層,模式層定義了文檔實體、屬性以及實體間的關系,見表1、表2;采用自底向上的方式通過文檔適配、知識抽取、知識融合等環(huán)節(jié)構建數(shù)據(jù)層。

表1 實體類型與屬性

表2 三元組關系()

1.2 文檔適配

文檔類型多種多樣,本文基于Python搭建了文檔適配器模塊,對常用的文檔類型進行了針對性解析,并支持擴展其他類型的文檔解析。

1.3 知識抽取

(1)本文對于不同類型文檔的標題和正文,制定了不同的抽取策略,見表3。

表3 不同文檔類型的標題和正文的抽取策略

組合規(guī)則如下。

①目錄提取:規(guī)則1,匹配目錄的開頭字符“目錄”;規(guī)則2,根據(jù)換行符或特征字符n個“.”提取目錄中的標題,根據(jù)標題命名規(guī)律提取標題等級;規(guī)則3,根據(jù)特征字符“.”或規(guī)則2提取的第一個標題匹配目錄的結(jié)尾,去除文本中目錄部分;規(guī)則4,根據(jù)規(guī)則2提取的標題到剩下的正文中匹配相應的標題和其對應的正文,若沒有匹配到目錄則轉(zhuǎn)②。

②根據(jù)標題的命名規(guī)律制定了標題提取模板,其正則表達式為:“[0-9.]{2,}|[第一二三四五六七八九十0-9篇章節(jié):]{2,}”,剩下的工作與①同,并根據(jù)特征字符“.”出現(xiàn)的次數(shù)區(qū)分標題的等級,若沒有提取出標題則轉(zhuǎn)③。

③按換行符對文本進行切分,并將所有切片文段作為正文。

(2)對于關鍵詞抽取,首先對文本分詞后選擇詞性為名詞、動詞的詞,然后計算詞的TF-IDF值,選擇高于閾值的作為關鍵詞。

(3)實體抽取的方法包括基于規(guī)則的方法、基于統(tǒng)計學習的方法,基于神經(jīng)網(wǎng)絡的方法。本文基于BIO標注法,采用BERT-BiLSTM-CRF模型進行實體抽取。該模型見圖3。

(4)知識抽取后,依據(jù)不同的關系類別對知識按照三元組的方式進行分類保存,并將實體和關系導入到orientdb圖數(shù)據(jù)庫中。

1.4 知識融合與存儲

知識融合包括本體融合、實體對齊和知識合并等。針對本體融合,采用編輯距離的方法;針對實體對齊,采用實體鏈接技術,在記錄鏈接時采用余弦相似度;針對知識加工,主要基于模式層進行本體的構建,利用orientdb圖數(shù)據(jù)進行知識存儲。為了提高檢索速度,針對不同的場景建立了不同的索引機制,見表4。

表4 索引類型與場景

其中e1、e2為實體。

2 文檔智能檢索方案

本文基于知識圖譜,利用實體信息,借助word2vec等技術,通過對查詢項進行擴展、對查詢意圖進行解析等方式,提出了基于實體和關鍵詞增強表示的DKGIR模型,實現(xiàn)了文檔的智能檢索,達到了更好、更快地為用戶檢索并提供更精準、更有效的檢索結(jié)果。其流程圖見圖4。

2.1 查詢意圖識別

意圖識別是識別用戶輸入的檢索內(nèi)容的真正意圖,首先得進行意圖解析,具體是指利用實體識別方法從用戶輸入的文本中識別出概念實體,從而得到用戶輸入查詢和文檔的實體序列表示。

2.2 實體抽取

本文利用AC自動機字符串搜索算法對用戶輸入進行實體識別。基于業(yè)務知識庫和專業(yè)詞庫建立Tree實體樹,對用戶輸入進行檢索識別,識別結(jié)果可能并不唯一,比如輸入“糖尿病足的治療方案”,由于Tree實體樹建立時導入了“糖尿病”和“糖尿病足”,因而兩者都會被識別出來。對此,本文會對檢索結(jié)果進行前綴和后綴判斷,選擇最長的匹配結(jié)果,即選擇“糖尿病足”。

2.3 查詢擴展

本文查詢擴展包括關鍵詞查詢擴展和實體查詢擴展。本文從知識圖譜中抽取結(jié)構信息,使用Word2vec的Skipgram模型將圖譜中的實體表示為空間向量形式,該模型見圖5;采用余弦相似度計算查詢項和擴展項的相似度,從而在知識圖譜語義空間獲得查詢的擴展項;在尋找擴展項時,針對實體查詢擴展會檢測擴展項對應文檔的標簽數(shù),若擴展項對應的標簽數(shù)越多,說明擴展項的標簽純凈度越低,檢索時越易產(chǎn)生跨標簽的檢索結(jié)果,進而導致檢索結(jié)果越偏離。定義標簽純凈度為,見式(2)。此外,通過指定閾值來控制擴展項的質(zhì)量以緩解語義漂移現(xiàn)象。

其中l(wèi)ables為擴展項對應的標簽數(shù)。

2.4 文檔檢索

文檔檢索分為基于實體及其擴展的檢索和基于關鍵詞及其擴展的檢索。

2.4.1 基于實體及其擴展的檢索

首先遍歷文檔集,對于每篇文檔,統(tǒng)計實體的頻次及實體出現(xiàn)的文檔數(shù)。其次,對實體進行擴展時,去除相似度低于閾值的實體,保留實體的相似度以及統(tǒng)計擴展實體的標簽數(shù)。

2.4.2 基于關鍵詞及其擴展的檢索

檢索內(nèi)容中非實體部分稱為關鍵詞,比如“糖尿病足的治療方案”,“糖尿病足”為實體,“治療方案”為關鍵詞。在關鍵詞擴展時只保留大于閾值的擴展關鍵詞。

本文基于1.4小節(jié)的索引機制查詢相關文檔。此外,本文對于文檔不同部分的特征,針對關鍵詞查詢和實體查詢賦予了不同權重,見表5。

表5 文檔不同部分特征對于關鍵詞查詢和實體查詢的權重

為度量查詢實體和文檔實體的類型信息,本文會在實體詞頻統(tǒng)計時考慮類型是否匹配。計算查詢實體出現(xiàn)在文檔dj的次數(shù),如式(3)所示。

其中path為label間的最短路徑長度,長度越短,說明label越相關,對應實體的相關度也越高。

實體的文檔權重與共享的文檔數(shù)量負相關,因此引入實體的文檔權重項f(·),如式(5)所示。

其中ND表示文檔集合數(shù)目,ne表示實體e出現(xiàn)的文檔數(shù)。

因而,實體檢索的特征得分函數(shù),如式(6)所示。

2.5 排序算法

本文采用擴展項的計算方法與查詢項的計算方法一致,原始檢索得分與擴展項檢索得分加權求和并乘以權重的方式得到最后的排序得分,公式如下:

其中代表實體的權重;a代表實體的標簽純凈度,參考式(2);θ代表擴展實體的相似度,參考式(1);w為查詢權重,k的取值為特征數(shù),特征和查詢權重見表5;g(e)參考式(6);Ⅱ為指示函數(shù),判斷查詢項是否在文檔對應的標題、關鍵詞或正文里。

3 實驗與評估

本文使用數(shù)據(jù)集Explicit Semantic Ranking(本文簡稱ESR,http://boston.lti.cs.cmu.edu/appendices/WWW2016/)作為基準數(shù)據(jù)集。

本文采用NDCG@k和Precision@k兩項信息檢索中常用的評價指標來評估本文提出的模型的性能,實驗中k取20。

本文主要對滑動窗口大小size、實體權重、標題、關鍵詞、正文的查詢權重進行調(diào)參,使用網(wǎng)格搜索和5-折交叉驗證的方式進行參數(shù)調(diào)優(yōu),選擇最大化NDCG@20的參數(shù)值,最終各個參數(shù)的設置見表6。

表6 各參數(shù)設置

本文選取BM25模型、查詢似然模型(Query Likehood Model,QL)[5]作為基準模型,實驗結(jié)果見表7。由表6可知,在NDCG@20和Precision@20這兩項指標上,本文提出的模型優(yōu)于兩個基準模型。出現(xiàn)上述結(jié)果的原因,一則在于本文提出的方法充分利用了文檔知識圖譜的強大語義表征能力及文檔圖譜的互聯(lián)和依賴關系;二則在于充分利用了關鍵詞、查詢實體間的依賴關系及擴展項,擴展項基于知識圖譜直接編碼了整個圖譜上的關系信息,能有效過濾實體表示學習中的噪聲信息,緩解了查詢不匹配及信息不完整等問題,且在查詢的過程中充分考慮了實體的標簽,標簽的純凈度及實體標簽之間的關聯(lián)度等信息,能夠捕捉更豐富的語義信息,使得相關度高的文檔排名更靠前,而另外兩種模型并未考慮,這也充分說明了本文提出模型的有效性。

表7 實驗結(jié)果

4 結(jié)語

隨著網(wǎng)絡的普及,如何從海量的文檔中快速、準確地檢索出想要的文檔是近年來的熱門研究。本文基于知識圖譜技術,提出了構建文檔知識圖譜的方法,并在此基礎上,充分考慮了關鍵詞、實體、實體間關聯(lián)關系、依賴關系、實體的標簽信息等因素,對關鍵詞和實體在知識圖譜上進行語義擴展,并結(jié)合文檔本身的結(jié)構特征,提出了基于文檔知識圖譜的智能檢索模型DKGIR模型。并在公開數(shù)據(jù)集ESR上進行了對比實驗,實驗證明本文提出的模型對于文檔檢索具有有效性,對文檔檢索具有一定的實用價值。

猜你喜歡
語義融合模型
一半模型
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
重要模型『一線三等角』
《融合》
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
主站蜘蛛池模板: 亚洲国产91人成在线| 四虎永久在线| 国产成人亚洲综合A∨在线播放| 蜜桃臀无码内射一区二区三区| 毛片在线看网站| 国产一级毛片在线| 久久综合丝袜长腿丝袜| 91蝌蚪视频在线观看| 日韩在线第三页| 午夜福利网址| 香蕉伊思人视频| 日韩精品亚洲精品第一页| 国产91特黄特色A级毛片| 亚洲国产成人在线| 国产一区二区三区精品久久呦| 日本妇乱子伦视频| 全裸无码专区| 亚洲精品成人7777在线观看| 亚洲国产系列| 国产aaaaa一级毛片| 国产99免费视频| 免费观看男人免费桶女人视频| 67194亚洲无码| 无码国产伊人| 九色最新网址| 国产免费黄| 国产在线视频自拍| 久久毛片基地| 极品国产在线| 亚洲中文字幕久久精品无码一区| 老司国产精品视频91| 亚洲一级色| 色呦呦手机在线精品| 97精品久久久大香线焦| 99视频只有精品| 青青热久免费精品视频6| 国产亚洲欧美另类一区二区| 亚洲色无码专线精品观看| 免费久久一级欧美特大黄| 2020国产免费久久精品99| 国产全黄a一级毛片| 免费在线观看av| 野花国产精品入口| 亚洲天堂在线免费| 久久精品66| 最近最新中文字幕在线第一页| 国产精品欧美在线观看| 中文字幕在线不卡视频| 色妺妺在线视频喷水| 亚州AV秘 一区二区三区| 在线精品视频成人网| 亚洲欧美日韩久久精品| 九色在线观看视频| 亚洲区第一页| 亚洲第一成年免费网站| 中文精品久久久久国产网址 | 国产一在线观看| 精品国产www| 狠狠色香婷婷久久亚洲精品| 91精品在线视频观看| 欧美翘臀一区二区三区| 97国内精品久久久久不卡| 一级全免费视频播放| 在线亚洲小视频| 波多野结衣一区二区三区四区视频| 国产好痛疼轻点好爽的视频| 99在线视频精品| 国产成人精品免费av| 国产成人综合亚洲网址| 亚洲成a人片在线观看88| 亚洲成年网站在线观看| 日韩精品一区二区三区大桥未久| www.youjizz.com久久| 欧美国产综合视频| 97se亚洲综合在线韩国专区福利| 国产精品久久久久久久久久久久| 又黄又湿又爽的视频| 国产一区二区三区夜色| 免费高清毛片| 亚洲精品福利视频| 波多野结衣在线一区二区| 欧美a√在线|