霍珊

摘要
在網絡信息時代到來的今天,大數據技術在諸多領域中得到越來越廣泛的應用,知識工程也隨之獲得人們的關注。對大數據進行分析的一個重要前提是從海量數據中提出有利用價值的信息,知識圖譜的出現為這一問題的解決提供了有利條件?;诖它c,本文從知識圖譜及其特點分析入手,論述了知識圖譜實現的技術流程。
【關鍵詞】知識圖譜 實現 技術流程
1 知識圖譜及其特點分析
知識圖譜是一個全新的概念,它是由全球最大的搜索引擎公司谷歌于2012正式提出的,這一概念的提出為搜索引擎智能化奠定了堅實的基礎。知識圖譜將多種學科理論與技術方法相結合,將具有復雜性的知識領域以圖形繪制的形式顯示出來,最終目的是對知識領域的動態發展規律進行揭示,為學科研究提供有價值的參考依據。知識圖譜的特點體現在如下幾個方面:
(1)當用戶對某個知識領域搜索的次數越多,查詢的范圍越廣,谷歌便可從中獲取到更多的信息;
(2)知識圖譜能夠賦予字串全新的意義;
(3)知識圖譜融合了大量的學科,保證了用戶對某個知識領域搜索時的連貫性;
(4)知識圖譜能夠為用戶找到更為準確的信息,通過總結可以使提供的信息內容更有深度;
(5)知識圖譜可將與關鍵詞有關的知識體系完整地呈現給用戶。
2 知識圖譜實現的技術流程
知識圖譜實現的技術流程如圖1所示。
2.1 信息抽取的關鍵技術
在知識圖譜的實現流程中,信息抽取是最為重要的前提和基礎,也是整個流程中的關鍵步驟,對后續流程的實現具有直接影響,從異構數據源中抽取構建知識圖譜所需的信息是該環節的重點內容,具體可以通過如下技術予以實現:
2.1.1 NER技術
NER即實體識別技術,也被稱之為實體抽取,它可以從文本數據集當中,對命名的實體進行自動識別。在實體識別過程中,抽取的實體準確率對知識的獲取效率及質量具有一定的影響。目前,較為常用的實體抽取方法有以下幾種:基于規則、基于統計機器、面向開放域。在上述三種方法中,基于規則的實體抽取,需要依賴于大量的模板,總體的覆蓋范圍相對較小,當數據出現變化時,無法滿足新的抽取需求;基于統計機器的實體抽取準確率約為70%;面向開放域是以已知的實體語義特征,對命名的實體進行大范圍搜索,再以聚類算法進行聚類,由此可進一步提升實體抽取的準確率。
2.1.2 關系抽取技術
對于不同的實體而言,存在著語義鏈接的問題,通過關系抽取技術能夠使這一問題得到有效的解決。目前,常用的關系抽取方法有以下幾種:基于開放式實體、基于聯合推理等。在基于開放式實體的關系抽取中,OLLIE在抽取結果的準確性方面效果最佳;基于聯合推理的關系抽取中,MLN是最為經典的一種方法,其能夠自動生成抽取器,在確保準確率的基礎上,還能大幅度提升召回率。
2.1.3 屬性抽取技術
該技術針對的主要對象為實體,借助相關的屬性能夠對實體進行完整地勾畫。在屬性抽取中,較為常用的方法有基于啟發式算法,它的抽取準確率較高,通常能夠達到95%以上。
2.2 知識融合的關鍵技術
通過信息抽取得到的結果中存在一定的錯誤信息,并且數據與數據之間的邏輯性略顯不足,所以需要對抽取到的信息進行整合處理。知識融合由兩個部分組成,一部分是鏈接,另一部是合并,經過融合以后,可將錯誤的信息從結果中剔除掉。
2.2.1 實體鏈接
這是一種將抽取到的實體與知識庫中對應的正確實體對象進行鏈接的操作過程,其中的核心技術為相似度計算。當存在同名實體時,會產生歧義的問題,此時可以運用實體消歧技術進行處理,即按當前的語境,通過聚類的方法建立準確的實體鏈接。該技術的應用可以使搜索引擎對用戶的搜索意圖進行更加準確的理解,給出更符合要求的結果,有助于搜索質量的提升。
2.2.2 知識合并
對知識圖譜進行構建的過程中,需要對外部知識庫和關系數據庫進行合并處理,在對外部知識庫進行本地融合時,主要是對數據層和模式層的融合,可以應用LDIF(開放數據集成框架)。而對關系數據庫進行合并時,則可應用RDF(資源描述框架)。
2.3 知識加工的關鍵技術
知識加工的主要作用是獲得結構化的知識體系,加工過程涉及三個方面的內容,即構建本體,對知識進行推理,對加工質量進行評估。在對本體進行構建時,可以借助計算機和相關的編輯軟件來完成;知識推理的常用方法有兩種,一種是基于邏輯,另一種是基于圖,當實體關系較為復雜時,可通過描述進行推理;質量評估是確保知識庫質量的關鍵環節,采用可信度修正的方法,能夠降低判斷信息正確或錯誤的不確定性,從而確保了知識的質量。
2.4 知識更新的關鍵技術
信息與知識量會隨著時間的推移而不斷增長,為使知識圖譜能夠始終滿足用戶的使用需要,就必須對其中的知識進行更新。在對知識庫進行更新的過程中,涉及兩個方面的內容,即概念層和數據層,可以借助百科類網站中的數據資源,將其中出現頻率較高的數據加入到知識庫當中,并由專業團隊對更新的內容進行審核,將不符合要求內容去除掉。
3 結論
綜上所述,知識圖譜作為一個涵蓋海量數據信息的知識庫,其可以為智能搜索提供強有力的支撐,由此為多個學科領域的深入研究帶來了機會。從知識圖譜出現至今,雖然只有短短幾年的時間,但卻使其成為業內專家學者研究的重點,這為知識圖譜的構建與應用奠定了堅實基礎。
參考文獻
[1]周麗娜,馬志強.基于知識圖譜的網絡信息體系智能參考架構設計[J].中國電子科學研究院學報,2018(08):78-79.
[2]郭琳面向Web數據的知識圖譜學習與推理關鍵技術研究[D].西安郵電大學,2018.
[3]張兆鋒,張均勝,姚長青.一種基于知識圖譜的技術功效圖自動構建方法[J].情報理論與實踐,2017(11):121-122.