張鎮(zhèn)濤
摘要:知識圖譜自2005年被引入國內(nèi)以來,被廣泛應(yīng)用于資料整合、對外宣傳和智能化領(lǐng)域,給人們的生活生產(chǎn)提供了許多便利。本文將從知識圖譜介紹、知識圖譜發(fā)展歷程、知識圖譜關(guān)鍵技術(shù)及知識圖譜應(yīng)用四個方面進行概述。
關(guān)鍵詞:知識圖譜;語義網(wǎng);知識融合
1 知識圖譜的介紹
知識圖譜的前身為語義網(wǎng),是語義網(wǎng)逐漸發(fā)展的成果。知識圖譜以關(guān)系數(shù)據(jù)的知識庫為基礎(chǔ),通過對數(shù)據(jù)進行標注,確定關(guān)聯(lián)關(guān)系,構(gòu)造底層的知識結(jié)構(gòu)網(wǎng)絡(luò)。知識圖譜展現(xiàn)了現(xiàn)實中實體、概念、事件之間的關(guān)系,能夠?qū)χR庫中的內(nèi)容進行深層次語義分析,對數(shù)據(jù)進行深度挖掘,并結(jié)合目前的機器學(xué)習(xí)技術(shù)和自然語言處理技術(shù),為用戶提供智能搜索、興趣推薦及知識推理等功能。
知識圖譜力求將當今繁雜龐大的知識進行系統(tǒng)化、有序化的組織,在大數(shù)據(jù)的時代,有著無法替代的重要性。在網(wǎng)絡(luò)信息資源爆炸式增長的背景下,傳統(tǒng)的知識組織結(jié)構(gòu)松散,難以滿足用戶日益增長的對知識服務(wù)的需求和期望。而知識圖譜技術(shù)的誕生,適應(yīng)了用戶的認知需求,與傳統(tǒng)人工腦力進行的有關(guān)某學(xué)科領(lǐng)域發(fā)展的宏觀狀況相比,具有無比優(yōu)越的科學(xué)性、高效性、有效性。因此,知識圖譜的誕生也是一種必然。
2 知識圖譜的發(fā)展歷程
2.1知識圖譜起源
知識圖譜起源于加菲爾德1955年發(fā)表的一篇論文,該論文提出了將引文索引應(yīng)用于檢索文獻的思想,之后又由普賴斯提出了引用網(wǎng)絡(luò),從此將理論問題轉(zhuǎn)化成了一種可以解決實際問題的常用方法,進而催生出知識圖譜的概念。傳入中國后,楊思洛利用知識圖譜進行可視化分析,并開始進行國內(nèi)關(guān)于知識圖譜的一些應(yīng)用研究。
2.2知識庫的發(fā)展
1977年的第五屆國際人工智能會議首次提出知識工程與知識庫的概念。知識工程對知識進行存儲,進而實現(xiàn)用戶對相關(guān)數(shù)據(jù)的提取,如專家系統(tǒng)。與以往單一的數(shù)據(jù)庫相比,知識庫擁有了對知識結(jié)構(gòu)提取分析的功能,也就因此具備了一定的智能性,更加符合用戶的需求。可以說,知識庫的發(fā)展是知識圖譜的雛形。
2.3知識圖譜的形成
在知識庫的基礎(chǔ)上,隨著各種不同種類知識系統(tǒng)的不斷完善,知識圖譜應(yīng)運而生。知識圖譜的概念是2012年由谷歌公司最先提出,并運用于其搜索引擎業(yè)務(wù)中。雖然知識圖譜與知識庫在方法和理論上存在著一定的相關(guān)性和相似性,但這時的知識圖譜和最早用于科學(xué)文獻引用網(wǎng)絡(luò)的知識庫有了較大區(qū)別。
傳統(tǒng)的知識庫只存在于某一個特定學(xué)科或領(lǐng)域之中,僅僅包含對應(yīng)學(xué)科或領(lǐng)域內(nèi)的相關(guān)知識內(nèi)容,往往只能為獲得單一知識源的人們提供服務(wù),因此難以滿足大眾需要。而知識圖譜則跳出了狹隘的單一知識圈,力求打破界限,對不同學(xué)科、不同領(lǐng)域進行跨學(xué)科、跨領(lǐng)域的研究,使它的涉及范圍變得寬泛了許多。但這并沒有影響它對于特定學(xué)術(shù)問題進行精確精細的查詢,這得益于互聯(lián)網(wǎng)搜索引擎的高度發(fā)展。所以說,知識圖譜展現(xiàn)了目前幾乎所有領(lǐng)域的知識內(nèi)容,并體現(xiàn)出不同學(xué)科、不同領(lǐng)域之間關(guān)聯(lián)的一種圖形結(jié)構(gòu),具有直觀性的“圖”和系統(tǒng)性的“譜”的雙重性質(zhì)與特征。
知識圖譜在“圖”中包含所有知識庫的知識集合,在“譜”種包含日常生活中的各種事物,并囊括從古到今各個領(lǐng)域中的所有知識及其中的關(guān)聯(lián)關(guān)系,并隨著新知識的發(fā)現(xiàn)不斷更新。同時,知識圖譜成功地對知識本身與知識間的關(guān)聯(lián)進行了可視化的展現(xiàn),具有更為直觀、精確等諸多優(yōu)點,并在實際檢驗中取得了良好的效果。目前,知識圖譜已成為人們所信賴的一種簡便工具,也是眾多學(xué)科領(lǐng)域的研究熱點。雖然知識圖譜目前還沒有達到最理想的效果,但它的發(fā)展前景一片光明。
3知識圖譜關(guān)鍵技術(shù)
知識圖譜關(guān)鍵技術(shù)大致分為六個方面,即知識獲取、知識融合、知識存儲、查詢式的語義理解、知識檢索和可視化展現(xiàn)。眾所周知,知識庫的構(gòu)建是知識圖譜實現(xiàn)的核心,而這六個方面的技術(shù)則為知識庫的構(gòu)建提供支持。知識庫中存儲的內(nèi)容需要充分、廣泛的知識獲取以及深入的知識融合,知識庫融合的飽和程度將決定用戶進行查詢檢索時的效果。
3.1知識獲取與數(shù)據(jù)提取
知識圖譜作為一種查詢型引用系統(tǒng),第一步也是最有必要的一步就是圖譜中知識的來源。因此,知識圖譜的關(guān)鍵技術(shù)之一就是知識信息的獲取以及數(shù)據(jù)庫與知識庫的系統(tǒng)性構(gòu)建。知識圖譜的數(shù)據(jù)一般有兩個來源:互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)據(jù)與數(shù)據(jù)庫中的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。
從網(wǎng)頁上提取關(guān)鍵數(shù)據(jù),首先想到的是利用互聯(lián)網(wǎng)。互聯(lián)網(wǎng)經(jīng)過多年的發(fā)展,網(wǎng)頁中已存在著大量的知識數(shù)據(jù),因此,網(wǎng)頁中的數(shù)據(jù)是知識圖譜最主要的數(shù)據(jù)來源。一般性知識的獲取集中來源于各種百科類站點以及各種垂直站點的系統(tǒng)化數(shù)據(jù),根據(jù)一定可操作的選擇方法提取出領(lǐng)域相關(guān)的知識,并可以細化到包括主題下的細分知識及拓展一些相關(guān)類別知識等。同時,知識圖譜也可以從某些非結(jié)構(gòu)化或不完全結(jié)構(gòu)化的可視性數(shù)據(jù)中抽取事實和屬性類別,以豐富相關(guān)事物的描述,滿足不同的特定需要。
雖然百科類網(wǎng)站中具有很多的常規(guī)化知識,但無法完全支持知識圖譜的所有功能,結(jié)構(gòu)化與系統(tǒng)化程度較遜色的普通網(wǎng)頁也成為知識圖譜構(gòu)建的一大信息源。但是受自身一些缺陷的限制,網(wǎng)頁格式并不是完全統(tǒng)一的,這樣難免在提取的結(jié)果中包含大量重復(fù)和置信度低的信息,所以從網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)中抽取知識就具有一定的風險性。即便有包裝器進行模擬學(xué)習(xí)算法或者手動操作等補救措施,但這種方式仍可能遺漏用戶所需的知識,甚至抽取到錯誤的知識。
3.2知識融合
知識圖譜中的知識具有信息數(shù)量多、來源廣,知識質(zhì)量參差不齊、來自不同數(shù)據(jù)庫的知識內(nèi)容重復(fù)、知識間的關(guān)聯(lián)繁雜混亂等問題,所以知識融合在知識圖譜中顯得至關(guān)重要。知識融合是使來自不同信息源、不同體系的知識在同一框架規(guī)范下進行簡潔的數(shù)據(jù)整合、合理的重要度推算和恰當?shù)耐评硌苌炔襟E,使龐大的知識信息更加的條理化、系統(tǒng)化,以達到數(shù)據(jù)、信息、知識、方法、經(jīng)驗以及主觀思想的有機統(tǒng)一。整合異構(gòu)數(shù)據(jù)需要進行數(shù)據(jù)清洗、實體對應(yīng)、屬性值判斷以及合理關(guān)系的建立。知識融合的過程也可以簡化為知識實體挖掘,通過知識整合等技術(shù),把知識進行分類和具體呈現(xiàn)。
3.3知識存儲
無論是知識庫還是數(shù)據(jù)庫,最基本的功能之一就是對知識進行存儲和再現(xiàn)。知識圖譜的知識存儲依賴于互聯(lián)網(wǎng)技術(shù)中的海量數(shù)據(jù)存儲技術(shù),首先是對知識進行簡單的大容量儲存。在此前提下,利用該技術(shù)來系統(tǒng)、有序地管理大規(guī)模分散式的數(shù)據(jù)信息,并實現(xiàn)海量存儲系統(tǒng)大容量,高度科學(xué)性的知識存儲需求,最終形成可操作的知識體系。
3.4 查詢式的語義理解
不同的用戶有著千變?nèi)f化的查詢方式,知識圖譜中對于查詢式的語義理解這一環(huán)節(jié)直接決定著用戶查詢的結(jié)果。這一技術(shù)針對用戶不同的查詢式問題,通過科學(xué)語言處理,可以根據(jù)設(shè)置好的程序,如自然語言處理技術(shù)和人工智能,進行篩選和重組,分類理解查詢式,方便答案的正確反饋,最大程度上滿足用戶需求。
3.5知識檢索
知識檢索是基于用戶實際輸入的所需知識,在知識庫中針對實體的屬性與結(jié)構(gòu)進行知識關(guān)聯(lián),是語義檢索的智能化拓展,進而滿足多樣化的需求。
3.6可視化展現(xiàn)
知識圖譜中的大量知識信息過于抽象化,提取所需信息最后一步還需要可視化的展現(xiàn)。可視化展現(xiàn)不僅注重答案的精準,還應(yīng)考慮到不同的實際情況,進行內(nèi)容顯示精度、美觀度上的把握,關(guān)注頁面中的顯示細節(jié),考慮在多種設(shè)備上顯示的效果問題,以期獲得最大程度上的實用性。
4知識圖譜的應(yīng)用
4.1描述科研合作,促進科研管理收集數(shù)據(jù)
知識圖譜一旦形成,就可以利用其自身所具備的智能性和決策性進行全面分類和多維混合分析,合作得到不同科研結(jié)果之間的共鏈情況,并通過分析成果間的關(guān)系,發(fā)現(xiàn)本質(zhì)的科學(xué)聯(lián)系。分析科研管理收集的數(shù)據(jù),調(diào)整相關(guān)科研方向,進而快捷、客觀地找到發(fā)力點。
4.2在商業(yè)中的應(yīng)用
國內(nèi)幾大主流搜索引擎近兩年先后把基于語義搜索和知識圖譜的相關(guān)商業(yè)化產(chǎn)品轉(zhuǎn)向應(yīng)用。它們對海量互聯(lián)網(wǎng)碎片化信息進行智能化推理,從而對搜索結(jié)果進行優(yōu)化重組計算和抽取,把最貼合的知識展現(xiàn)給用戶。
4.3在電商平臺中的應(yīng)用
知識圖譜在電商平臺中的應(yīng)用主要體現(xiàn)為,針對用戶不同的查詢問題,通過信息檢索對相關(guān)商品進行文字描述、圖片展示、信息羅列等可視化的信息展現(xiàn),為消費者提供滿意的購物指南。通過知識圖譜提升電商平臺的實用性,并挖掘用戶的偏好進行相關(guān)數(shù)據(jù)統(tǒng)計。
5.小結(jié)
知識圖譜是當前人工智能領(lǐng)域中新興的學(xué)科與研究領(lǐng)域,涉及多個學(xué)科的理論與方法,雖然目前仍處于一種初級狀態(tài),但它在大數(shù)據(jù)處理的時代展現(xiàn)出顯著的優(yōu)勢,并且正快速地向其他學(xué)科領(lǐng)域滲透擴散。知識圖譜為人們提供了更為直觀的知識表現(xiàn)方式,將不同學(xué)科,不同領(lǐng)域的知識串聯(lián)在一起,實現(xiàn)了知識的關(guān)聯(lián)與融合。相信在未來,知識圖譜會發(fā)揮更大的作用。
參考文獻:
[1]曹倩,趙一鳴.知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應(yīng)用[J].情報理論與實踐,2015,38(12):127-132.
[2]李濤,王次臣,李華康.知識圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報(自然科學(xué)版),2017,41(1):22-34.
[3]廖勝姣,肖仙桃.科學(xué)知識圖譜應(yīng)用研究概述[J].情報理論與實踐,2009,32(1):122-125.
[4]陳悅,劉則淵,陳勁,等.科學(xué)知識圖譜的發(fā)展歷程[J].科學(xué)學(xué)研究,2008,26(3):449-460.
[5]李明鑫,王松.近十年國內(nèi)知識圖譜研究脈絡(luò)及主題分析[J].圖書情報知識,2016(4):93-101.
[6]楊思洛,韓瑞珍.國外知識圖譜的應(yīng)用研究現(xiàn)狀分析[J].情報資料工作,2013(6):15-20.