高國偉 梁力琛 李永先 郭琪

摘要:網絡大數據中包含著海量的知識資源,這些資源在知識服務的過程中發揮著極其重要的作用。如何從多源異構的海量數據中準確地提取知識并加以有效利用成為當前知識服務的熱點問題。本文以當前大數據背景下知識融合研究現狀為出發點,對當前知識融合領域內的相關文獻資料進行分析,從傳統的知識融合的理論結構、關鍵技術、學科或領域間的交互運用入手,歸納并總結知識融合的理論方法與框架模型,從而探討大數據環境背景下的知識融合研究的新進展以及對未來做出展望,同時在此基礎上進行評述,以期為該領域更為深入的發展提供參考。
關鍵詞:大數據;知識融合;知識服務
伴隨著互聯網技術的不斷普及和創新,大數據時代逐漸走進我們的視野。大數據不僅是一種實用性很強的分析工具,而且也是一種重要的思維方式。但大數據為我們帶來許多積極影響的同時也面臨著眾多亟待解決的問題。在大數據背景下,知識庫的容量不斷被豐富,如何讓所得知識得到最大化利用就成為了現階段知識學科需要面對的頭等問題。為了突破這個難點,相關知識領域的專家學者提出了“知識融合”這一概念并對其進行了深度研究。不斷地促進和發展相關理論與技術,從而達到解決問題的目標。
知識融合是一門交叉學科,它通過對多元異構的分布式知識進行組織提取,以知識需求作為最終目的對知識進行轉化融合等過程,從而獲取高效、高價值的新知識。自20世紀90年代以后知識融合概念進入學術界以來,國內外的眾多學者對知識融合問題開展了多方面的研究,綜合現階段的知識融合領域相關文獻,可以發現當前的研究重點主要在融合算法和體系建設兩方面。知識融合的相關文獻在不斷的增長,但還未有一個相對全面的的研究綜述和系統歸納。
本文通過對當前知識融合領域的相關文獻期刊進行分析,并分別從知識融合的理論結構、融合算法、學科或領域間的交互應用等方面進行歸納總結,并對知識融合的未來發展提出了展望,以期為知識服務的相關研究提供一些借鑒和參考。
1、知識融合的研究概況
我們在中國知網數據庫中,限定主題詞為“知識融合”進行模糊檢索,結果得到文獻總數5732篇。再對檢索結果進行可視化計量分析。由此得到圖1的知識融合共現圖譜。
通過圖1的共現圖譜,我們可以發現大數據,知識服務,知識融合,知識表示這四個主題之間聯系密切。知識融合作為知識管理的主要內容,已經成為知識管理中極其重要的一個環節,對于實現知識的有效利用有著重要作用。而數據到信息再到知識這一過程則體現了前三者之間的相互依存關系,缺一不可。
在關鍵詞分布中,我們可以發現在本主題中用知識融合做關鍵詞的文獻所占比重高居所有結果中的第二位,這說明知識融合已經是融合領域特別是知識學科的一大研究熱點。再從學科分布情況來看,知識融合涉及到的學科眾多,分布廣泛,在教育學和圖書情報學領域研究較多,也同樣是這兩個學科的研究熱點之一。
2、知識融合的理論發展
在大數據背景下,知識的內容和來源極其豐富多樣,多元化的知識具有更加廣泛的深度,也因此更難以利用處理。但通過知識融合的相關理論方法卻可以對其進行提取和利用,從而構建一個更為完整且可信度更高的知識體系,而提升知識服務的整體質量。但因為各學科對這一新興概念的解釋存在著不同的立場,含有一定的學科特色,所以到目前為止,學術界對知識融合這一概念并沒有形成一個相對統一的定義或解釋。
國外學者A.Preece認為知識融合“是從多種異構源中定位并獲取知識且對所獲知識進行轉換的過程,從而可以將這種結果運用于相關知識問題的求解。”在這個結論中我們發現A.Preece關注知識融合過程中的三個要素,即如何去定位知識,提取知識,對知識進行轉換。最后再對獲取到的結果進行融合利用,解決實際問題。而另一位學者A.Smirnov則認為“知識融合的目標是產生新的知識,將松耦合來源的知識集成,從而構成一個合成資源,用來彌補不完全的知識[2]”,該觀點與A.Preece所提觀點又有所不同,體現在知識融合的結果不同,前者是為了彌補不足的知識,后者則是著重于解決問題。
上述觀點主要是對知識融合的內涵進行歸納總結,此外還有對知識融合的體系構架的描述,例如著名的KRAFT理論,此理論的重點在于描述知識融合相關元素和它們之間的關系以及各元素之間的相互作用等。A.Nikolov等人提出了知識融合系統KnoFuss,該系統提供了面向子任務的方法,而且可以從中選擇更為正確的方法。
通過以上分析,雖然各個學者對于知識融合有著不同的看法和出發點,但其本質都是一樣的,都是為了使知識最大化程度利用。據此,我們認為,知識融合就是在大數據背景下,從異構數據源出發,運用語義規則等相關技術,對知識進行獲取和轉換以得到其中的相關關系,并由此創造出新知識,用以解決知識服務所面臨的各種問題。
3、知識融合的關鍵技術
3.1融合算法
在知識融合的過程中,如何運用相關技術對知識進行提取整合是極其重要的一步。在語義規則方面,E.Gregoire在邏輯規則中引入一種新的語義規則來融合異源知識,這種方式在于處理相互沖突或不完整的信息,并減少對于融合公式的遺漏。在貝葉斯網絡方面,E.Santos將數學概率模型作為貝葉斯理論的基礎,從而提出融合算法。這主要有三個過程,即概率獲取、融合處理和最佳決策。D-S理論又被稱為證據組合理論,它是對貝葉斯論的進一步發展,結果可以直接表示為“不知道”或“不確定”。今天學界廣泛使用的理論是由Dempester所提出的并做了進一步完善。該理論通過獲取不同結果間的信任函數,再根據所提供的組合規則將所得函數融合,最后來判斷組合后的函數,以此來確定最優決策。模糊集理論建立在證據理論知識基礎上,進一步放寬了概率論方法的限制條件。模糊集理論的方法可以處理不精確的知識,對開放網絡知識的評估非常有效。
此外,在國內的關鍵技術研究中擴展到了交叉學科。例如,緱錦提出基于遺傳算法的知識融合算法;蔣黎黎等提出基于粒度計算理論的知識融合模型。由此可見,國內對于知識融合算法更為具體和廣泛,也有了一定程度的綜合運用,但主要還停留在理論層面,并未進行更為深層的發掘。
3.2框架與模型
國內學者徐賜軍、李愛平等提出了基于本體的知識融合框架,有利于控制知識融合結果的規模,提高了知識的語義相關性和準確度。其中涵蓋了如何構造元知識集、確定測度指標、設計算法和反饋處理等核心功能。此外,林海倫、王元卓等以開放知識網絡OpenKN作為網絡大數據知識統一表示和計算的框架,總結了面向大數據背景的知識融合框架模式。該框架自下而上包含數據收集、知識獲取和知識融合功能。
通過上述分析,我們發現建立一個合適高效的知識融合框架有利于管理知識融合的結果,提高知識的語義相關性,除此之外還能通過相關的評價方法獲取更為精準的知識,從而構建一個實用的框架來解決實際問題。目前來看,知識融合的相關算法和系統框架的研究已經有了一定的成果,但在越來越復雜的網絡大數據背景下,知識融合仍將會是一項極具挑戰的工作,知識融合相關技術仍然存在著諸多缺陷,還有大量問題亟待解決。例如,網絡大數據因為其高度動態性,就要求知識評估具有實時性的特點;實體擴充和大規模異構分類體系的擴充方法能夠面對更為廣泛的領域發揮作用等。
4、學科領域間的交互運用
通過綜合國內外知識融合研究文獻的學科分布情況,我們發現知識融合相關研究最主要集中在“計算機科學”、“經濟管理學”和“圖書情報學”這三個領域。
早期知識融合主要由軍事領域發展而來,隨著計算機網絡飛速發展和大數據時代的到來,知識融合的應用領域不斷的擴大,更多的被應用于諸如云計算、物聯網等相關應用上。同時伴隨著知識學科的深入發展,知識庫中的知識轉化、知識庫的構建和知識圖譜等都需要更為高效的知識融合技術。
謝能付提出了面向基于農業本體的知識融合框架,用于解決知識服務所面對的精度低、冗余等問題,并運用實例進行分析,發現知識融合可以有效解決農業知識領域在此方面的不足之處;國外學者GeE等利用知識融合分析了H5N1禽流感,整合了多學科來分析傳染病的流行因素。
我們發現,在上述知識融合各領域運用的有關情況是知識學科近年來的熱點問題,但大部分主要還是構建模型,距離真正運用到實際中還有待發展。在互聯網行業中,知識融合則是取得了較大的進展,一些企業對于數據挖掘和知識融合已經有了不錯的成功經驗,如維基百科、谷歌知識圖譜等。
5、存在問題及未來的發展趨勢
過去十多年來學界針對知識融合的體系架構、技術方法等做了大量工作,知識融合在應用中發揮著越來越重要的作用,針對知識融合中的一些關鍵性問題也有很多新的算法和技術被提出改進。但知識融合仍然存在一些問題,主要體現在以下幾個方面:
(1)當前的研究主要重點是針對特定知識類型在特定場景下的融合手段研究。這種方法的通用性還有不足之處。如何針對最基本的知識元素構建一個通用規范的融合框架是我們需要進一步探索的問題。
(2)大多數融合算法需要借助于本體之間的交互作用,而本體本身的復雜性降低了算法的效率。本體的管理過程相對復雜,如何盡可能的利用本體論技術優勢為知識融合提供服務,又克服本體論中固有的難點對知識融合的影響也是今后值得深思的問題。
(3)由于知識融合的結果往往是一個規模龐大的知識集,其中的有些知識甚至是無用的,所以在融合規則指導下產生的新知識的有效性還有待通過相關評價機制進行檢驗。融合評價是知識融合過程中極為重要的一個環節,這不僅包括對結果的正確與否進行檢驗,也包括對知識融合的整個過程進行反饋。
(4)此外,有必要對知識元理論加以研究,并基于知識元理論對知識融合乃至整個知識服務進行整合研究。同時對于現實中的知識融合問題而言,必然是一個多樣而復雜的過程,如何讓這種過程更加靈活,適應大數據的網絡環境有待深思。
6、結語
通過對知識融合的研究狀況進行分析,我們發現,近年來知識融合已經漸漸成為知識學科領域的前沿熱點問題,各個領域的學者對于知識融合的理論定義、框架模型等關鍵問題都做出了不同程度的解釋,極大地豐富和發展了知識融合的內容,取得了一定的成果。
在網絡大數據的背景下,知識呈現出更加多樣化和巨量的特點,如何處理知識的準確度和知識庫的實用性給我們帶來巨大的挑戰。當前知識融合的研究工作在我國大多還處在理論探討方面,對于實際生活中的應用相對較少,這方面發展空間很大,可以作為以后知識融合的發展方向。另外,對于知識融合來說,各個學科有著不同的解讀,學界還缺乏一個標準統一的框架規則,如何統一知識融合各個模塊之間的關系也是今后需要研究的問題。知識融合的最終目的是要服務于用戶問題,將知識融合運用于更多學科,充分發揮其對知識服務的關鍵作用。郾參考文獻
[1] PREECE A,HUI K,GRAY A.KRAFT: an agent architecturefor knowledge fusion[J]. International journal ofcooperative information systems,2001,10(1-2):171- 195.
[2] SMIRNOV A,PASHKIN M,CHILOV N.Multi-agentarchitecture for knowledge fusion from distributedsources[M]. Berlin:Springer, 2002:293- 302.
[3]林海倫等.面向網絡大數據的知識融合方法綜述[J].計算機學報,2017(1):0254-4164.
[4]謝能付.基于農業本體和融合規則的知識融合框架研究[J].安徽農業科學,2013,41(1):395-397.
[5] GE E.Using knowledge fusion to analyze avian influenzaH5N1 in East and Southeast Asia[J]. PloS One,2012,7(5).