張前進
面向泛在網(wǎng)絡(luò)的知識融合模型設(shè)計
張前進
(安徽國防科技職業(yè)學(xué)院信息工程系,安徽六安237011)
通過闡述泛在網(wǎng)絡(luò)環(huán)境大數(shù)據(jù)的特征,分析了知識融合的概念,探討了本體技術(shù)、語義網(wǎng)、數(shù)據(jù)挖掘等知識融合的相關(guān)技術(shù).設(shè)計了由數(shù)據(jù)獲取與知識表示、元知識構(gòu)建、知識融合處理、衍生知識處理、知識服務(wù)等模塊組成的知識融合模型,為知識融合在大數(shù)據(jù)環(huán)境下的智能應(yīng)用研究與實踐提供參考.
泛在網(wǎng)絡(luò);知識融合;元知識
泛在網(wǎng)絡(luò)建立在傳統(tǒng)傳感網(wǎng)之上,是無所不包、無所不在、無所不能的網(wǎng)絡(luò)[1].目前的研究熱點物聯(lián)網(wǎng)是泛在網(wǎng)絡(luò)的物聯(lián)階段.泛在網(wǎng)絡(luò)中包含了“人、機、物”三元世界在網(wǎng)絡(luò)空間中相互交互、相互融合產(chǎn)生并通過下一代網(wǎng)絡(luò)(Next Generation Network,NGN)進行傳輸?shù)拇髷?shù)據(jù).美國EMC(易安信)公司,在2014年發(fā)布的第7份數(shù)字宇宙報告中指出,2013年全球數(shù)據(jù)總量達到了4.4 ZB,2020年將達到44 ZB,7年間數(shù)據(jù)增長10倍,并且在下一個10年數(shù)據(jù)以每年40%的速率增長[2].泛在網(wǎng)絡(luò)產(chǎn)生的大數(shù)據(jù)由“物”產(chǎn)生的結(jié)構(gòu)化原始數(shù)據(jù)、人根據(jù)事物感知產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)、機器通過一定規(guī)則組織起來的半結(jié)構(gòu)化數(shù)據(jù)組成.這些海量數(shù)據(jù)并不是靜止不變的,而是以數(shù)據(jù)流的形式動態(tài)產(chǎn)生并按網(wǎng)絡(luò)層次進行傳遞,數(shù)據(jù)中蘊含著豐富的知識資源.文獻[2]中指出:2013年全球數(shù)據(jù)經(jīng)過標(biāo)記和分析有22%是有用的,預(yù)計到2020年這一比例將達到37%.另一方面,知識自身呈現(xiàn)出異質(zhì)性、多元性和碎片化等特點,知識間缺少必要的關(guān)聯(lián)性[3].將泛在網(wǎng)絡(luò)中蘊含的海量的、碎片化、缺少關(guān)聯(lián)的有用數(shù)據(jù),轉(zhuǎn)變?yōu)榻y(tǒng)一的知識庫為用戶提供服務(wù)是當(dāng)前智慧制造、智慧城市建設(shè)中的研究熱點.筆者從知識融合的概念出發(fā),設(shè)計了一個面向泛在網(wǎng)絡(luò)的知識融合模型.
1.1知識融合概念
知識融合屬于邊緣學(xué)科,是知識科學(xué)與信息融合的交叉學(xué)科[4].知識融合的概念目前還沒有統(tǒng)一的定義,現(xiàn)在對于知識融合主流的認知與定義主要分為兩類:第一類以基于KRAFT項目研究成果為代表,強調(diào)領(lǐng)域內(nèi)為解決特定問題的知識庫建設(shè),即從分布式異構(gòu)數(shù)據(jù)源中搜索和抽取相關(guān)知識,并轉(zhuǎn)換為統(tǒng)一知識模式,構(gòu)成統(tǒng)一知識庫[5];第二類則強調(diào)知識融合的服務(wù)屬性,認為在對分布式異構(gòu)數(shù)據(jù)源進行抽取、轉(zhuǎn)換、清洗、集成的過程即為新知識對象產(chǎn)生的過程,同時提供對知識對象的管理服務(wù)[6].
知識是建立在人們認知的基礎(chǔ)上對數(shù)據(jù)的再加工,知識相對原始數(shù)據(jù)更加便于理解,是建立在信息學(xué)基礎(chǔ)之上的,知識融合的過程也是信息運動的過程.知識通過網(wǎng)絡(luò)傳遞的過程中,每一層在新的認知規(guī)則的驅(qū)動下對上一層知識進行融合并產(chǎn)生新的知識,其有用信息數(shù)量呈金字塔式的遞減(見圖1).筆者從服務(wù)的角度出發(fā),認為知識融合是從分布式異構(gòu)數(shù)據(jù)源中通過清洗、匹配、搜索、抽取、集成相關(guān)知識,轉(zhuǎn)換成統(tǒng)一知識庫,然后利用數(shù)據(jù)挖掘技術(shù)獲取隱含的有用知識,同時通過優(yōu)化知識結(jié)構(gòu)和知識消費產(chǎn)生新知識,并提供知識管理服務(wù).
1.2知識融合相關(guān)技術(shù)
知識融合的概念最初來自于數(shù)據(jù)融合,筆者設(shè)計的面向泛在網(wǎng)絡(luò)的知識融合框架涉及到的相關(guān)技術(shù)主要有:本體技術(shù)、語義網(wǎng)、數(shù)據(jù)挖掘等.
1.2.1本體技術(shù)
本體的概念最初源自哲學(xué)存在論,是對客觀世界客觀存在的系統(tǒng)性描述[7].Neches認為:“本體定義了組成主題領(lǐng)域的詞匯表的基本術(shù)語及其關(guān)系,以及結(jié)合這些術(shù)語和關(guān)系來定義詞匯表外延的規(guī)則.”本體概念和技術(shù)被引入到特定領(lǐng)域后,用于描述領(lǐng)域知識間的關(guān)系,通過本體的語義描述有助于發(fā)現(xiàn)蘊含的有用知識.領(lǐng)域知識本體是對領(lǐng)域知識的抽象,其概念明確,通過本體的語義描述能力展現(xiàn)類和屬性,還可以描述本體間錯綜復(fù)雜的關(guān)系.
1.2.2語義網(wǎng)
語義網(wǎng)是Web 3.0時代的顯著特征之一,也是對未來智能網(wǎng)絡(luò)的設(shè)想.本體在Web上的應(yīng)用導(dǎo)致了語義Web的誕生,目的是解決Web上信息共享時的語義問題[8].語義網(wǎng)的核心是:通過為互聯(lián)網(wǎng)上的文檔添加能夠被計算機理解的語義“元數(shù)據(jù)”,將文檔數(shù)據(jù)進行碎片化處理,最終使得互聯(lián)網(wǎng)變?yōu)橐粋€大的關(guān)系型“數(shù)據(jù)庫”,人與計算機的信息交流與檢索變得更加有效率和價值.語義網(wǎng)的目的與知識融合不謀而合,都是解決基于異構(gòu)數(shù)據(jù)源的信息共享問題.
1.2.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是基于數(shù)據(jù)庫理論、機器學(xué)習(xí)、人工智能的交叉學(xué)科,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn).數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)蘊含的,先前未知的有用信息的過程,是一種決策支持過程.從數(shù)據(jù)融合的角度看,數(shù)據(jù)挖掘也是基于關(guān)系型數(shù)據(jù)庫對海量的企業(yè)數(shù)據(jù)進行自動化的分析、歸納、融合推理的過程.知識融合是對海量異構(gòu)數(shù)據(jù)源進行格式統(tǒng)一,然后為用戶提供有用知識的服務(wù).有用知識的發(fā)現(xiàn)過程,即為數(shù)據(jù)挖掘過程.數(shù)據(jù)挖掘技術(shù)在知識融合中的應(yīng)用可以更好的為用戶提供個性化服務(wù).特別是當(dāng)前以個性化服務(wù)為顯著特征的智慧城市、智慧制造等研究熱點中的應(yīng)用.

圖1知識層次結(jié)構(gòu)
泛在網(wǎng)絡(luò)中除了有海量傳感器不斷地采集的結(jié)構(gòu)化數(shù)據(jù),還有Web和人產(chǎn)生的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)具有數(shù)據(jù)量大、異構(gòu)、數(shù)據(jù)更新更快的特征.而這些大數(shù)據(jù)需要經(jīng)過存儲、處理、查詢和分析后才能充分用于各類應(yīng)用[9].大數(shù)據(jù)面臨存儲成本高昂、挖掘有用信息困難等諸多挑戰(zhàn).筆者基于云服務(wù)、數(shù)據(jù)挖掘的角度對泛在網(wǎng)絡(luò)環(huán)境下的知識融合模型進行了設(shè)計.
2.1面向泛在網(wǎng)絡(luò)的知識融合模型
定義一:基礎(chǔ)知識是通過對客觀存在的事物產(chǎn)生的數(shù)據(jù)進行加工后產(chǎn)生的能夠為判斷、決策和行動提供依據(jù)的一組信息.
定義二:衍生知識是在基礎(chǔ)知識的基礎(chǔ)上引入知識約束而生成的新的知識集合.
面向泛在網(wǎng)絡(luò)的知識融合模型按照“數(shù)據(jù)產(chǎn)生-知識表示與存儲-知識融合處理-衍生知識處理-知識服務(wù)-知識表示與存儲”知識演變過程的思路設(shè)計.由數(shù)據(jù)獲取與表示模塊、元知識構(gòu)建模塊、融合處理模塊、衍生知識處理模塊、知識服務(wù)模塊等5個模塊組成(見圖2).
2.2數(shù)據(jù)獲取與知識表示
數(shù)據(jù)獲取是知識融合的基石.泛在網(wǎng)絡(luò)環(huán)境下知識融合的外部數(shù)據(jù)有數(shù)據(jù)源眾多、數(shù)據(jù)源異構(gòu)的特點,特別是傳感網(wǎng)中不同傳感器硬件產(chǎn)生的數(shù)據(jù),導(dǎo)致產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,為數(shù)據(jù)獲取增加了難度.模型設(shè)計的數(shù)據(jù)采集模塊基于采用虛擬化技術(shù)構(gòu)建的設(shè)施虛擬化平臺.設(shè)施虛擬化平臺實現(xiàn)了資源的虛擬化,一方面簡化了對資源及資源管理的訪問,另一方面屏蔽了底層硬件的兼容性問題.通過設(shè)施虛擬化平臺采集到的是原始數(shù)據(jù),經(jīng)過數(shù)據(jù)轉(zhuǎn)換接口形成統(tǒng)一的數(shù)據(jù)結(jié)構(gòu).
知識表示是在對外部世界觀察和了解的基礎(chǔ)上,用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)進行描述的形式.根據(jù)知識反映活動的不同,可以將知識分為描述性知識和程序性知識[10].描述性知識是對事實的客觀描述,可以使用數(shù)據(jù)表示;程序性知識描述的是問題解決的過程屬于操作性知識,可以使用解釋程序描述.通過知識表示形成知識庫然后存儲到云服務(wù)器上.
2.3元知識構(gòu)建
元知識又稱為知識的知識,是控制知識集.本體技術(shù)本身具有較好的概念層次結(jié)構(gòu),對邏輯推理的有效支持,使得基于本體的知識表示能從語義和知識層次上描述信息系統(tǒng)的概念模型,同時有利于知識共享、重用[11].通過基于本體的元知識表示可以構(gòu)建具有統(tǒng)一結(jié)構(gòu)的元知識集.泛在網(wǎng)絡(luò)環(huán)境下基于本體技術(shù)構(gòu)建的元知識集存在大量無效數(shù)據(jù)和無用數(shù)據(jù),導(dǎo)致初始元知識集出現(xiàn)數(shù)據(jù)量過大問題.在知識融合前需要對知識規(guī)模進行降階,通過引入語義熵實現(xiàn)對知識的混亂程度進行測度,形成有效元知識集,即通過元知識的有效性測度分析實現(xiàn)知識規(guī)模的降階.有效元知識集的構(gòu)建為進一步知識融合處理打下數(shù)據(jù)基礎(chǔ).
2.4融合處理
融合處理模塊中融合算法以元知識構(gòu)建模塊構(gòu)建的有效元知識集為數(shù)據(jù)輸入,按照約定的融合規(guī)則進行比較、合并和協(xié)調(diào)融合運算,產(chǎn)生新的知識對象,完成衍生知識處理模塊的解知識空間的構(gòu)建.融合算法的選擇是融合處理模塊的關(guān)鍵部分.目前國內(nèi)外常用的融合算法有:D-S證據(jù)理論、貝葉斯方法、模糊集理論等,其中:(1)D-S證據(jù)理論算法基于證據(jù)和可能性推理理論提出,該算法對不確定信息的處理有較好的效果.但以正確和完整的知識庫為前提,該算法不適合海量規(guī)模的知識融合.(2)貝葉斯方法通過圖形的方式自然的表達數(shù)據(jù)間的因果關(guān)系,該方法能夠較好的發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,能很好的解決不確定性和不完整性問題.與D-S證據(jù)理論一樣該方法也不適合海量數(shù)據(jù)的規(guī)模,在實際應(yīng)用中通常是兩者結(jié)合使用.(3)模糊集理論,在知識融合的初始階段往往需要一些先驗知識,實際的應(yīng)用中通常是與上述兩種理論混合使用.融合算法的選擇對于融合效果有較大的影響.
2.5衍生知識處理

圖2知識融合模型
衍生知識處理模塊根據(jù)知識約束集對解知識空間進行衍生知識處理形成衍生知識庫.其中,知識約束集由用戶需求產(chǎn)生.然后,對衍生知識庫中的知識從兩個流向進行處理,一條根據(jù)用戶需求流向用戶服務(wù)模塊,向用戶提供知識服務(wù);一條經(jīng)機器學(xué)習(xí)后產(chǎn)生新的知識,存儲到本體庫后,作為元知識集的輸入數(shù)據(jù).
2.6知識服務(wù)
知識融合最終的服務(wù)對象就是用戶.知識服務(wù)模塊通過用戶服務(wù)接口,根據(jù)用戶需求從知識庫和衍生知識庫中獲取知識,然后通過數(shù)據(jù)挖掘技術(shù)為用戶提供個性化的知識服務(wù),同時通過用戶服務(wù)接口將知識反饋評價結(jié)果作為新的知識源存入到知識庫中,實現(xiàn)知識運動的閉環(huán),達到知識再生的目的.
泛在網(wǎng)絡(luò)是未來網(wǎng)絡(luò)的發(fā)展方向.泛在網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)規(guī)模巨大,且數(shù)據(jù)異構(gòu),為實現(xiàn)更加智能與精準(zhǔn)的知識服務(wù)增加了難度.筆者設(shè)計的知識融合模型,按照“數(shù)據(jù)獲取與表示→融合處理→知識服務(wù)”過程設(shè)計了5個模塊,實現(xiàn)了異構(gòu)數(shù)據(jù)的統(tǒng)一表示及知識融合,為進一步提高大數(shù)據(jù)環(huán)境下個性化知識服務(wù)質(zhì)量和知識融合在大數(shù)據(jù)環(huán)境下智能應(yīng)用的研究和應(yīng)用提供參考.未來將結(jié)合具體的應(yīng)用,開展驗證性研究.
[1]張平,苗杰,胡錚,等.泛在網(wǎng)絡(luò)研究綜述[J].北京郵電大學(xué)學(xué)報,2010,33(5):1-6.
[2]IDC.The Digital Universe of Opportunities:Rich Data and the Increasing Value of the Internet of Things[EB/OL].[2015-05-12]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm.
[3]林海倫,王元卓,賈巖濤,等.面向網(wǎng)絡(luò)大數(shù)據(jù)的知識融合方法綜述[J].計算機學(xué)報,2016(39):1-26.
[4]唐曉波,魏巍.知識融合:大數(shù)據(jù)時代知識服務(wù)的增長點[J].圖書館學(xué)研究,2015(5):9-14.
[5]Preece A D,Hui K Y,Gray W A,et al.Designing for Scalability in a Knowledge Fusion System[J].Knowledge Based Systems,2001(3):173-179.
[6]Gray A,Marti P.Towards a Scalable Architecture for Knowledge Fusion[A].In:Proceedings of International Workshop on Infrastructure for Scalable Multi-Agent System[C].Barcelona,2000:279-292.
[7]Gruber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-200.
[8]袁新娣.本體及本體在信息系統(tǒng)中的應(yīng)用[J].科技廣場,2006(7):76-78.
[9]李德仁,姚遠,邵振鋒.智慧城市中的大數(shù)據(jù)[J].武漢大學(xué)學(xué)報,2014,39(6):631-640.
[10]張二虎.論陳述性知識與程序性知識的關(guān)系[J].太原師范學(xué)院學(xué)報(社會科學(xué)版),2005,4(1):128-129.
[11]徐賜軍,李愛平,劉雪梅.基于本體的知識融合框架[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2010,22(7):1230-1236.
On the Design of Knowledge Fusion Model Based on Ubiquitous Network
ZHANG Qian-jin
(Department of Information Engineering,Anhui Vocational College of Defense Technology, Lu'an 237011,Anhui,China)
By expounding the features of the big data that in ubiquitous network environment,it analyses the concept of knowledge fusion,and discusses the relative technologies of knowledge fusion,such as ontology technology,semantic web,data mining and so on.The knowledge fusion model is designed,which is composed of data acquisition and knowledge representation,meta knowledge construction,knowledge fusion processing,derivative knowledge processing,knowledge service and so on,and it provides a theoretical reference for the research and practice of intelligent application of knowledge fusion in big data environment.
ubiquitous network;knowledge fusion;meta-know ledge
TP393.0%
A%%%
1007-5348(2017)03-0021-04
(責(zé)任編輯:歐愷)
2016-12-20
2016年安徽省質(zhì)量工程項目(2016zjjh012);2017年高校自然科學(xué)研究重點項目(KJ2017A782);安徽省高等職業(yè)教育創(chuàng)新發(fā)展行動計劃(2015-2018年)軟件技術(shù)骨干專業(yè)建設(shè)(皖教秘高〔2016〕27號).
張前進(1982-),男,河南商丘人,安徽國防科技職業(yè)學(xué)院信息工程系講師,碩士;研究方向:計算機應(yīng)用技術(shù).