曾小芹



摘要:采用本體概念映射方法,研究概念間相似度計算問題并提出本體圖驅動的概念相似度算法。該算法將概念映射到本體結構圖上,通過計算概念的語義、結構及屬性相似度得到綜合相似度。其中,結構相似度通過語義輻射圓計算模型得到,屬性相似度通過概念重心向量夾角余弦得到。通過實驗對比證明,該算法在一定程度上提高了相似度準確性,為數據挖掘提供了一定依據。
關鍵詞關鍵詞:本體;相似度;語義輻射圓;數據挖掘
DOIDOI:10.11907/rjdk.161326
中圖分類號:TP312文獻標識碼:A文章編號文章編號:16727800(2016)007005903
0引言
互聯網行業之所以能創造財富,關鍵是通過記錄和分析用戶網絡操作的大數據,形成用戶“行為指紋”,從而洞悉用戶潛在的、真實的需求,形成預判。用戶的每一次瀏覽、評論、點播都是數據。但數據處理卻是一項重要的技術挑戰。使用傳統的方法去描述與度量大數據的復雜性,據資源優化融合的應用性能,進行仿真實驗。數據融合算法采用Matlab編程實現。在CIMS工業生產項目中進行供應鏈模型構建,通過ERP系統結合仿真工具(MBPST)進行供應鏈大數據資源融合軟件開發,得到仿真平臺中數據融合統計分析輸出如圖2所示。
為了定量分析該算法的性能,采用本文方法和傳統方法,以數據融合的執行時間為測試指標,得到對比結果如圖3所示。仿真結果表明,利用該算法進行大數據資源融合的效率較高,配準性能較好,執行時較短,性能優越于傳統算法。
需要對高維圖像等多媒體數據進行降維度量與處理,同時分析出上下文環境的語義關聯,最終從大量動態及模糊的數據中歸納概括信息,并導出可理解的內容。
本體通過對某領域概念及其關系的形式化表達來獲得該領域知識,并提供對其的統一理解,確定公認詞匯,從不同層次上明確定義詞匯與詞匯間的關系,進一步挖掘隱含在特定領域中的知識,解決各種語義障礙。1相關研究
目前已有大量關于語義相似度計算的研究。很多文章均提出了綜合如結點類型、密度、深度、強度、屬性、層次、邊類型多種因素的計算模型,有的算法結合圖理論和信息量提出了語義相似度度量方式。而鄒文科、唐中林等則基于距離相似度和屬性相似度來計算領域本體內部概念間的相似度。另外,也有將特征屬性作為邊權值來計算語義距離,并通過概念層次深度來校正計算結果。
當前基于本體的相似度算法大概存在兩方面問題:①很多算法考慮盡量多的因素進行計算,但因素本身重要度不同,有的甚至無關緊要,這樣反而增加了算法復雜度;②因素的重復利用不是很合理。為解決以上問題,本文提出以本體圖驅動的概念相似度算法。2改進算法
本體包含概念、屬性、關系、實例等,且本體結構類似有向無環圖結構。因此,以本體為基礎,可從語義、結構等多方面考慮相似度計算。概念相似度算法由3部分組成:語義相似度、結構相似度及屬性相似度\即先將概念映射到本體樹上,再綜合計算概念間的3種相似度。
(1)語義相似度。在本體圖結構中,結點與概念一一對應,由此可知:若結點有聯系即概念相似,必然存在連接結點的通路;連接結點的通路上,經過的邊數越多,概念間相似度越小;結點間關系類型不同,對相似度的影響也不同。
假設求概念CA、CB間的相似度,將CA、CB映射到本體圖上,再找出兩結點間的連通路徑,如圖1所示。
概念間語義相似度可由以下公式計算:
連通路徑
0,路徑不連通 (1)
其中,m指連接兩結點間最短路徑邊數之和,ei指最短路徑上第i條邊,ωei指第i條邊的關系權重。
(2)結構相似度——語義圓輻射計算模型。由本體結構可知,被比較的概念若存在相同或相似的鄰居結點,則認為它們相似。因此,本算法采用“語義圓輻射模型”計算概念間的結構相似度。該模型以被比較概念結點為圓心,r為半徑輻射出一個語義圓。在本體層次關系中,父子結點、兄弟結點占有重要位置,在此,r=1。在語義圓上的結點都是圓心結點的相似結點,如圖2所示,CA、CB是被比較概念,O1是以CA為圓心的語義圓,O2是以CB為圓心的語義圓。
結構相似度計算如下:
其中,NCA(NCB)是在語義圓O1(O2)上的CA(CB)的鄰居結點集合,|NCA∩NCB|是兩集合交集大小,|NCA∪NCB|則是兩集合并集大小。
(3)屬性相似度——屬性重心向量夾角計算模型。由本體概念可知,概念包含對象屬性、數據類型屬性及注釋屬性等多個屬性。假設CA有n個屬性,其屬性集為(a1,a2,…,an),分別為各屬性設定的權重值,得到概念CA的屬性向量d=ω1,ω2,…,ωn,再以向量d各分量為頂點畫多邊形G,取G的重心M,此時,向量OM是概念CA的重心向量。同理,得到概念CB的重心向量ON,θ是向量OM、ON的夾角,如圖3、圖4所示。
如果兩概念相同,則其對應的重心向量應是重合的,即兩者夾角θ為0°;如果兩概念相似,則對應的重心向量應存在一定角度,且隨著概念間相似度的減小而增大。
概念相似度計算公式綜合如下:
其中,α+β+γ=1,文中α=0.5,β=0.2,γ=0.3,當然3個參數的具體取值還有待修改驗證。
3實驗與結論
為了驗證本算法的有效性,以植物本體\[14\]為依據,分別從相似度和算法時間復雜度兩方面對比本文算法X、文獻算法Y及文獻算法Z,部分實驗數據如表1所示。
綜合實驗數據及本文描述可知:
(1)總體上看本文算法X從相似度準確度及算法時間復雜度優于被比較算法Y和Z,因此,本算法具可行性及相應價值。
(2)算法X和Y對比說明,考慮參數越多,相似度準確度不一定越大。相反,算法的時間復雜度卻隨之增大,為此,在相似度計算中應理性對待各參數。
(3)算法X和Z對比說明,在利用本體計算相似度算法中,屬性因素是重要的影響因素,在本文算法X中,屬性重心向量夾角計算模型發揮了重要作用。
本文以本體圖為驅動提出了概念相似度算法,由于算法中各種參數初始閾值的判定都依賴個人的主觀思想,對相似度的精準度必定產生影響,因此,關于參數的取值還需進一步驗證。
參考文獻:
VIKTOR MAYER SCH,OUML,NBERGER.Big data:a revolution that will transform how we live, work, and think.盛揚燕,周濤,譯.杭州:浙江人民出版社,2012.
黃果,周竹榮.基于領域本體的概念語義相似度計算研究[J].計算機工程與設計,2007,28(10):24602463.
史斌,閆健卓.基于本體的概念語義相似度度量[J].計算機工程,2009,35(19):8385.
蘭美輝,夏幼明.基于本體的概念相似度計算模型研究[J].曲靖師范學院學報,2010,29(3):6770.
鄒文科.基于本體技術的語義檢索及其語義相似度研究.北京:北京郵電大學,2008.
陳沈焰,吳軍華.基于本體的概念語義相似度計算及其應用[J].微電子學與計算機,2008,25(12):9699.