摘要:文章借助本體和分布式挖掘的相關理論,在這些理論的基礎上創建了基于本體的分布式數據挖掘系統,建立了系統的本體庫,構建了數據挖掘本體,旨在為數據挖掘領域創建一個統一的數據挖掘本體,為新產生的研究成果進行科學、正規的語義描述,這在分布式數據挖掘領域將具有重要的指導意義。
關鍵詞:本體;分布式;數據挖掘
中圖分類號:TP311.13文獻標識碼:A文章編號:1006-8937(2011)20-0076-02
1基于本體的分布式數據挖掘系統
1.1系統構建思想
分布式數據挖掘系統的信息源屬于集成分布式的信息系統,它面臨的主要問題是缺乏統一的語義集,造成語義異構主要有四種原因:不同的信息源使用多種術語(詞匯)表示同一概念;同一概念在不同的信息源中表達的含義不同;各信息源使用不同的結構表示相同或相似的信息;各信息源中的概念之間存在著各種關聯,但由于各信息源的分布自治性,這種隱含的聯系不能顯式體現出來。而本體的出現就可以有效解決分布式異構數據語義異構(即描述術語差異)的問題,這主要是因為本體能夠描述目標世界需要所涉及的人員都共同認可的詞匯,具有統一的規范,并且對人類活動的假設或設想等隱含知識進行清晰化表示。這就有效解決了分布式數據挖掘信息源的描述術語差異問題。
本體在分布式數據挖掘系統中扮演的角色主要是語義表示、推理、信息通信和重用。用戶在數據挖掘過程中將關鍵詞輸入,通過本體的語義分析能夠得出更加接近客戶需求的結果。為將本體更加有效引入分布式數據挖掘系統,本文將創建一個基于本體的分布式數據挖掘系統,詳細描述其各個部分的功能連接,同時也會詳細描述系統的重要部分——數據挖掘本體,具體說明數據挖掘本體中5個基本實體的設計原則,使本體論在數據挖掘領域得到有效利用。
1.2系統的構建和概述
在這個數據挖掘系統中,主要設計三個本體:元數據本體、知識領域本體以及最重要的數據挖掘本體,如圖1所示。圖1是一個基于本體的分布式數據挖掘系統模型,它的工作原理是分布在網絡各個節點的外部資源以及內部資源整合到一個大型數據倉庫中,元數據本體負責對其基本實體、屬性進行建模,并詳細描述概念與概念直接的關系。根據待挖掘數據的需要(一般是用戶輸入),知識領域本體抽取相關的元數據本體,并結合現有知識選擇適當的本體開始數據挖掘任務,數據挖掘本體則將選中的本體進行預處理,然后選擇合適的算法進行挖掘,挖掘結束后,建立可視化的結果模型并將其輸出到用戶界面。每完成一次數據挖掘任務,知識領域本體都會根據新知識對自身進行更新,并從結果模型中萃取知識以便下次數據挖掘任務進行時選擇出更適合挖掘任務的本體。
元數據本體:這是在分布式網絡環境下實現機器與機器之間的語義理解而設定的規則,它集合了元數據和本體的優勢。元數據提供了語義基礎,使資源有了基本的微觀結構,但并不能完全解決信息系統的語義異構問題。而元數據本體能夠對不同實體對象間的關聯做出很好的描述,從而為信息組織、管理以及檢索、查詢提供模型和方法。它的主要職能是創建各個變量并描述變量的相關信息。
知識領域本體:知識領域本體在宏觀的層面上對領域知識進行分析、明確,并使其形式化,在人、機器(代表為軟件代理)之間實現共享以及對信息結構的共同理解,除此之外,它還要實現一定程度的領域知識的重用(例如銀行總行的業務表在各個分行間的重用)。
數據挖掘本體:描述了所有知識的選擇過程,如通過變量有效選擇功能、最佳算法,并建立有效的進程序列。
從系統的工作原理可以看出,元數據本體和知識領域本體的作用是對現有知識進行建模并且不斷發現新的知識。而在數據挖掘任務中,起到核心作用的則是數據挖掘本體,它需要將已選本體進行預處理,選擇合適的算法對本體進行操作,最終形成可視化的結果模型。在下一章將詳細說明數據挖掘本體的設計過程。
2系統本體庫的建立
隨著本體數量的增加,維護和重新組織各種各樣的本體以利于知識的共享和重用正越來越成為挑戰性的任務。由于缺乏成功的本體共享和重用,阻礙了本體更大規模的發展,本體技術的突破性發展需要有效的方法和工具,一個本體庫系統是為了提供各種管理、適應和標準化本體功能的系統。它應該滿足本體重用的需求,有利于本體的重用和共享是一個本體庫系統最重要的要求。
2.1管理
由于開發本體的最主要目的是為了實現知識的共享和重用,所以本體庫系統的最重要的功能之一就是有利于知識(本體) 的重用,這些功能主要包括:開放式存儲、標識和版本化支持。
存儲和標識功能主要是由元數據本體完成。為了有利于查找、管理和重用本體,元數據本體應該對本體庫系統的本體加以分類。良好的分類方式將有助于用戶查找和識別相關的本體。除此之外,元數據本體還應該有標識功能,標識是為了有利于人們查找和使用本體,本體庫系統中的本體應該是惟一被標識的,可以采用本體URL 與名字空間機制對其加以標識。
知識領域本體則需要有版本化的功能,因為隨著時間的改變,本體是不斷變化的。例如當接到一個新的數據挖掘任務時,本體的領域發生了變化,知識領域本體必須不斷對自身的概念和任務進行修改才能滿足不同的需求,在系統中,這種功能是通過知識更新和知識發現來實現的。
2.2適應性
本體庫系統應該有利于擴展和更新本體,它們應該提供用戶友好的查找、編輯和推理本體的環境。這部分功能是通過數據挖掘本體實現的。
首先,數據挖掘本體應該提供一個可視化的瀏覽環境,便于信息的查找和編輯。通現存的信息檢索技術、數據庫查找技術和人工智能的啟發式技術來提供高級查找特征。本體庫系統還應該針對不同的用戶提供個性化的本體視圖。其次,也是最重要的,數據挖掘本體必須要有推理里功能。它必須能夠自動選擇合適的本體,推理出適合數據挖掘的算法然后輸出結果集。
2.3標準化
為了達到有效的本體共享和重用,本體庫系統應該遵循現有的和有用的標準,諸如標準的本體表示語言、標準化的分類法和本體結構。
語言:一個本體庫系統應該采用標準化的本體表示語言,支持本體語言之間的轉換,消除不同本體之間的術語誤解。
上層本體:上層本體捕獲和建模基本的概念和知識,這些知識能夠在創建新的本體和組織本體庫中重用,所以標準化上層本體將是本體庫系統的一個非常重要的必備條件。
3數據挖掘本體設計
數據挖掘的基本任務就是從已有數據集中生成一些普遍化的類型。基本數據挖掘任務的定義如下:分布可能性的預測、建立一個預測模型、聚類分析和模式發現。這些基本的數據挖掘任務在數據挖掘本體中屬于不同的類,并通過is_a來描述其關系的,如圖2所示。
在圖2描述的本體中,<數據挖掘任務>類是頂級類<信息化實體>的擴展。單個數據挖掘任務具有屬性has_representation<任務描述>。通過這個關系,數據挖掘任務能夠用文本或是其他格式來進行描述。為了更加完整地定義數據挖掘任務類,需要通過has_information來定義兩個關系<數據集>和<歸納集>,這說明數據集和歸納集能夠為數據挖掘任務提供信息。在數據挖掘任務的定義中,為了能夠將對數據挖掘任務的描述轉化為實際操作,我們需要定義動態的實體has_agent<數據挖掘算法>。
參考文獻:
[1] Alon Y. Levy,Marie-Christine Rousset.Combining Horn rules and description logics in CARIN[J].Artificial Intelligence,1998,(104):165-209.
[2] 孫凡.國外基于本體的信息系統概念建模研究[J].情報學 報,2007,26(3):366-372.
[3] 吳國文,顧寧,施伯樂.利用本體簇生成標準概念模式[J].計 算機研究與發展,2001,38(12):1499-1504.