引言:為了使數據挖掘技術能滿足不同層次的用戶需要,可視化數據挖掘技術被提出,通過可視化的手段將數據挖掘過程的各個階段展示給用戶,使用戶能更好的理解數據挖掘過程,對數據挖掘結果進行有效評估。隨著網絡技術的發展、IPV6和html5等擴展和重新定義現有web應用的新標準的逐漸成為主流,以及B/S系統天生的優越性,基于web的可視化數據挖掘的研究成為了熱點。
本研究是在現有算法的基礎上著重研究算法的可視化效果,并借助HTML5載體來實現可視化,探索HTML5的典型應用的交叉性研究,主要研究數據挖掘過程的可視化——數據挖掘過程在基于HTML5的Web界面上的顯示;研究了C4.5分類決策樹算法實現數據挖掘模型的可視化;設計這種算法的過程和結果的可視化方法,實現了挖掘過程和挖掘結果的可視化。
一、C4.5分類決策樹算法簡介
C4.5算法是CLS和ID3發展而來的決策樹算法,生成決策樹形式的分類器,同時也可以生成規則集。該算法的屬性選擇是基于一個假設,即:決策樹的復雜度和所給屬性值表達的信息量是密切相關的。C4. 5把分類范圍擴展到了數字屬性,這個度量標準傾向于能把數據分區成有低類熵的子集的屬性,即大部分樣本都屬于一個單獨的類。C4.5算法利用熵原理,采用分而治之的方法來構造決策樹, 判斷樹的生長方向,通常基于信息增益或者增益率,即選擇信息增益率最大的屬性作為分類屬性。信息增益率等于信息增益對分割信息量的比值。
對樣本集T,假設A有s個不同取值的離散屬性,劃分為s1,s2,sn共n個子集,用A分割樣本集所得的信息增益的ID3算法相同,分割信息量由
C4.5算法作為ID3的改進算法,它簡單直接、易于理解和應用,能有效的生成決策樹,較好的解決了ID3算法多值屬性偏向問題。
二、可視化數據挖掘技術
可視化數據挖掘技術以數據挖掘技術和可視化技術為基礎,通過運用計算機圖形學和圖像處理技術,將數據挖掘過程中涉及的源數據、中間結果、最終挖掘結果模型以及整個數據挖掘過程以直觀化的方式呈現給用戶。可視化數據挖掘技術具有以下優點:在進行數據挖掘之前,通過人們容易理解的圖形、圖表等直觀的方式來表現復雜的數據信息,能夠加深用戶對復雜數據信息的理解,為較好的選取數據和確定數據挖掘任務打下基礎;在數據挖掘執行過程中,通過界面交互的方式,使用戶能夠觀察并管理數據挖掘過程,從而指導數據挖掘進度,保證數據挖掘的質量;最后,以特定的可視化圖形顯示數據挖掘生成的結果模型,使用戶能夠清晰、明了地理解所獲取的知識,做出有效的評估和反饋。
三、HTML5
HTML5標準將賦予瀏覽器更多的功能,使得瀏覽器能夠不通過插件就能夠實現位置跟蹤、本地存儲、離線應用、視頻音頻的播放以及通信功能。它將把互聯網帶向一個新的時代,使得基于互聯網的應用更加方便、高效和安全。它與HTML4最大的區別主要有兩個方面,第一個就是強化了Web頁面的表現能力,以往要使用Web頁面來播放視頻、音頻和動畫,瀏覽器需要安裝各13種各樣的瀏覽器插件,但是HTML5標準中,瀏覽器原生的對這些多媒體表現進行了支持。第二個就是豐富的API可供調用,包括本地緩存、離線應用、地理信息和通信等等。
四、C4.5實驗
在本算法中使用經典的根據天氣決定是否打壘球的例子。搜集14天的數據幫助建立決策樹:
根據前面的介紹可知,該算法最關鍵的是根據屬性的信息增益構造決策樹,主要代碼如下:
(1)決策屬性的熵,決策屬性的熵在本例中為“活動”屬性。主要用entropyResult(resultAttr)方法和ratio函數。(2)條件屬性的熵,用entropyAttr(attribute,resultAttr)計算條件屬性數目,然后用if方法根據條件屬性對結果屬性分組,最后用函數計算條件屬性的熵。(3)信息增益的計算,用gain(attribute,result)來計算。(4)排序,對所有條件屬性的信息增益進行排序選取決策樹每一步生成的樹節點使用javascript中Array對象的slice方法。
經過計算,條件屬性“戶外”有最大的增益,它用于決策樹的根節點,因為戶外有3種類型,根節點就有3個分支(晴天、陰天、雨天)。由于陰天的熵為0,直接生成葉子節點,其余2個屬性生成中間節點。在晴天和陰天分支中,分別根據根節點生成子樹的計算步驟遞歸生成子樹,在canvas中生成決策樹的過程,至此完整的決策樹生成成功。設定一組條件[晴天,炎熱,正常,弱],通過決策樹得到的決策過程為圖1所示。
總結
html5在繪圖方面具有強大的表現能力與良好的效率,通過與數據挖掘技術的結合以及與其他多種領域知識的結合,從而讓各類用戶能夠更好地共享可視化數據挖掘技術的成果,必將在互聯網與移動計算的發展過程中扮演越來越重要的角色。
參考文獻
[1]Hillol KarguPta,Jiawei Han.Next Generation of Data Mining. ChaPman Hall/CRC.2008.
[2]施惠娟,可視化數據挖掘技術的研究與實現,[D].上海,華東師范大學,2010,10-11.
[3]毛國君,段立娟等編著.數據挖掘原理與算法.北京:清華大學出版社.2007.
(作者單位:湖北工業職業技術學院)