999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HTML5的C4.5算法的可視化數據挖掘的實現

2014-12-29 00:00:00昝鵬羅鳳
中國電子商情 2014年3期

引言:為了使數據挖掘技術能滿足不同層次的用戶需要,可視化數據挖掘技術被提出,通過可視化的手段將數據挖掘過程的各個階段展示給用戶,使用戶能更好的理解數據挖掘過程,對數據挖掘結果進行有效評估。隨著網絡技術的發展、IPV6和html5等擴展和重新定義現有web應用的新標準的逐漸成為主流,以及B/S系統天生的優越性,基于web的可視化數據挖掘的研究成為了熱點。

本研究是在現有算法的基礎上著重研究算法的可視化效果,并借助HTML5載體來實現可視化,探索HTML5的典型應用的交叉性研究,主要研究數據挖掘過程的可視化——數據挖掘過程在基于HTML5的Web界面上的顯示;研究了C4.5分類決策樹算法實現數據挖掘模型的可視化;設計這種算法的過程和結果的可視化方法,實現了挖掘過程和挖掘結果的可視化。

一、C4.5分類決策樹算法簡介

C4.5算法是CLS和ID3發展而來的決策樹算法,生成決策樹形式的分類器,同時也可以生成規則集。該算法的屬性選擇是基于一個假設,即:決策樹的復雜度和所給屬性值表達的信息量是密切相關的。C4. 5把分類范圍擴展到了數字屬性,這個度量標準傾向于能把數據分區成有低類熵的子集的屬性,即大部分樣本都屬于一個單獨的類。C4.5算法利用熵原理,采用分而治之的方法來構造決策樹, 判斷樹的生長方向,通常基于信息增益或者增益率,即選擇信息增益率最大的屬性作為分類屬性。信息增益率等于信息增益對分割信息量的比值。

對樣本集T,假設A有s個不同取值的離散屬性,劃分為s1,s2,sn共n個子集,用A分割樣本集所得的信息增益的ID3算法相同,分割信息量由

C4.5算法作為ID3的改進算法,它簡單直接、易于理解和應用,能有效的生成決策樹,較好的解決了ID3算法多值屬性偏向問題。

二、可視化數據挖掘技術

可視化數據挖掘技術以數據挖掘技術和可視化技術為基礎,通過運用計算機圖形學和圖像處理技術,將數據挖掘過程中涉及的源數據、中間結果、最終挖掘結果模型以及整個數據挖掘過程以直觀化的方式呈現給用戶。可視化數據挖掘技術具有以下優點:在進行數據挖掘之前,通過人們容易理解的圖形、圖表等直觀的方式來表現復雜的數據信息,能夠加深用戶對復雜數據信息的理解,為較好的選取數據和確定數據挖掘任務打下基礎;在數據挖掘執行過程中,通過界面交互的方式,使用戶能夠觀察并管理數據挖掘過程,從而指導數據挖掘進度,保證數據挖掘的質量;最后,以特定的可視化圖形顯示數據挖掘生成的結果模型,使用戶能夠清晰、明了地理解所獲取的知識,做出有效的評估和反饋。

三、HTML5

HTML5標準將賦予瀏覽器更多的功能,使得瀏覽器能夠不通過插件就能夠實現位置跟蹤、本地存儲、離線應用、視頻音頻的播放以及通信功能。它將把互聯網帶向一個新的時代,使得基于互聯網的應用更加方便、高效和安全。它與HTML4最大的區別主要有兩個方面,第一個就是強化了Web頁面的表現能力,以往要使用Web頁面來播放視頻、音頻和動畫,瀏覽器需要安裝各13種各樣的瀏覽器插件,但是HTML5標準中,瀏覽器原生的對這些多媒體表現進行了支持。第二個就是豐富的API可供調用,包括本地緩存、離線應用、地理信息和通信等等。

四、C4.5實驗

在本算法中使用經典的根據天氣決定是否打壘球的例子。搜集14天的數據幫助建立決策樹:

根據前面的介紹可知,該算法最關鍵的是根據屬性的信息增益構造決策樹,主要代碼如下:

(1)決策屬性的熵,決策屬性的熵在本例中為“活動”屬性。主要用entropyResult(resultAttr)方法和ratio函數。(2)條件屬性的熵,用entropyAttr(attribute,resultAttr)計算條件屬性數目,然后用if方法根據條件屬性對結果屬性分組,最后用函數計算條件屬性的熵。(3)信息增益的計算,用gain(attribute,result)來計算。(4)排序,對所有條件屬性的信息增益進行排序選取決策樹每一步生成的樹節點使用javascript中Array對象的slice方法。

經過計算,條件屬性“戶外”有最大的增益,它用于決策樹的根節點,因為戶外有3種類型,根節點就有3個分支(晴天、陰天、雨天)。由于陰天的熵為0,直接生成葉子節點,其余2個屬性生成中間節點。在晴天和陰天分支中,分別根據根節點生成子樹的計算步驟遞歸生成子樹,在canvas中生成決策樹的過程,至此完整的決策樹生成成功。設定一組條件[晴天,炎熱,正常,弱],通過決策樹得到的決策過程為圖1所示。

總結

html5在繪圖方面具有強大的表現能力與良好的效率,通過與數據挖掘技術的結合以及與其他多種領域知識的結合,從而讓各類用戶能夠更好地共享可視化數據挖掘技術的成果,必將在互聯網與移動計算的發展過程中扮演越來越重要的角色。

參考文獻

[1]Hillol KarguPta,Jiawei Han.Next Generation of Data Mining. ChaPman Hall/CRC.2008.

[2]施惠娟,可視化數據挖掘技術的研究與實現,[D].上海,華東師范大學,2010,10-11.

[3]毛國君,段立娟等編著.數據挖掘原理與算法.北京:清華大學出版社.2007.

(作者單位:湖北工業職業技術學院)

主站蜘蛛池模板: 国产在线精品美女观看| 欧美久久网| 91精选国产大片| 久久久久久久蜜桃| 欧美天堂在线| 亚洲最大福利网站| 91麻豆精品国产高清在线| 日韩精品成人网页视频在线| 四虎影视无码永久免费观看| 精品自窥自偷在线看| 亚洲精品在线影院| 亚洲欧美激情另类| 亚洲日韩日本中文在线| 在线无码九区| 日韩无码视频播放| 伊人成人在线视频| 狂欢视频在线观看不卡| 国产美女人喷水在线观看| 毛片免费在线| 亚洲精品第一页不卡| 国产丰满成熟女性性满足视频| 亚洲精品无码成人片在线观看| 久久国产精品波多野结衣| 色综合中文| 黄网站欧美内射| 亚洲大尺度在线| 久久性妇女精品免费| 18黑白丝水手服自慰喷水网站| 黄色片中文字幕| 亚洲日韩第九十九页| 亚国产欧美在线人成| 国产精品福利在线观看无码卡| 五月丁香在线视频| 九九香蕉视频| 一本大道香蕉中文日本不卡高清二区| 国产综合网站| 一级毛片无毒不卡直接观看| 成人字幕网视频在线观看| 欧美成人手机在线观看网址| www.99在线观看| 毛片免费视频| 国产精品自在自线免费观看| 国产91丝袜在线播放动漫 | 天天婬欲婬香婬色婬视频播放| 国产一区二区人大臿蕉香蕉| 久草视频一区| 亚洲第一黄片大全| 久久精品视频一| 色综合手机在线| 欧美区日韩区| 青草91视频免费观看| 毛片免费高清免费| 丁香五月激情图片| 国产人人乐人人爱| 99在线视频精品| 亚洲天堂网在线播放| 日韩精品高清自在线| 五月婷婷丁香综合| 精品国产一区二区三区在线观看| 黄网站欧美内射| 91亚洲精品第一| 日日拍夜夜嗷嗷叫国产| 欧美午夜在线观看| 色悠久久综合| 日韩精品中文字幕一区三区| 国产欧美在线| 国产成人AV男人的天堂| 国产成人综合在线视频| 大陆精大陆国产国语精品1024| 青青草原国产av福利网站| 欧美日韩福利| 亚洲最大看欧美片网站地址| 国产成人高清在线精品| 国产十八禁在线观看免费| 国产黑丝一区| 在线看国产精品| 亚洲欧美日韩另类| 欧美激情首页| 色综合久久久久8天国| 日本精品影院| 久久情精品国产品免费| 亚洲最新在线|