賀俊
摘 要:在存留和解析多樣數據時,云計算能供應實效凸顯的解決路徑。明晰數據挖掘用到的特有算法,帶有側重的價值。建構在SLIQ之上的算法,采用逐一遍歷以及伸縮性指標的計算方法,尋找到精準的分裂點。建構出來的模型,能促動算法實效的升高。經由改進,SLIQ框架下的算法,增添了并行化情形下的挖掘效率。
關鍵詞:計算機云計算;SLIQ;并行算法
數目偏多的數據,經由數據挖掘,被歸整和處理。陳舊的挖掘算法,只可以輸入那種規模偏小的數據量;若數據量遞增,那么這樣的算法會縮減速率,很難提升原有的運算成效。云計算框架下的運算,能處理這種規模偏大的數據。若能摸索出并行化情形下的數據挖掘,就可化解掉這樣的疑難。SLIQ接納了新穎的編程模型,在既有的環境之下,建構出決策規則情形中的數據挖掘。
1 新穎算法概述
建構在SLIQ框架下的新穎算法,歸屬于決策樹分類這種算法,并凸顯了代表性。這樣的算法,可處理數目偏多的數據;而陳舊的分類器帶有的處理容量,只能升至600KB左右。因此,建構在SLIQ框架下的新穎算法,打破了陳舊算法特有的瓶頸。經由改進的SLIQ,帶有凸顯的分布特性,能與現有的數據挖掘狀態契合。
上世紀末這一時段內,學者經由摸索,創設出了新穎的SLIQ。這樣的新算法,速率很高,且能被延展,它建構在特有的模型之上,即決策樹這種模型。SLIQ可分出三個獨特階段,即預處理用到的階段、構建樹的獨特階段、修剪樹的獨特階段。預處理用到的階段以內,要排列出各類別數值帶有的屬性。在制備出來的類表以內,對葉的那些節點索引,朝向決策樹搭配著的根節點。建構樹用到的階段以內,采納新穎的、遞歸調用必備的路徑。修剪樹用到的階段以內,特有的修剪算法,描述的是獨特的最小長度。
2 經由改進的新算法
2.1 獨特的屬性分裂路徑
SLIQ框架下的新穎算法,搭配著可伸縮的新指標。用這樣的新指標,替換掉舊有的信息量。這樣一來,就生成了最適宜的那種決策樹。在計算體系帶有的特征值時,索引只考量類值現有的分布情形。對數值型的、帶有連續性的獨特字段,在尋找出分裂點的路徑中,可設定出如下幾步:設定一個特有的字段a,經由排序,可獲取到獨特數列,含有m個數值。分裂這樣的事件,會在帶有鄰近特性的那些節點中產出,因此,就運算出了m種這樣的可能性。選取數列涵蓋著的中點,當成備選情形下的分裂點。依循由小到大這樣的次序,選取出能用到的分裂點。在這之中,最小點歸屬于最佳的備選數值。
對那些帶有離散特性的獨特字段,要經由分裂測試,選取出字段含有的所有子集。把原有的字段,分出兩個獨特成分,運算得來不同的索引。當選取到那個最小狀態下的索引時,就尋找到了最好的那個分裂點。然而,要遍歷字段涵蓋著的一切子集,會耗費掉偏多的時間。
2.2 并行化路徑
經由改進,SLIQ框架下的新穎算法,可以并行化路徑。具體而言,要把體系搭配著的一切類表,存留在現有的處理機以內。在并行框架下,建構樹用到的階段,應被側重探究,而剪枝時段,不會耗費掉偏多的時間。要創設出并行建樹必備的路徑,就應尋找出最好的那個分裂點,同時建構出能用到的新節點。
若要執行這樣的分裂路徑,則要更替樣本涵蓋著的類表,以及特有的直方圖。直方圖含有的獨特字段,可借助運算得來索引。還應借助特有的哈希表,以便存留住分割點搭配著的兩側數值,并供應并行節點必備的分隔根據。經由改進,SLIQ框架下的算法,能存留偏多的內存,提升原有速率;同時,在很短時段內,可生成期待中的目標數。
3 可用的改進途徑
借助特有的編程模型,改進了陳舊算法,獲取到SLIQ框架下的新算法。編程模型搭配著的函數,會把各類別根節點既有的記錄,予以水平方位內的劃分。這樣一來,就分出了N個等同規模之下的子集,并獲取到特有的數據塊。對N個這樣的子集,增添現有的格式化特性。Map框架下的操作,會經由掃描,錄入各類別的記錄。在這以后,分出同種類別下的key,對應到精準的文件內。選取特有的模計算,把這些文件,搭配到既有的模型之上。
對那些帶有連續屬性的獨特字段,要依循由小到大這樣的次序,排列出字段涵蓋著的屬性值。與此同時,要生成精準的直方圖。初始數值,被設定成零。要經由運算,得來分裂點搭配著的索引數值。隨時去更替現有的直方圖,對那些離散情形下的連續字段,可以不排出次序,也可以不去更替原有的直方圖。初次掃描,可歸結出特有的直方圖,運算得來子集搭配著的索引數值。
SLIQ框架下的獨特操作,會依循既有的分裂點,建構出可用的哈希表。這種表單內,第m條獨特記錄,就表征著源數據含有的第m個獨特樹節點。比對現有的輸出數值,選取出最小的那種索引,關聯起既有屬性,以及既有的數據表。對各類別工作站含有的偏小的索引,比對它們搭配著的屬性數值。這樣一來,就獲取到了最小情形下的指標值,它就歸屬于最好的那種分割點。經由年齡框架下的直方圖,可運算得來Age表征著的屬性。經由遍歷,可獲取到最好的那種分割點,這就增添了運算實效。
[參考文獻]
[1]楊長春,沈曉玲.基于云計算的SLIQ并行算法研究[J].計算機工程與科學,2012(03).
[2]王鄂,李銘.云計算下的海量數據挖掘研究[J].現代計算機(專業版),2009(11).
[3]高勛.基于云計算的Web結構挖掘算法研究[D].北京交通大學,2010(06).