999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機云計算的SLIQ并行算法實踐研究

2017-07-21 03:15:49
中國高新技術企業 2017年12期
關鍵詞:排序數據挖掘計算機

孫 娟

(江海職業技術學院,江蘇 揚州 225101)

計算機云計算的SLIQ并行算法實踐研究

孫 娟

(江海職業技術學院,江蘇 揚州 225101)

隨著云計算的出現,當前的數據分析和存儲變得更加方便和高效。在傳統的SLIO計算方式之中有著許多的缺陷,在計算機云計算環境之中需要對這些缺陷進行有效的改進。文章對計算機云計算與SLIQ的并行算法展開了實際性的研究。

計算機;云計算;SLIQ并行算法;數據分析;數據存儲

在數據挖掘的過程中必然會遇到海量的數據處理和計算,而在傳統的SLIQ計算方式中更傾向于小規模的數據處理與計算,一旦數據量過大就會使得運算的速度等影響到最終的挖掘效率,甚至會讓計算出現無法進行的問題,這也是傳統SLIO計算方式的一大瓶頸。計算機云計算的出現正好能夠改變這種現狀,云計算更傾向于大數據的處理和計算,如果將其與SLIO計算方式相結合,通過并行計算將會有效地改變挖掘計算困難的問題,從而實現海量數據的處理與運算。下面根據筆者自身的經驗,對計算機云計算的SLIQ并行算法展開探討。

1 SLIQ算法的概述

SLIQ算法最早于1996年被提出,是一種高速的可調整的數據挖掘分類模式計算方法。SLIQ算法在計算設計上面采用的是預排列思路,當數據量較大的時候,又不能將所有的數據全部放入內存駐留磁盤,此時會將這些數據進行排序,同時處理離散和連續的字段。SLIQ算法是基于此點之上采取廣度優先的方式完成決策樹的構建,其在計算的過程中會對每層節點的屬性表進行掃描,然后根據掃描的結果找出當前的最優分裂方式。在形成新的節點之中進行取值,并對列表的類型進行節點信息更新。

2 云計算的SLIQ計算改進

2.1 決策樹中的Gini指標

在通常的情況下,決策樹中會選用信息量來作為評價節點分裂質量的參數,在SLIQ算法之中則對此做出了改變,利用Gini指標來代替信息量的位置,其應用起來性能相對更好,讓整個計算變得更加的簡便、高效。在Gini指標之中,主要是用來度量數據劃分或者訓練元祖級的純度。當Gini指標出現變小的情況時則預示著信息增益量變大,對于節點分裂的質量也就越好。在此過程之中也可以對數據集進行分裂,從而形成二元劃分,如果其中存在著一些連續值屬性和離散值屬性則存在著一定的不同。在面對離散值屬性時,需要選擇該離散值屬性產生最小指標的子集作為分裂子集。

SLIQ算法與傳統算法在決策樹的形式上也有著很大的不同,SLIQ使用的是二分查找樹結構,對于該種結構在計算上要求更高,需要先對其中的每個節點進行計算,并從計算結果之中找到分裂的方式,然后進行分裂。可能直接這樣說理解起來較為困難,現以實際距離進行分析:在一個字段之中,如果發生分裂通常都會是在其中點的位置,將該字段進行排序,一共具有N個節點,分裂發生時只會是在兩節點的中間,也就是說在N個節點中會出現N-1個可能性,然后從小到大依次取其中不同的分裂節點,從中可以找出Gini指標最小的分裂點。但是其中也存在著特殊的情況,如離散字段可能的分割則是屬性值中的所有子集,在展開分裂測試的時候就需要將其中存在可能的所有子集都取出來。

SLIQ算法中重要的技術優勢在于事先排序和廣度優先者兩種技術思路上面,也正是這兩種技術的運用使得SLIQ算法變得更加的高效。對于事先排序技術而言主要是為了消除在決策樹中每個節點對數據集進行排序的過程,從而實現性能上的優化。對于廣度優化技術主要是為了節省對每個節點掃描的時間和占用的資源,從而有效地提升SLIQ算法的運算速度。

2.2 SLIQ最佳分裂

在SLIQ計算中,Gini index通常表示的是可伸縮指標,這個指標通常被用來替代信息量,在生成新的決策樹中起到非常重要的作用。對其定義為在數據集中包含多個記錄,則Gini index可以用下面式子來進行表示:

如果在上式之中的集合D被分成兩個部分,分別用D1和D2來進行表示,則關于Gini index可以用下面的式子來進行表達。

在上面的公式之中Pj指的是在該集合之中出現j類數據的頻率。而對于Gini index來說最大的特征之處在于計算過程中需要考慮其中的數值在被劃分之后的分布情況。

對于其中出現數值連續型連續字段的時候,查找其中最合理點的方法為:首先假設有字段a為數值連續字段,對其進行預排序操作,然后得到R1、R2、R3、……、Rn的排序結果,在分裂的過程中沒有一定的規律,經常會出現在兩個相鄰節點內,也就是存在著n-1種分裂的可能性。按照正常的運算方式選取分裂的候選節點,通常會選擇中間的節點,因此分裂形式可以表示為a≤Ri和a>Ri,然后按照從小到大的順序排列分裂點,將其中最小的分裂點定位最佳的候選節點。

在針對離散字段進行處理的時候,其情況同連續字段有著極大的相似之處。首先將分裂測試數集字段b分為兩個集合,分別為b1和b-b1,然后對這兩個部分分別進行計算得出Gini index數值,取Gini index數值之中的最小值,則該值對應的分裂點就是最佳的分裂點。

2.3 對SLIQ的適應性改進

在實際應用過程中為了能夠讓SLIQ算法適用于當前的海量數據處理和運算,需要對SLIQ算法做出適當的并行化改造,才能夠讓它在云計算之中獲得良好的處理效果。SLIQ算法并行化改造的方法為:將整個類表復制到每個處理器的內存之上。并行算法又稱為Generate decision tree,因為數據劃分D的訓練元組產生出決策樹。在輸入上面:數據劃分D是訓練元組對應類型標號的集合;attribute list,候選屬性集合attribute selection method,作為劃分最合理的數據元組,并作為個體類數據的分類準則的過程。這個準則是由分裂屬性和分裂點、分裂子集構成。在輸出上面:首先將一個決策樹作為此次的輸出目標,具體操作如下:創建一個數據節點;將d集合之中的相同類型數據都歸于c集合中;返回并對c進行標記;如果其中的attribute list是一個空的集合,則需要再次返回并標記d集合中的多數情況,然后使用attribute selection method和d集合中的attribute list找出最佳的節點分裂位置。將SLIQ算法進行改進之后,取得的最大優勢在于類表輸入到內存的速度將會被提高,這也就使得這個過程被極大簡化,讓其在較短的時間內就能夠完成,而且生成出來的目標數也較小。

2.4 在Map Reduce中SLIQ的改進

當然改進的方式還可以采用Map Reduce編程的方式來實現,其操作的具體步驟可以按照下面的方式實行:

第一,將所有收集到的根節點數據記錄運用Map Reduce函數來進行劃分,形成m個子數據集合,它們的規模基本相同,然后將數據塊劃分為Input Splito。

第二,將上述劃分得到的m個子數據集合采取格式化操作,會產生出<key,value>對,格式化為<Sn,<idn,tn,val-Ue,則此時格式化中的Sn表示的含義是m個子數據集合中的第n個表格的第s列;to表示的是第n個表格所對應的屬性值;idn則表示的是第n個表格之中的數據單元索引值;val-uel表示的是記錄的類別。

第三,Map Reduce操作實質上可以分為兩個操作的過程,首先是Map操作:通過該操作會將輸入進來的相關記錄進行仔細的掃描,然后按照特定的程序進行分類整理,把其中key相同的數據放在一起存儲到相應的文件之中,然后才是將文件配置到Reduce之中,執行接下來的操作。

第四,針對其中的連續行數據段首先按照特定的順序進行排序,生成與之相對應的直方圖,并將初始階段設置為0,極端分裂點Gini rode值就是Reduce所對應的任務,然后在操作過程中只需要實時更新類對應直方圖,不需要對直方圖進行更新,然后利用類直方圖就可以準確地計算出相對應的Gini index值。

3 結語

綜上所述,云計算在處理和計算海量的數據時表現出來的優勢是無法替代的,而要想在數據挖掘中實現海量數據處理和計算,將SLIQ算法并行改進是一種十分可行的方式。因此,在本文中分析了云計算環境下的MapReduce的改進算法,說明在云計算的環境下決策規則和并行化是十分重要的基礎,在實現的過程中可以通過對SLIQ算法的改進,從而獲得對其高速運算的支持。

[1]賀俊.探究計算機云計算的SLIQ并行算法分析[J].無線互聯科技,2014,(2).

[2]崔學敏,張傳勇.云計算技術中計算機海量數據SLIQ算法的應用[J].電子技術與軟件工程,2015,(18).

[3]何元.基于云計算的海量數據挖掘分類算法研究[D].電子科技大學,2011.

[4]杜亞光.大跨度自錨式懸索橋結構并行計算算法與主梁恒載狀態研究[D].西南交通大學,2013.

[5]張敏.云計算環境下的并行數據挖掘策略研究[D].南京郵電大學,2011.

[6]高華.計算機海量數據處理SLIQ算法研究[J].長春工業大學學報,2016,(4).

[7]李筱.面向異構多核系統的并行計算模型和調度算法研究[D].湖南大學,2012.

(責任編輯:黃銀芳)

TP393

1009-2374(2017)12-0011-02

10.13535/j.cnki.11-4406/n.2017.12.006

孫娟(1977-),女,江蘇江都人,江海職業技術學院講師,碩士,研究方向:計算機應用技術。

A

猜你喜歡
排序數據挖掘計算機
排序不等式
計算機操作系統
探討人工智能與數據挖掘發展趨勢
恐怖排序
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 内射人妻无码色AV天堂| 国产真实乱了在线播放| 国产中文一区a级毛片视频| 国产精品男人的天堂| 国产精品99一区不卡| 亚洲侵犯无码网址在线观看| 国产成人精品一区二区三区| 亚瑟天堂久久一区二区影院| 91在线丝袜| 日韩人妻无码制服丝袜视频| 成年免费在线观看| 免费全部高H视频无码无遮掩| 中文国产成人精品久久一| 国产青青操| 亚洲精品无码不卡在线播放| 国产成人亚洲无吗淙合青草| 伊人无码视屏| av一区二区三区高清久久| 十八禁美女裸体网站| 视频二区国产精品职场同事| 欧美日韩高清在线| 亚洲欧洲国产成人综合不卡| 91麻豆精品视频| 久久久国产精品免费视频| 亚洲综合一区国产精品| 亚洲无码免费黄色网址| 在线国产91| 精品久久香蕉国产线看观看gif| 国产黑丝视频在线观看| 97人人做人人爽香蕉精品| 亚洲欧美日韩动漫| 国产一级在线观看www色| 99re66精品视频在线观看| 色婷婷成人网| 国产成人欧美| 日韩资源站| 九色视频最新网址| 这里只有精品在线| 人人爽人人爽人人片| 久久久久久久久亚洲精品| 欧美日韩亚洲综合在线观看| 高清精品美女在线播放| 久久精品视频亚洲| 午夜视频在线观看免费网站| 最新无码专区超级碰碰碰| 57pao国产成视频免费播放| 高清无码手机在线观看| 国产欧美日韩另类精彩视频| 国内精自视频品线一二区| 久久午夜影院| 国产精品午夜福利麻豆| 性欧美精品xxxx| 日本高清成本人视频一区| 国产SUV精品一区二区6| 欧美精品成人一区二区视频一| 欧美国产成人在线| 91精品啪在线观看国产| 色噜噜在线观看| 国产91小视频在线观看| 国产女人在线| 久久青草精品一区二区三区| 日本不卡视频在线| 国产乱论视频| 一级一级一片免费| 国产精品第一区在线观看| 欧美精品啪啪| 亚洲第一色网站| 日韩A级毛片一区二区三区| 全部毛片免费看| 久久精品国产91久久综合麻豆自制| 2021国产v亚洲v天堂无码| 亚洲国产日韩在线观看| www.国产福利| 在线亚洲精品福利网址导航| 亚洲人精品亚洲人成在线| 麻豆精选在线| 福利小视频在线播放| 国产福利观看| 欧美一区二区人人喊爽| 成人久久18免费网站| 77777亚洲午夜久久多人| 扒开粉嫩的小缝隙喷白浆视频|