摘 要:大數據在目前的社會生活中被廣泛的應用,但是隨著數據的急劇膨脹,已有的技術在數據分析方面已經具有了局限性,所以需要研究新的方法和技術實現對大數據的分析。從當前的研究分析來看,大數據應用的兩個主要技術特征是分布式和流動性,所以以分布式數據流為數據表達載體,在此基礎上設計對應的大數據分類模型和挖掘算子,這樣可以有效的構建解決問題的對應算法,解決現實數據分析中的難題。文章基于分布式數據流做大數據分類模型和算法的研究,旨在為大數據分析提供指導和幫助。
關鍵詞:分布式數據流;大數據;分類模型;算法
大數據在當前的生活中利用非常廣泛,其在各行各業的發展中起到的積極的作用,所以就大數據的分析和應用,各個國家都十分的重視。我國就大數據進行了分析和研究,使得大數據在產業結構調整方面發揮出了積極的效用,但是因為現階段的數據急劇膨脹,原有的數據算法和處理技術難以滿足實際需要,因此需要對大數據的具體利用做創新。基于此,討論分布式數據流的大數據分類模型和算法有較為顯著的現實意義。
一、大數據的分類模型
從具體的分析來看,具有分布式和流動性為主要技術特征的大數據分類模型可以定義為M=
二、算法設計和分析
基于大數據的分類模型做具體的算法設計和分析,這樣會更加準確的理解算法設計的理念,從而在實際運用中更好的利用算法進行數據分析。
(一)局部節點的微簇抽取算法
首先,基于大數據的分類模型所設計的第一種算法為局部節點的微簇抽取算法。此算法具體指的是當一個局部節點的當前數據塊被收集完成后,接下來的工作就是對其進行微簇挖掘。整個挖掘的過程有兩步:其一是對當前的數據塊進行微簇劃分。在劃分的過程中需要對大數據的分類挖掘特點進行考慮。如果分類過程中出現了類別標識不明顯的情況,可以采用比較經典的無監督學習算法實現數據的聚類。其二是對聚類得到的數據微簇抽取,這個工作的具體進行需要對每個類簇的數據做相應的統計值抽取。通過上述的兩個步驟實現對局部節點數據的計算,這樣可以就大數據的具體利用提供依據。
(二)局部節點的增量式微簇抽取算法
其次是局部節點的增量式微簇抽取算法。從具體的分析來看,在挖掘時間點不斷變化的情況下,一個局部節點維護的微簇集合需要做及時的更新,這樣,其才能夠適應新數據的變化,依據現階段利用的增量式方法,對局部節點的微簇進行維護意味著利用當前數據塊獲得的微簇集合對上次挖掘點維護的微簇集合進行增量式更新。需要注意的是,作為局部節點的局部模式,一個節點上所維護的微簇模式中的微簇數據必須要進行適當控制,不能使其在時間變化的情況下無限制的增長,至于具體的控制,可以做閾值參數的設置,利用參數做控制,微簇的數據量能夠保證在可控范圍內。
(三)中心節點的樣本重構算法
最后是中心節點的樣本重構算法。對數據挖掘的流程做具體的分析可知,在一個挖掘點上,當一個局部節點的微簇模式被更新完成后,其會通過網絡傳輸到中心節點上,當所有局部節點的當前微簇模式都被傳送到中心節點的緩沖遲之后,中心節點會啟動全局模式進行挖掘工作。為了對全局模式的預測能力和抗干擾性先進性提升,可以利用集成分類器做全局模式。在這種模式下,微簇模式不能夠作為直接的學習樣本被使用,所以需要對此問題做解決。從實際研究的結果來看,利用局部節點傳送過來的微簇模式進行重構,以此達到全局學習樣本的使用要求,這樣,全局模式的使用難題得以解決。總之,利用中心節點的樣本重構算法也能夠實現對大數據的有效計算。
結束語
綜上所述,在大數據利用實踐中,隨著數據信息的膨脹,現有的技術處理手段和方法已經不能滿足于數據處理實踐的需要,因此需要利用全新的技術和方法做大數據計算。基于大數據計算分布式和流動式的主要技術特征做大數據模型的具體分析,并在模型基礎上討論算法的設計,這可以為數據計算實踐提供幫助。
參考文獻
[1]談海宇.面向大數據的流分類挖掘算法及其概念漂移應用研究[D].南京郵電大學,2016.
[2]陸元福,彭天慈,季開洋,等.基于Storm平臺的流挖掘算法及抵抗概念漂移系統的設計與實現[J].電腦知識與技術,2016,12(9):11-13.
[3]李召希.基于MR的分布式數據流計算引擎研究與實現[D].中國科學院大學,2016.
[4]韓德志.2016BIGDATA351大數據環境下的分布式數據流處理關鍵技術探析[J].計算機應用,2016.
(作者單位:青島酒店管理職業技術學院)