張智駒
(重慶航天職業技術學院,重慶 400021)
伴隨著數據挖掘平臺的容量不斷增加,很多數據分析和數據計算都要站在更高的層面上探究。云計算技術的運用能夠對數據挖掘平臺提供更多的服務,在一系列的問題解決和調整層面上,告別了傳統技術的不足。但是,二者共同融合、共同服務的時候,必須加強制度的優化和平臺管理的創新,保持數據挖掘平臺的穩定運行。
云計算技術是一種以互聯網為基礎的計算模式,通過虛擬化的方式處理信息資源,并進行計算云計算技術具有強大的儲存功能,能夠有效提高用戶使用的便捷性,云計算是并行計算和分布式計算的發展結果。數據挖掘是指從大量數據中挖掘具有價值數據的過程,通過數據挖掘能夠發現大數據中所隱藏的價值和知識,并對用戶進行指導作用,目前數據挖掘技術并用到了多個領域的決策指導中。數據挖掘主要包括預測任務和描述任務兩種預測任務是指根據屬性對目標屬性做出預測描述,任務則是將數據間隱藏的聯系所描述出來。在大數據中應用數據挖掘能夠獲取更大價值的信息數據,從而為各行各業創造出更大的效益。
在數量龐大的數據中隱藏著具有很高價值的數據信息,同時數據類型也存在多樣化的特點,比如說文本形式,數據信息,圖片,視頻形式的數據信息。大數據挖掘就是指從這些海量的數據中挖掘出具有價值的數據信息,然后為用戶提供所需的數據由于大數據數量龐大,價值密度低,導致傳統的數據挖掘,無法快速高效率的挖掘數據。因此全新的大數據挖掘技術就此出現并發揮出了積極的作用,大數據挖掘具有廣泛性,主動性和復雜性的特點,廣泛性是指大數據挖掘過程中,挖掘的數據源十分廣泛,主動性是指大數據挖掘使用收集數據的方式,主動進行數據收集,復雜性則是指大數據挖掘過程中挖掘的數據類型十分復雜。
近年來我國互聯網技術在不斷的發展,數據傳輸的速度變得極快,因此產生的數據量也越來越多,對于用戶來說信息需求較大,這種時候大數據技術和云計算技術得到了快速的發展,以此來滿足用戶的需求。在大數據時代傳統的數據挖掘已經無法滿足用戶需求,需要通過基于云計算的大數據挖掘來解決數據挖掘存在的問題,不僅能夠彌補傳統數據挖掘中的漏洞,還能夠有效地提高數據處理的速度和效率,實現大數據挖掘。基于云計算的大數據挖掘具有眾多的優勢,能夠在海量數據中挖掘出有價值的信息,并將數據信息高度應用,這是傳統數據挖掘技術的創新發展,能夠實現大數據時代的快速傳遞和處理。
本文提出基于云計算的數據挖掘系統,以應對日益暴增的數據。該系統由云計算平臺和數據挖掘算法兩個部分組成。云計算平臺采用SPARK 框架,之所以不選擇HADOOP,主要是因為SPARK 相比HADOOP 具有更高的效率,適合迭代運算,并且用戶只需要定義好算法邏輯,即可,其余的如大數據處理的底層交互、節點通信、數據運算等都可以由SPARK 框架自由實現。數據挖掘算法方面則有很多種實現方法,比如分類決策樹算法,該算法的核心是ID3 算法,屬于機器學習算法中的一類,分類決策樹發揚了ID3 算法的長處,實現了用信息增益率來選擇屬性,可在決策樹構造中進行剪枝,可以對連續屬性進行離散化處理,可以對不完整數據進行處理。該算法實際上并不高效,因為其在構造決策樹的過程中需要對數據集進行多次順序掃描以及排序,而且僅適合可以駐留在內存中的數據集,如果數據集大,會導致宕機。猶如K-means 算法,該算法在1967 年便已經出現,后續經過版本更替,其算法描寫可以敘述為輸入簇的數目K,包含N 個對象的數據集D,輸出K 個簇的集合。
云計算平臺通過SPARK 框架來進行架構,在SPARK 框架下,主要是講數據以分區方式存儲,即RDD,在數據處理中,SPARK 需要先對待處理數據創建一個RDD,然后對RDD 施加轉換和行動操作。轉換的主要目的是促使RDD 迭代,即利用某些函數來促使舊的RDD 迭代為新的RDD,然后行動操作利用具體的算法來將RDD 中的數據進行計算,進而返回計算結果。RDD 默認情況下是存儲在內存當中,對內存的要求非常高,當然實際上可以通過調整設置,將RDD 存儲在存儲器當中,但運算速度會比較慢,一些經常使用的RDD 若存儲在存儲器當中,在運算時需要將其調用至內存中,多了一個過程,導致變慢,所以可以將一些常用的RDD 保存在內存中?;赟PARK 的云計算平臺架構,用戶采取自定義程序的方式,先定義好應用程序,然后提交至SPARK 集群,主節點上啟動進程MASTER,子節點上則啟動進程WORKER,主節點進程MASTER 會在子節點的WORKER 上啟動一個任務管理程序DRIVER。在DRIVER 中,任務的復雜程度由SPARKCONTEXT 進行判別并向主節點申請處理器和內存的資源。
隨著科技的發展和時代的進步,云計算與數據挖掘平臺結合以后,實現了平臺的全面創新,整體上的工作安排比較符合預期目標,在技術的創新效果上非常顯著。但是,云計算的運用也是不斷革新,在二者的功能融合和技術聯動過程中,需要對數據挖掘平臺的風險、云計算的風險開展深度的評估,站在不同的層面上進行探究,提高數據挖掘平臺的可靠性。