王榕 江西外語外貿職業學院
大數據時代下,以大數據挖掘平臺為支持,能夠高質量、高效率的來對數據進行處理。在云計算背景下來構建大數據挖掘平臺,能夠促進數據挖掘獲取效率的顯著提升,有助于合理控制企業成本,滿足用戶對于挖掘計算的性能需求。可以說,云計算與大數據之間存在著密切的聯系,彼此相輔相成,大數據以云計算為基礎,并且是云計算的重要應用。
在先進科學技術的支持下,云計算作為一種先進的計算方式,以現代互聯網為支持,能夠結合實際需求出發,將網絡平臺各項可共享的軟硬件資源信息提供給計算機與其他設備。通過并行計算與分布式計算技術應用價值的協調發揮,云計算的優勢也得以充分凸顯出來,這就使得市場用戶在這一方面的需求也能夠得到滿足。從本質上來看,大數據挖掘就是以海量數據為對象,對高價值的需求信息數據進行挖掘,為用戶提供幫助,保證決策的科學性,通過數據挖掘技術應用價值的發揮,能夠為整個社會的和諧發展提供幫助。就云計算與大數據挖掘之間關系來看,彼此相輔相成,互相促進,大數據挖掘平臺的建立,以云計算為重要基礎,通過云計算的合理化運用,能夠將數據計算處理效率顯著提升,為企業創新發展提供可靠助力,企業也具備了創造更多經濟效益的能力。而在云計算發展過程中,大數據挖掘技術的應用占據著重要地位,通過預測任務與描述任務的協調配合,來促進云計算的穩定發展。這一過程中預測任務就是依照屬性值來科學預測目標屬性值,而描述任務就是對不同數據之間潛在的聯系模式進行有效總結。
現代社會快速發展,數據信息量巨大,個體在工作與生活中所接觸到的信息也具有多樣化的特征,工作效率與數據價值之間也存在著密切的聯系,這就需要做好數據價值挖掘工作,自海量信息中將具備潛在價值的數據精準提取出來,以此為依托,對大數據挖掘平臺進行構建,保證數據挖掘的時效性。傳統單機系統下,存在諸多不足,整體數據處理的運行效率不高,并且在這一過程中會消耗較多的能源,實際效果并不理想。而在云計算背景下,對大數據挖掘平臺進行構建,能夠確保與新時期下大數據挖掘計算性能要求相符合,可支配資源得以獲取,并且數量巨大。在云計算背景下,能夠于計算組成的“云”中分布復雜的計算任務,把握用戶實際需求,通過云系統諸多能力的發揮來對任務進行分配,這就需要就云系統的計算、應用以及存儲等能力進行綜合分析,確保高效率的開展數據挖掘,滿足市場用戶對于價值數據的需求。在海量應用數據中,數據挖掘就是隨機加工并處理,在系統篩選和優化工作,確保所獲取信息數據具有潛在的應用價值。大數據的特征在于復雜、模糊、海量,這就需要以先進存儲運算技術為支持來進行輔助。云計算技術的應用,能夠促進數據挖掘效率的提升,并且能夠有效控制用戶對于數據運算與存儲的成本。
大數據挖掘平臺中,數據挖掘法是一項重要技術,與統計學、建模學、模式識別等學科領域都存在密切關聯,神經網絡、統計分析、決策樹等都是常用的數據挖掘方法,其中統計分析有著簡單的操作,就是通過相關、方差、最大小值等方法來科學的統計分析數據統計規律。神經網絡方法的運用,以自我學習、適應和組織為顯著特征,主要以各項數據為對象,做出聯想分類和預測工作。決策樹的作用在于,分類整理相關數據,運用簡單圖形來進行準確描述。不同數據挖掘方法在不同行業領域內數據挖掘中的應用,必須要把握其特征,重視其各自優勢的發揮,立足市場用戶需求特點出發,保證數據挖掘的針對性和實效性。
云計算技術的應用,能夠通過分布式并行計算與文件存儲技術的應用來為用戶提供幫助。分布式并行計算技術源于科學計算領域,在云計算技術不斷創新的情況下,分布式并行計算技術也得以快速發展,在各領域內得以應用,范圍也逐步擴大,比較經典的應用案例為Spark和Hadoop。在數據挖掘工作中,通過分布式并行技術的合理化應用,能夠顯著提升工作效率。通過文件存儲技術的應用,能夠快速處理并加工數據,為并行計算的開展提供保障,并在學術領域和經濟領域創造較多的現實價值。
頂層構建需要重視工作流子系統和用戶接口子系統,以用戶為對象進行操作,前者作用在于為在數據挖掘相關任務的建立方面為用戶提供幫助,后者作用在于促進用戶交互功能的實現,以輸入模塊為支持來對參數進行設置,保證數據挖掘算法選擇的適用性,在MapReduce平臺的支持下,來對數據進行挖掘,所選擇理解方式必須具有可視化特征,來將結果呈現出來。在工作流子系統中,用戶可結合數據挖掘需求建立工作流任務,保持任務之間并行,任務內部也得以并行,用戶新算法的添加也更為便利。在用戶接口子系統中,包含用戶輸入模塊和結果展示模塊,依據并行分類算法來將算法參數輸入其中,并在結果展示界面生成直方圖或者圓餅圖等,保證數據挖掘工作的整體效率,大數據挖掘平臺構建的價值也得以充分體現出來。
在大數據挖掘系統中,以中間層為核心,其中模塊為數據預處理子系統和并行數據挖掘子系統。在云計算背景下,同類型、同結構的數據挖掘可通過MapReduce 計算模型來實現,在不規則大數據的預先處理方面,主要應用數據預處理子系統,經過處理后可獲得結果,數據挖掘算法的輸入得以明確。數據預處理過程中,一般會應用到數據轉換、數據抽取、集成以及加載等方法。在預處理后,噪聲數據、無用數據等得以有效減少,數據挖掘的整體效率也能夠得到明顯提升。在大數據挖掘平臺中,并行數據挖掘子系統占據著重要地位,隨著經典數據挖掘算法的出現,在應用過程中必須要積極整合、改造現有算法以及并行化策略,優化云計算平臺,從而確保數據挖掘的實效性。
在整個系統中,數據中心層處于底層位置,能夠對大數據進行存儲,通過分布式并行來處理數據。在數據中心層,為確保數據安全性與高可用性得到保證,必須要對多份副本進行保留。云計算過程中所應用的工作模式為并行式,能夠滿足大量用戶的請求需求,回應的時效性較強。
在社會發展新技術下,云計算技術不斷創新,大數據挖掘平臺的構建,要把握云計算背景,正確運用數據挖掘法和分布式并行技術,做好頂層、中間層和數據中心層的構建,確保大數據挖掘平臺具有良好的應用價值,能夠高效的處理加工海量數據,精準完成數據挖掘任務,滿足用戶需求,使得應用價值更為顯著,這對于整個社會經濟的穩定健康發展也具有重要意義。