◆張 珍
云計算環境下的數據挖掘算法探究
◆張 珍
(四川托普信息技術職業學院四川611743)
隨著計算機技術的飛速發展,對數據挖掘的精度和速度要求也原來越高,傳統的數據挖掘算法已難以滿足要求,基于此探究了云計算環境下的幾種數據挖掘算法內涵。首先對云計算和數據挖掘算法的內涵進行了概述;其次重點探究了云計算環境下基于Hadoop的海量數據挖掘算法、基于MapReduce的協同過濾數據挖掘算法及基于概率回歸模型的異常數據挖掘算法內涵及應用;最后展望了云計算環境下數據挖掘算法的發展中存在的問題和趨勢。
云計算;數據挖掘算法;Hadoop;MapReduce
關于云計算的理論概念,國內外學術界尚未形成統一觀點,以NIST(美國國家標準技術研究院)具有代表性:通過網絡搜集共享計算資源,并以最低的管理代價和最精準的計算方式獲取結果的新型IT運算模式。學者徐浙君(2018)[1]認為:云計算是一種高速計算的分布式系統,它以Web2.0技術為核心,通過抽象虛擬的網絡資源池為用戶提供計算機存儲和計算服務。目前,對云計算支撐技術的研究已形成多元化發展態勢,其中以Hadoop、分布式文件系統HDFS和MapReduce編程模型為核心,通過基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)實現計算功能。
數據挖掘是20世紀60年代以來逐漸發展起來的一種高級計算機數據處理算法,它的內涵為:從大量、有噪聲、模糊且隨機的數據中提煉出有潛在應有價值信息的過程性算法。它主要包括收集云端海量數據、前期數據處理、數據挖掘、挖掘結果表達評估及提取有效信息五個過程。傳統模式下的數據挖掘算法通?;趶碗s的數學邏輯運算模型,需要研究人員在經過大量運算后才能夠得出針對挖掘數據的精確結果,整個過程專業性強且異常復雜。云計算技術出現后,大量的研究表明:依托云計算構建的高效平臺可提供實時高效的分布式并行數據挖掘服務,并體現出挖掘門檻低、系統自動分配運算等特點,大大提升了針對海量數據挖掘處理的效率。
Hadoop是云計算技術中的核心技術,它以HDFS為系統管理存儲,并以MapReduce為模型進行云計算操作,基于此構建針對海量數據挖掘、分析和共享的平臺。Hadoop支持海量密集型數據的挖掘運算,通過Apache 2.0許可協議發布開源算法軟件框架。以Hadoop為核心構建海量數據挖掘算法的系統已成為近年來數據挖掘技術發展的新趨勢,本文在綜合已有研究的基礎上提出基于Hadoop的海量數據挖掘算法模型如圖1。

圖1 Hadoop的海量數據挖掘算法模型
如圖1所示,Hadoop的海量數據挖掘算法模型由三層構成,分別是云計算處理層、數據挖掘處理層和數據應用展示層。首先,云計算處理層位于最底層,是數據挖掘及分布式并行處理的核心層,通常基于HDFS數據存儲技術,實際運行中平臺可自動調用數據挖掘各節點的模型維持這對數據運算的正常操作,達到分布式處理數據的基本目標。其次,數據挖掘處理層位于中間層,由數據挖掘算法數據處理加載兩個子系統構成,其功能為依托具體的數據挖掘算法,如:關聯類算法Apriori、FP-growth等,或聚類算法EM、DBSCAN等,對底層提供的數據進行挖掘計算。最后,數據應用展示層位于最頂層,是一個面向用戶的系統層,它負責將前期預處理后的數據流通過挖掘算法系統植入應用程序中,建立起實現用戶交互功能的展示界面,解決了云計算環境下數據從挖掘到應用的問題。
協同過濾算法是傳統數據挖掘的主流算法,其目標為[2]:以用戶的興趣需求為依據通過協同過濾的算法系統生成最符合用戶要求的項目,并將該項目推薦給用戶使用。由此可見,協同過濾算法基于用戶需求,體現了數據挖掘算法中的人性化特色,傳統的協同過濾算法涵蓋M項用戶集合U,以及N項的項集I,主要通過求相似值的方法得到推薦項目。云計算環境下基于MapReduce可實現系統過濾算法對數據挖掘的植入功能,具體來說,可將原有協同過濾算法中項計算分為4個MapReduce步驟,首先,求解數據項的平均值。面對大量的數據,在Map-I階段提取項目號、評分號,將相同鍵值的輸入進行求和運算,在此基礎上在Reduce-I階段中運用Combiner合成器輸入帶求的和值。其次,求解數據項的相似值。在Map-II階段分析Mapper的個數,并判斷每個Mapper的復雜度系數,并在Reduce-II階段中進一步計算各個Reducer的復雜度。再次,求解用戶項預測評分。在Map-III和Reduce-III階段繼續通過預測計算法構建預測值矩陣求解各用戶項的預測評分。最后,構建MapReduce體系預測數據評分。將上述I、II和III三個階段的預測值整合起來構建系統過濾模型,按照用戶的標識需要輸入預測值,通過并行化算法得到數據挖掘的結果。
傳統數據挖掘算法執行中常常會產生異常數據,異常數據的產生與系統算法的精準度和可靠度有密切關系,且難以完全消除,它會影響到針對數據挖掘的有效性和準確度?;谠朴嬎悱h境下可通過構建概率回歸模型的形式,對異常數據進行精準的發掘識別,為數據的高效處理提供依據。本文在綜合前人研究成果[3]的基礎上,提出通過在云計算環境下引入混沌算法構建異常數據挖掘算法概率回歸模型的思路,具體的模型算式為:

本式中*和*指代云計算環境下數據挖掘算法的線性回歸系數,異常數據的時間序列則以Xl、X2和X表示,上述概率回歸方程算式提供了云計算環境下針對異常數據的挖掘思路,在此基礎上進一步引入混沌算法構建如下算式可實現對異常數據的精準挖掘:

本式中的、和均來源于概率回歸方程式中針對待分析數據的挖掘,具體的算法判斷標準為:如分子項結果成立,則表明是異常數據,且出現頻度較高;如分母項成立,則表明不是異常數據。通過引入混沌算法和云計算環境構建的式(1)和式(2),可實現對海量數據挖掘過程中異常數據的精準識別。
本文對云計算環境下的數據挖掘算法進行了細致研究,通過對前人研究成果的梳理總結出三種應用推廣性較強的具體算法,并進行了詳細的解讀,希望能夠了為數據挖掘算法的發展提供理論參考。目前,針對云計算環境下的數據挖掘算法研究和應用已逐漸成為學術界研究的焦點,通過對已有文獻的查閱發現,現階段該領域的發展呈現“算法多元化,但應用局限化”的問題,即:很多學者在傳統數據挖掘算法的基礎上,通過引入云計算思想創設了多種全新的數據算法,但真正能夠將這些算法推廣并用于實踐項目的案例十分稀缺。此外,在算法的實踐中還有一些云計算配套環境搭建的問題有待解決,希望能夠通過更進一步的研究盡快解決。
[1]徐浙君.云計算下的一種數據挖掘算法的研究[J].科技通報,2018(11):209.
[2]耿德志.云計算環境下海量信息故障數據挖掘算法[J].計算機產品與流通,2018(11):103.
[3]馬寧,廖慧惠.云計算環境下頻繁出現異常數據挖掘方法研究[J].赤峰學院學報(自然科學版),2017,33(03):31-32.