(蘭州文理學院數字媒體學院 甘肅 蘭州 730000)
在21世紀,科學技術的快速發展,使物聯網、云計算等新型技術相繼誕生,與此同時,互聯網技術的迅速普及與推廣,使計算機的應用變得越來越深入,數據量也呈現出幾何倍數的增長,人們對計算機的數據處理能力也有了更高的要求。面對海量的數據,如何提高計算機的數據挖掘與處理能力,已經成為現下非常重要的熱門話題之一,通過對海量數據的充分挖掘,能夠幫助人們更加快速的找到所需信息,進而提高數據的利用價值,促進各個領域的發展。由于這些海量數據廣泛的分布于互聯網中,這也使數據的挖掘變得較為困難,特別是在云計算環境中,不同的數據挖掘技術都有著獨特的特點。以下便對云計算環境中不同模式的分布式數據挖掘方式進行探討,以此研發出基于云計算的云數據挖掘引擎,以便于更好的提高計算機對海量數據的存儲、管理與計算能力。
在網絡環境中,海量數據的存儲位置是不同的,而分布式數據挖掘,便是根據用戶的需求來對這些數據進行提取的。通過分布式數據挖掘的有效應用,能夠為基于云計算的數據挖掘引擎開發提供有力的理論支撐,從而更好的提高數據挖掘引擎的性能,使數據挖掘引擎的優勢得以最大程度的發揮。為此,以下便對分布式數據挖掘的三種不同模式進行分別闡述。
Agent模式又被稱之為主體形式的分布式數據挖掘模式,該模式具備較強的自適應性、自主性、協作性與自治性,其通過多個Agent的利用來彌被分布式數據挖掘引擎在數據挖掘過程中存在的不足之處。在Agent中設置有相應的數據本地訪問機制,這使Agent能夠對數據進行讀寫操作,并且也使本地數據的安全性大大提高,有效保護了用戶的隱私。用戶在對Agent進行初始化以后,Agent會根據分布式數據挖掘引擎的運行情況來實施調整,進而降低了數據挖掘中的干預,當數據源改變時,Agent還能對數據源進行動態選擇,從而利用靜態數據挖掘方式來實現動態數據處理。Agent協作性特點能夠更好的發揮分布式數據挖掘的并行、分布挖掘優勢。現階段,Agent模式在進行數據挖掘時,主要是采用“葉脈狀”的結構框架,該結構是從一個基礎點向若干個分系統進行逐步拓展的,在數據挖掘系統中,不同的分系統之間是存在內部聯系的,并且這些系統還能互相影響。利用這種“葉脈狀”的體系結構,能夠使Agent成為整個挖掘引擎中的唯一語言,進而使云數據挖掘引擎所具備的服務能力得到極大提高,使其更能滿足用戶的數據挖掘需求。
Foster模式又被稱之為基于網格的分布式數據挖掘模式,Foster模式對電力網絡的概念及其特點進行了充分的借鑒,并依據網格理論對數據挖掘模式進行了具體的設置,從而使數據挖掘引擎對網絡的使用變得更加便捷,使用戶對網絡的使用要求得到了最大滿足。Foster模式和以往的分布式計算模式進行比較,Foster模式利用網格來進行設計,其優勢將更加明顯,該模式不僅能夠實現海量資源的大規模共享,而且也為人們在數據挖掘中提供了全新的服務方式,使數據挖掘引擎的服務范圍得到了極大拓展,進而提高了數據挖掘引擎在網絡中的信息服務能力。此外,網格分布式數據挖掘模式,在功能上更加適用于具備高性能的計算機系統,它能夠為計算機提供大量的遠程資源、軟件資源與儲存資源。Foster模式與Agent模式相比,其在應用優勢上各有不同,這也使其能夠為基于云計算的云數據挖掘引擎的設計與研發提供科學的理論依據。
云平臺模式下的分布式數據挖掘也是非常重要的海量數據挖掘方式,該模式主要是利用虛擬化技術來實現數據挖掘的,該模式和網格模式下的分布式數據挖掘存在許多共同點,不過云平臺模式更加注重于數據安全、商業模型、模型計算及模型編程,并且能夠支持抽象化的數據應用,這也使其在功能上更加強大,同時可以依據規模經濟效益原則,使其能夠根據用戶的自身需求來提供數據存儲、數據計算等云服務,進而使用戶在數據存儲與計算等方面的需求得到有效滿足。可以說,云平臺模式下的分布式數據挖掘在實用性上要更高,更能充分發揮數據挖掘引擎的應用優勢。
為了使云數據挖掘引擎的應用優勢得以充分發揮,本文便對基于云計算的云數據挖掘引擎下的CLOUDDM框架設計及其主要功能模塊的研發進行了深入的分析,以此更好的滿足各個領域的數據挖掘與利用需求。
基于云計算的云數據挖掘引擎采用了CLOUDDM框架,從該框架的功能進行分析,云數據挖掘引擎 能夠適用于不同種類的數據信息挖掘。比如,CPU資源數據、網絡數據、計算數據資源、數據工具資源等,其中,CPU資源數據與數據存儲資源為一般的資源信息,對這些資源數據進行管理主要是利用g-Lite等相關軟件來實現的,而計算數據資源以及數據工具資源,則屬于一種較為特殊的數據,這也使云數據挖掘引擎在框架設計、應用及運行都是以特殊數據資源管理需求來實現的。在云數據挖掘引擎中,設計人員需要明確云數據挖掘引擎框架中具體的數據資源信息的類別,并對這些不同類別的數據資源信息進行區分,了解哪些種類的數據資源信息能夠即時即用,又有哪些種類的數據資源信息需要通過相應的技術處理方可使用,以分析結果作為依據,然后對云數據挖掘引擎的運行模式采取科學的設計,以此更好的滿足各個領域的數據挖掘需求。在信息服務模塊中,應依據WSRF標準進行設計,需要確保信息服務模塊能夠對數據計算資源、網絡數據以及CPU數據進行高效的管理,并以外服務理論來對其進行設計,以此確保信息服務模塊能夠滿足相關要求及服務需要。在信息服務模塊中,應對Publish和Search操作接口進行重點設計,其中,Publish接口的功能在于對用戶的所需元數據進行接收,并對框架中的底層服務模式進行調用,并利用數據庫對元數據進行存儲,當用戶需要挖掘某些數據時,用戶只需輸入具體的查詢條件,Search接口便可對相關數據信息進行查詢,同時與數據庫進行自動連接,并根據用戶所提供的元數據來進行數據挖掘。
對于不同領域來說,其對信息服務的要求也是有很大差異的,如何更好的滿足不同領域、不同用戶的數據需求,就必須要對云數據挖掘引擎中的數據采集機制進行科學的建立,以此確保不同領域的用戶能夠利用相同平臺來挖掘到自身所需信息。而要想達到這一目的,就必須要對云數據挖掘引擎中的資源配置服務模塊進行科學的設計。在資源配置服務模塊設計中,應完成兩個方面的任務,其一是抽象執行計劃的實例化任務,其二是概念模型的轉換設計任務,兩者缺一不可。在抽象執行計劃的實例化任務中,主要是為了使云數據挖掘引擎的抽象執行性能得以進一步提高,資源配置服務模塊便是依據抽象執行計劃轉化后所形成的執行方案來進行工作的。概念模型的轉換設計任務則是依據用戶提供的具體概念,由云數據挖掘引擎來對這些概念進行實例化執行或抽象執行。
在CLOUDDM框架中,云數據挖掘引擎的數據挖掘服務主要是依據相應的數據挖掘算法來實現的,數據挖掘算法一般都采用的MapReduce,由框架自身對各個算法提供一個與之相匹配的Web Services,并利用HTTP協議來對其進行調用,從而實現算法在計算過程中的聚類、分類、協同過濾及關聯規則等。比如,其將EM、K-Means等算法封裝到Web Services中,并向用戶提供EM()與Kme-ans()等操作,然后通過系統中所配置的算法輸入輸出路徑及參數等,來實現云數據挖掘引擎的數據挖掘服務。
總而言之,對海量數據進行高效的挖掘與利用仍舊是當下挑戰性較高的一大研究難題,這也使其深受廣大專家學者的關注。云計算發展形勢下,使新型計算模型得以逐步興起,從而為海量數據的挖掘與利用問題提供了可靠的設計思路,使基于云計算的云數據挖掘引擎在海量數據挖掘方面更具優勢。本文通過探討不同模式下的數據挖掘方式,在此基礎上提出了一種基于云計算的云數據挖掘引擎框架,它能夠更好的發揮分布式數據挖掘優勢,更好的適應海量數據的挖掘任務,從而在很大程度上滿足了不同領域的海量數據處理需求。