付永丹
摘 要
在一個信息爆炸的時代,基于云計算的海量數據挖掘技術很好地滿足了用戶對于數據庫中可理解知識的精準認識。依靠網絡資源,云計算提供了一種動態可伸縮的虛擬性資源模式,實現了用戶按使用率付費。云計算在節約資源和提高信息化上具有應用價值。MapReduce是一種云計算環境下的并行計算模型,在數據挖掘方面具有很大技術優勢。此外,要很好地應用基于云計算的海量數據挖掘技術,我們還需關注虛擬機遷移、服務器整合、能耗管理、流量管理與分析、軟件框架和存儲技術與數據管理等的關鍵問題。
【關鍵詞】云計算 海量數據挖掘 研究
1 前言
我們正處于一個信息爆炸的時代,現在大約每隔十八個月的時間全球的數據量就會翻一倍,而且數據總量還呈現不斷增加的趨向。海量的數據為企業或者個人帶來了各種便利,但是也帶來了甄別、選擇有價值數據的難度。而云計算平臺正好契合了對此類高效挖掘數據的要求,它擁有高度虛擬化和高可用化的優勢,可以對資源進行動態的調度和分配。因此,融合云計算技術和數據挖掘技術無疑是一套很好的解決方案。目前,基于云計算的海量數據挖掘技術已經開始走向商業應用階段,其中以谷歌實驗室提出的MapReduce并行計算模型最具代表性。它具有顯著的數據處理效率,可以為各類企業提供有效的數據挖掘服務,能為企業提高增效節支提供助力。
2 云計算
2.1 云計算的定義
云計算是一種依靠互聯網提供動態可伸縮的虛擬性資源的模式,它充分發揮了互聯網的資源優勢,把互聯網上暫時閑置的資源加以了合理配置。它是一種全新的理念,是按照使用量付費的新型模式。通過設立計算資源的共享池,它整合了互聯網上的各種計算資源,實現了快速、按需和廉價地提供服務。因此,對于用戶而言,完全不必知道誰是真正的服務提供者,也無需關心支持云計算的服務器等基礎設施是如何工作和管理的。目前,云計算主要存在三種主要的商業模式,它們是軟件即服務(SaaS),平臺即服務(Paas)和基礎架構即服務(IaaS)。
2.2 云計算的應用價值
云計算具有很大的使用價值。首先,云計算通過對互聯網上的服務器的集群,對各類資源進行篩選整理并根據客戶的實際需求加以有針對性的提供,從而極大地節約了資源。這對于用戶和云計算運營商來講都能節省大量的資源,提供了很大的便利。同時,相比大型計算機的單獨運作,云計算在大數據處理,特別是深層數據挖掘和整合方面具有無與倫比的優勢。以計算資源池為依托,云計算可以處理海量數據和超大型文件資料。
2.3 云計算環境下的并行計算模型
谷歌實驗室提出的MapReduce概念是一個分布式并行編程的模型或者說是技術框架,可用于并行處理大規模的數據。它的主要技術思路是先將一個MapReduce的數據處理作業分解為若干個能夠獨立運行的Map任務,把任務分配給不同的計算機去執行,生成各自獨立的統一格式的某種中間文件,然后由Reduce任務合并這些Map任務,并最終獲得一個輸出文件。
3 基于云計算的海量數據挖掘
3.1 數據挖掘
簡單地說,數據挖掘就是對數據庫中的知識發現過程。它是在海量的數據中找到新型的、有效的或是可能有用的并能被人類理解的模式的一個過程。對于企業用戶而言,他們希望獲得看似混沌的海量數據中可理解的那部分知識,而且希望這類知識是非常精準的,比如一些電商用戶希望了解他們服務的客戶群體的行為模式和偏好等。
3.2 云計算數據挖掘服務的優勢
總體而言,基于云計算的海量數據挖掘具有四方面的優勢。
(1)基于云計算的海量數據挖掘采用分布式數據挖掘的方式,效率非常高,而且是實時動態開展的。因此,它的應用面非常廣泛,能夠滿足不同類型、不同規模的組織形態的需求。它既能為中小型用戶節約大量的資金成本,提高工作效率,又能幫助大型企業用戶緩解特定數據處理的需求對于大型計算機的技術依賴性。
(2)對于用戶而言,基于云計算的海量數據挖掘使用起來非常簡便。由于云計算分布式的數據處理模式,用戶不必考慮數據劃分和數據分配等繁瑣的數據挖掘處理的過程。
(3)基于云計算的海量數據挖掘提高了原有機器設備的利用率水平,通過服務器集成和協同工作提高了處理大數據的能力。而且,它的資源利用的可伸縮性非常靈活,并具有很高的容錯能力。
(4)基于云計算的海量數據挖掘把應用的門檻放得很低,實現了數據挖掘技術上的資源共享,回應了市場的急切需求。
3.3 云計算技術在海量數據挖掘過程中的關鍵問題
要很好地實現云計算技術在海量數據挖掘中的作用,還需要妥善解決虛擬機遷移、服務器整合、能耗管理、流量管理與分析、軟件框架和存儲技術與數據管理這六方面的關鍵問題。
(1)實現虛擬機遷移是為了回避熱點,減輕數據負載,使數據處理處于減壓平衡的狀態。但是,由于目前的技術水平限制,系統的靈活性還尚顯不足,回避熱點有時較難做到。此外,一些服務器的數據負載能力無法與高效的遷移需要相匹配。
(2)通過服務器整合,讓高頻與低頻錯位配置,能夠把能耗壓縮到最低。但是,這種理想的狀況常常會被資源利用的動態性所打斷,從而出現瞬時的信息擁堵情況的發生。
(3)能耗成本在云計算運營中的占比非常高,大致超過了一半的成本支出。
4 結語
總之,傳統的數據挖掘方式已經無法滿足用戶的需求,而云計算技術對于海量數據挖掘和數據處理方面具有極大的優勢。通過對云計算關鍵技術問題的解決,云計算在海量數據挖掘上必能有更大的作為。
參考文獻
[1]巴濟慈.基于云計算的海量數據挖掘處理與研究[D].長春:長春理工大學,2013.
[2]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(02):69-72.
[3]王鄂,李銘.云計算下的海量數據挖掘研究[J].現代計算機(專業版),2009(11):22-25+50.
[4]袁其帥.云計算在海量數據挖掘過程中的問題探討[J].信息與電腦(理論版),2015(20):98-99.