□趙 慧 王曉燕
云計算(Cloud Computing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。云是網絡、互聯網的一種比喻說法。云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。用戶通過電腦、筆記本、手機等方式接入數據中心,按自己的需求進行運算。
對于到底什么是云計算,至少可以找到100種解釋。現階段廣為接受的是美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。
(一)云計算具有的特點。一是超大規模。云計算的超大規模能賦予用戶強大的計算能力。二是虛擬化。可以支持用戶在任意位置使用各種終端獲取服務。三是高可靠性。使用了計算節點同構可互換等措施來保障服務的高可靠性。四是通用性。可以支撐不同的應用同時運作。五是高可伸縮性。可以滿足應用和用戶規模增長的需要動態伸縮。六是按需服務。用戶按需購買“云”中的資源,按量計費。七是高性價比。
(二)云計算的分類。一些研究專家把云計算分為三類:一是公有云。由第三方提供者為用戶提供的共享的資源和服務,但用戶并不擁有云計算的資源。二是私有云。單獨客戶專用的云計算平臺,因而提供對數據、安全性和服務質量的最有效控制;具有軟硬件資源利用率高、數據安全、質量可靠等優點。三是混合云。混合云是近年來云計算的主要模式和發展方向,融合了公有云和私有云。
以數據挖掘作為主體的國際會議主要有:2003年,KDD第四次會議;2004年,KDD第五次會議;2005年,ADMA第一屆國際會議;2005年,PAKDD第九屆國際會議;2005年,ICDE第21屆國際會議;典型的數據挖掘系統有IBM公司的InterligentMiner等。
國外的典型的數據挖掘系統有:Intelligent Miner、社會科學統計軟件包(SPSS)、See5、Neural network Browser、DB Miner、CBR Express等。
我國在該領域的研究始于20世紀90年代中期,目前,數據挖掘基礎理論以及應用的研究已經進入一個成熟階段。1997年,國內正式期刊開始發表數據挖據的文章。1998年,劉小虎等學者提出了改進的優化算法;2005年,國內學者提出了基于關聯度函數的決策樹分類算法,不僅克服了多支偏向的問題,還保證了精確、高效的分類正確率。
綜上可知,無論國內還是國外,數據挖據在現代科技社會有著廣泛的應用發展前景。在未來十年,對人類產生重大影響的十大新興技術中數據挖掘排列第三。
數據挖掘中引入云計算可以進行分布式計算,實現實時高效的挖掘,利于發現更多的有利信息。基于云計算的數據挖掘底層被屏蔽掉后,用戶不需要考慮數據分配到節點、數據的劃分等問題,使得開發更加方便。并行化的處理,大大提高了處理大規模數據的能力,基于云計算的數據挖掘使得海量數據挖掘更加方便快捷。為解決數據挖掘面臨的海量數據處理問題,基于云計算的海量數據挖掘算法主要是利用云計算的并行處理和海量存儲能力。
專業的數據挖掘廠商SGI、軟件及數據庫服務商如Oracle、IBM、Microsoft等都可以提供數據挖掘產品和方案。目前國內外還并未出現完整而且成熟的基于云計算的數據挖掘產品,大多數都還停留在分析或者研究階段。而基于云計算的海量數據存儲技術已經頗為成熟,更進一步的發展則是基于云計算或云存儲之上的能夠提供數據高可靠性、高性能的海量數據的存儲、分析、處理及挖掘。
數據挖掘的算法很多,比如經典的關聯規則算法Apriori算法及聚類分析K-Means算法。云計算支持下的數據挖掘算法,必須在Map/Reduce框架中進行并行化處理的基礎上,再對數據挖掘算法進行云計算化。
關聯規則Apriori算法:數據遍歷,然后找出所有的頻繁項集,再將所有規則提取出來,之后排除掉置信度小于預設值的規則,對Apriori算法完成了并行化處理后,將其移植到云計算框架下,在Map/Reduce框架下降低了原算法并行化后的耦合性,使得資源的浪費大大減少。
聚類分析K-Means算法:基于云計算首先要做并行化處理,將數據、環境、設置初始化,生成K個初始聚類中心,將數據分塊分配給計算節點,每個節點通過Map、Combine、Reduce三個過程進行聚類計算后獲得最終的聚類,就可以在云計算支持下進行數據挖掘的信息處理了。
在數據挖掘領域還有很多經典的算法,比如關聯規則、貝葉斯分類、Canopy聚類、Nearest-Neighbor分類等等,數據挖掘很多經典算法都可以在進行Map/Reduce化后在云計算平臺上運行。
隨著大數據時代的到來,尤其是云計算的出現,網絡數據尤其是采用分布式存儲的數據更加多樣化、數據量日益龐大。海量數據的極速增長,從中提取出有價值的知識和信息,有著極為重要的意義。數據挖掘算法的好壞將直接關系到數據挖掘的效率和精確度以及對數據的利用效果。數據挖掘領域中海量數據處理和海量數據計算成為一個極為重要的問題。基于云計算的海量數據挖掘能夠超越傳統的數據挖掘所不適應的問題,并且能夠不斷增長高效、可靠、可信的數據信息。大數據時代,基于云計算的海量數據挖掘技術將有著更為廣泛的應用前景。
[1]云計算的概念和內涵[EB/OL].中國云計算,2014-2-26
[2]云計算是什么意思,什么是云計算[EB/OL].云創存儲,2014-4-2
[3]2014年云計算大會云計算標準化體系草案形成[EB/OL].中國云計算,2014-3-5
[4]十種方法保持云中數據安全[EB/OL].TechTarget云計算,2013-8-23
[5]劉小虎,李生.決策樹優化算法[J].軟件學報,1998
[6]韓松來,張輝,周華平.基于關聯度函數的決策樹分類算法[J].計算機應用,2005
[7]何元.基于云計算的海量數據挖掘分類算法研究[D].電子科技大學,2011