


摘 要:如今的信息化社會當中,每十八個人之間形成的數據量就能夠等同于歷史幾千年所形成的數據量總和,而且這種數據量還呈現出了非常明顯的增加的趨勢。那么,面對如此巨大的數據量,它在給人們帶來非常廣闊的信息內容以及信息結構的基礎上也帶來了很多挑戰,本文將嘗試對云計算平臺當中的海量數據挖掘功能進行了闡述,總結其中的一些不足,嘗試提出解決策略。
關鍵詞:云計算;海量數據挖掘;探究
DOI:10.16640/j.cnki.37-1222/t.2016.08.127
云計算的效率較高、可用價值也比較大,而且其消耗成本也相對較低,將其引入到挖掘數據的工作當中是比較可靠的,本文將就此展開探究分析。
1 在云計算環境當中并行計算模型概述
谷歌實驗室曾經提出了一個計算模型或者框架,能夠很好地應用在大范圍數據處理的工作當中,即Map Reduce,一個正常的Map Reduce作業是由很多的Map以及很多Reduce來組成的,它可以很好的將大規模處理數據的作業轉移成若干個Map任務,隨后分配到各個機器當中執行,最后生成中間文件,Reduce負責合并中間文件并獲得輸出文件。
這種技術能夠將互聯網當中大量的數據進行適當的分解,使之成為大小完全相同的小數據塊,同時令其均勻地分布在云計算的網絡當中的各服務器當中,最后使用Map Reduce并行計算模型。
2 在云計算基礎上進行的大量數據挖掘
2.1 挖掘數據
所謂數據挖掘,換言之就是在數據庫當中發現知識的過程,也就是從海量的數據當中尋找到新穎且有效、潛在性較強、可以被理解的模式這樣的過程。在云計算基礎之上進行挖掘的方式是比較合理的,數據中心能夠存儲大量的數據,同時還可以結合挖掘數據的需求來進行資源的動態分配,使用恰當的容錯機制進行數據挖掘的可靠性的保障。
2.2 在云計算基礎上進行數據挖掘的優勢
第一,能夠很好地展開分布式的并行數據挖掘工作,以此來實現高效且實時的挖掘工作,還可以與不同規模的組織相互適配,為中型以及小型企業帶來各種新型成本的計算大環境,在這樣的平臺當中針對一些特殊的數據進行計算,能夠降低高性能、大型機的依賴性。
第二,開發方便,對用戶而言,不需要考慮劃分數據以及分配數據。
第三,并行化條件背景下,使用原有設備,在一定程度上提升對數據進行大規模處理的能力,同時還提升了容錯性以及自由地增加節點等性能。
第四,在云計算基礎之上進行數據挖掘能夠很好地保證挖掘方式的共享性,大大降低了進行數據挖掘的應用門檻,令海量數據的挖掘需求獲得了極大滿足。
2.3 云計算基礎上挖掘海量數據的模型
在云計算基礎上進行海量數據的挖掘服務,其挖掘模型基本上可以分成三層,從下到上依次是:云計算服務層、數據挖掘處理層(其中包括預處理以及算法并行化)、用戶層,如下圖(圖1)所示。
第一,云計算服務層:提供比較良好的并行數據處理功能以及對海量數據進行存儲的功能,不但能夠保證所存儲的數據的可用性,同時還可以保證數據的安全性,比較常見的是非開源GFS以及開源HDFS。
第二,數據挖掘處理層:對數據進行適當的預處理,預處理后數據可以顯著地提升挖掘結果的實際質量,令挖掘更有效且更加方便。
第三 ,用戶層:接受用戶方的需求,同時將這種需求傳遞給服務層以及處理層,挖掘信息后將結果反饋給用戶。在這一過程當中,用戶可以借助可視化管理來監督任務執行,同時還可以在短時間內很方便地進行任務結果的查看。
3 在云計算基礎上進行數據挖掘的模型尚且存在的不足之處
3.1 需求上的問題
在云計算基礎之上進行數據挖掘,隨著時代的發展和進步終究會成為一種非常普遍的服務方式,自然要面對呈現出更加多樣性以及個性的需求。就現階段來說尚且不能滿足這種趨勢。
3.2 數據量的問題
就數據的數量而言,服務器需要處理的信息數量可能要達到TB甚至超越它到達PB級,而這將會給數據處理帶來更大的挑戰。
3.3 選擇算法的問題
是否能夠選擇最合適的計算方式以及相對的策略來完成任務在云計算運轉的過程中是非常關鍵的,另外,設計算法以及調節參數,都可能會對最終結果產生非常顯著的影響。
3.4 不確定性的問題
在進行數據挖掘的過程當中很可能會出現很多的不確定性,而數據挖掘的最終目的就是把不確定性可能會造成的影響降到最低。通常來說這些不確定性主要有挖掘數據任務過程中描述的不確定性、采集數據并預處理的時候出現的不確定性、挖掘方式的選擇以及最終結果存在的不確定性等等。
4 如何開展后續工作
構建平臺:充分地結合多樣化以及個性化的需求,同時適當結合各個領域、行業之間的特征,打造出專屬的挖掘數據的云平臺;加大研發:虛擬化技術帶來了非常理想的技術支持,因此,在開發云平臺的過程當中,需要適當地提升針對虛擬化技術進行的研發,同時促進其成果更加廣泛地使用,以便能夠實現更高效的自主分配資源;結合實際:進行云服務的相關產品研發過程當中,需要適當地結合社會需求,同時引導群眾參與到其中來,能夠更好地促進數據個性化發展;算法通用:在可信性上,算法最好選擇有通用性的算法,同時保證隨時檢查以及調整;信息安全:對于數據信息安全的問題,絕對不能像普通的信息安全一樣進行簡單的直接加密,需要結合客戶的實際需求,令其可以在自身的平臺終端當中借助適當的加密方式來進行數據保護工作。
5 結語
云存儲平臺當中數據量不斷增加,傳統數據挖掘方式漸漸地已經無法與時代相適應,也無法挖掘數據當中所包含的內在信息了,因此,對于挖掘數據庫的工作也提出了更加全面的要求,進行云計算以及處理的系統擁有對海量的信息進行存儲以及變化的能力,可以成功發掘內在資源,其將會成為處理大量數據信息的最好的挖掘模式。
參考文獻:
[1]李凱,常征.基于云計算的并行數據挖掘系統設計與實現[J].微計算機信息,2011(06).
[2]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(02).
[3]嚴駿.基于云計算的海量數據挖掘研究[J].信息與電腦:理論版,2013(04).
[4]丁巖,楊慶平,錢煜明.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].中興通訊技術,2013(01).
[5]王鵬,王健安,郭暢等.基于云計算及數據挖掘技術的海量數據處理研究[J].長春理工大學學報:自然科學版,2013(06).
作者簡介:王治學(1981-),男,寧夏固原人,碩士,講師,研究方向:計算機網絡及軟件工程。