白玲玲
(中共阜陽市委黨校教務處,安徽阜陽 236000)
基于云計算的大數據挖掘探討
白玲玲
(中共阜陽市委黨校教務處,安徽阜陽 236000)
隨著科學技術的不斷發展和進步,各種復雜的數據也隨之增長。傳統的數據挖掘技術由于人為因素,使數據受到的干擾程度比較大。將云計算與大數據進行有機的結合,可以很好地彌補這一缺陷,基于云計算的大數據挖掘具有潛在的發展優勢。
云計算;大數據挖掘
大數據挖掘是從類型豐富、儲量較大的大數據中挖掘出有相關需求和價值的信息和知識,并提供給客戶的服務方式。相比傳統的數據挖掘,雖然目的相同,但就技術發展的程度以及挖掘的深度和速度來說,兩者的差異還是比較大的。
1.1 發展背景
在數據庫以及互聯網不斷發展的背景下,能夠實現從獨立、橫向到縱向的數據挖掘,主要得益于云計算以及智能終端等先進技術的產生和完善[1]。相比傳統的數據挖掘,這種技術還在進一步的完善中。
1.2 處理對象
由于面臨的數據背景不同,大數據挖掘與傳統數據挖掘的處理對象存在一定差異。傳統的數據挖掘主要針對從某個特指的范圍管理信息的系統中產生的數據,這個過程中是被動的需求,主要數據類型為結構化數據。而大數據挖掘的數據來源更加廣泛,類型更加豐富,不僅包括管理信息系統數據,還包括傳感設備自動產生的仿真數據[2]。與此同時,由于采集范圍更加全面,大數據挖掘在采集中不會處于被動,這使得處理的實效性以及速度都能夠提升。
1.3 挖掘程度
傳統的數據挖掘處理技術具有局限性,類型較為單一[3],導致對很多數據的獲取和處理受到限制。目前大數據的類型以及結構都比較復雜,相互之間難免有交集和融合。大數據挖掘得益于云計算,能夠對類型復雜、數量龐雜的數據進行處理,從多個維度進行分析,處理數據的范圍更廣泛,對數據的挖掘也更全面和深入。
2.1 云計算
由于擴展比較高,有虛擬化的計算模式,云計算為大數據挖掘處理提供了動力支持。分布式的存儲與計算是云計算的核心技術,分布式文件系統具有高容錯率和高吞吐率,多適用于一些大型或類型多樣的數據,不適于一些單點的故障問題[4]。在面對多個領域內的數據分享和挖掘的適用性等一系統問題時,還需要進行深入分析,找到相應的解決方案實現進一步融合。
2.2 大數據挖掘架構
大數據的挖掘架構包含了多種計算方式、存儲模式以及分析功能,如圖1所示。(1)支撐平臺層是大數據挖掘的動力支撐,能夠將大數據與資源豐富的元環境進行融合,向外界提供數據信息和知識等資源。而且,還可以計算數據的移動方式,為復雜數據的處理和分析提供更強大的動力。(2)功能層能夠依據用戶需求進行分析和挖掘,它依托云平臺的存儲與計算能力,具有較好的伸展性。(3)服務層,大數據挖掘通過服務平臺,將服務提供者與用戶連接起來,對其所需數據進行處理,并通過服務層將數據提供給用戶。這三者之間不是獨立存在的,而是相互融合的。

圖1 大數據挖掘框架
基于Hadoop的大數據挖掘平臺分為三層,即數據源、大數據挖掘平臺和用戶層(圖2)。它們各有分工,數據源主要對不同結構數據形成的對象進行處理;大數據挖掘平臺是對數據進行實時的分析和處理;用戶層則是通過相關的平臺進行認知并接受服務提供者的服務。
3.1 數據預處理
傳統的數據挖掘是先有相關模式,而后才能夠從數據源中獲取數據。通過相關工具查詢和更新,進行數據預處理,此過程中比較重視數據的完整性和準確性,確保處理的數據質量比較高。而大數據挖掘不是在進行數據處理時確立某種模式,而是隨著數據的變化,相應地改變其模式。數據預處理基于MapReduce進行融合,從而對這些復雜和多樣類型的數據進行實時的處理和識別,以此提高預處理過程中對于數據的計算能力以及共享能力。利用計算機技術和相關數據處理技術對數據進行傳輸和遷移,可以實現對相關數據的同步處理,提高對數據的處理效率[5]。
3.2 數據的存儲
傳統的數據挖掘存儲管理,以相應的數據庫以及一些文件系統為主,將靜態或已確定結構的數據進行存儲,這樣的存儲方式比較被動,一般是由系統內部進行機械定義,靈活性較差,可擴展性不足,容錯能力不強。而大數據挖掘的存儲還包括了分布式、可存儲以及結構式或者混合式的存儲,這種存儲模式是由系統內部來實現的,具有很強的擴展性,但受到一些因素的影響,數據不能對應一致,導致兼容性存在問題。對于一些不確定的數據,大數據存儲能夠以不確定的類型進行存儲,實現不確定數據的直接存儲和處理。
3.3 數據的計算和分析
相對于傳統的數據挖掘來說,大數據挖掘能夠以與計算模式相融合的方式對數據進行處理和分布。對于維度比較少的數據,傳統的數據挖掘次數比較多,查詢相對精準,具有一定的靈活性和處理能力,呈現出較高的性能。但是在面對維度繁多且立方體龐大的數據時,傳統數據挖掘的處理速度、效率和質量都差強人意。針對傳統數據挖掘分析工具擴展性的不足,大數據挖掘與已有的系統功能相融合,提高計算能力。對于一些動態圖的數據以及數據流,可基于內存分布式的數據通過滑動窗口模型的方式,進行連續處理。除了傳統數據挖掘技術的語言查詢功能外,大數據挖掘具備自身相應的查詢語言,其擴展性和靈活性比較出眾,但查詢性能比較低,對資源的利用率相對不足。
3.4 數據的顯示
在傳統的數據挖掘中,數據結果集的展示僅適用于數量比較小且維度相對較低的數據,展示方式主要以文本、圖表以及可視化圖形(餅狀圖、散點圖、ROC圖等)的形式對數據的理論效果和相關性能進行呈現和挖掘。但是,在面對多維度、類型多樣、數目繁多的數據,由于技術的限制,導致擴展性不足且對數據的利用比較被動,難以找出數據相互之間的關聯性,可視化效果不佳。而大數據挖掘對于數據的展示,是以圖像或者動畫的形式,通過人機交互的可視化方式進行直觀的解釋。在這個過程中可通過輔助的可視化分析,幫助用戶理清數據之間的相互關系,降低數據的理解難度,使用戶能夠在探索的基礎上進行理解。利用可視化技術表現較為復雜的圖像,如宇宙星球、集群成員的分配等,以此來反映事物的變化和空間的信息流等,使數據的流線化、管道和任務以及數據的并行化等并行算法技術成為現實。
[1]林昕.基于云計算的大數據挖掘平臺構建研究[J].山東工業技術,2015(17):104.
[2]張毅,崔曉燕.基于云計算平臺的物聯網數據挖掘研究[J].軟件,2014(1):108-111.
[3]郭杰鋒,王琳琳.探究基于云計算的大數據挖掘平臺[J].科技經濟市場,2015(6):176.
[4]劉猛.一種基于云計算的高效數據挖掘框架研究[J].微型電腦應用,2015(6):15-19.
[5]王勃,徐靜.基于云計算的Web數據挖掘Map/Reduce算法的研究[J].計算機與數字工程,2014(7):1157-1159,1164.
Discussion of Data Mining Based on Cloud Computing
BAI Ling-ling
(CPC Fuyang Municipal Party Committee, Fuyang Anhui 236000,China)
With the development of economy and constant progress of science and technology, all sorts of complex data has risen as well. Due to human factors of traditional data mining techniques,data will be interfered. This paper combined cloud computing and big data to fill gaps, and it has a great deal of potential advantages for developing data mining.
cloud computing; data mining
2017-03-04
阜陽市2016年社科規劃課題“網絡倫理視域下領導干部網絡能力建設問題研究”(FSK2016007)。
白玲玲(1981- ),女,講師,碩士,從事計算機應用研究。
TP311
A
2095-7602(2017)08-0059-03