曹小陽

摘要:本文探討了大數據挖掘的基本概論,分析了云計算的大數據挖掘構架,研究了Hadoop的大數據挖掘平臺。
關鍵詞:云計算;大數據挖掘內涵;解決方案
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2017)11-0108-01
如今云計算與大數據不僅改變了人們生活和工作的方式,還改變了我國市場經濟的發展模式,更重要的是云計算和大數據可能會改變信息化的發展方向。但是為了突破傳統數據挖掘存在的弊端,開始將云計算與大數據挖掘現結合,從而為用戶提供更加有效的數據,滿足其多元化的需求。然而基于云計算的大數據挖掘,還需要對大數據挖掘中潛在的弊端進行了解,需要采取有效的解決方案才能促使兩者之間進行有效的融合,從而使其能夠得到有效的應用。
1 大數據挖掘的基本概論
大數據挖掘是指從數據類型、數據容量、數據變化上能夠進行有效地運轉,將數量龐大的數據中提取具有一定價值的、可應用的數據信息,并將其儲存到數據庫中供用戶使用。大數據挖掘與傳統的數據挖掘方式比較而言。雖然兩者的操作目標相同,都是以搜集有價值的信息作為主要目標。但是從技術操作方面大數據挖掘與傳統數據挖掘存在的差異較大,通過對大數據挖掘的背景及技術操作方式進行詳細的分析。
隨著我國科技的不斷發展,以信息技術為基礎的自媒體被普遍的應用到人們的生活和工作中,但是終端媒體是需要數據支持的,隨著數據價值的不斷提升,其所發揮的功能性就越強。通過數據的組成、應用、發展而言,傳統的數據挖掘在復雜程度與發展狀態來看,其與大數據挖掘并沒有可比性,后者在新時代發展的背景下產生的,能夠有效的為移動智能終端、物聯網和云計算提供數據支持。但是在大數據挖掘過程中依然存在諸多的不足,所以要不斷地提升大數據挖掘的技術應用的科學性與先進性。
大數據挖掘技術與傳統數據挖掘技術相對比,兩者所要面對的處理對象截然不同,傳統數據挖掘是對系統中劃定領域中數據的基礎上融入部分Web數據,其數據通常是用戶自動生成的信息,此數據的類型大部分都是結構化的數據。大數據挖掘的主要對象就是結構化的數據,并詳細、具體的管理Web系統及信息系統,且對感知信息系統和設備產生的仿真數據加以分析,由此可見大數據挖掘對于信息資料的應用更加全面、深入。其與傳統數據挖掘技術比較來說,大數據挖掘的對象數量龐大、涉及范圍廣、數據復雜繁瑣,主要應用的是主動搜集的方式,能夠很好地為用戶提供更加豐富、多樣、實時的數據信息。然而當前大數據挖掘還不夠穩定和具體。
2 云計算的大數據挖掘構架
2.1 云計算的應用特點
云計算因其具備虛擬性、可操作性、可拓展性等優勢,而被應用到大數據挖掘中,從而有效的彌補其潛在的弊端,切位大數據的挖掘提供持續的動力支持。云計算的關鍵組成部分包括:分布式并行計算、分布式文件存儲。分布式存儲是將大數據中分布的文件進行存儲,主要在大量的分布較廣的數據中得到了有效的應用。如:GFS系統的延展性較高,但是在小型存儲文件中難以發揮有效的應用,通常都會發生單點故障。當前部分開發商按照經營的業務特點對云計算中大數據挖掘的方案加以推廣,如:谷歌最新開發的搜索引擎,在搜索過程中能夠對大數據進行合理、有效的分析;微軟是將Hadoop與WindowsAzure進行了有效的融合,并在軟件集成中運用了智能BI技術,如此一來便能對技術平臺進行了合理的優化,能夠對數據實施動態的更新。而其他用戶只能在開源Hadoop平臺不斷地健全基本功能,如:Yahoo在Hadoop平臺上研發了Pig,Facebook研發了Hive等。即使大數據挖掘的基本架構較為相似,但對于云計算與挖掘的構建方式卻各不相同。在對各類數據挖掘平臺的可行性進行分析時,就要將其中的解決方案進行不斷地互補與融合[1]。
2.2 大數據挖掘架構
綜合以上研究發現:對于大數據挖掘體系架構進行深入的了解,其不僅匯集了多種計算、存儲模式,且具備細致的分析功能,其組織架構表現為云計算-客戶端的模式。此架構主要包括:支撐平臺層、功能層、服務層。大數據挖掘構架體系圖1所示。
3 Hadoop的大數據挖掘平臺
基于Hadoop平臺的大數據挖掘主要由三層:數據源、大數據挖掘平臺、用戶層。數據源作為一種冗雜的挖掘對象,主要包括:結構數據、半結構數據、非結構數據共同組成;大數據挖掘平臺主要是以Hadoop平臺為基礎,內部涵蓋了不同的計算模式及挖掘等功能,同時按照數據辯護的的特征進行有效的提取;用戶層就是通過交流的反思對數據進行了解和應用。大數據挖掘平臺中,HDFS、HBase、MapReduce有著安全性、擴展性、容錯性、高效性等多種功能,計算模式主要由:批處理、流處理。MapReduce在數量龐大、更新較慢的數據進行挖掘,Flume、Pig等在數據流的動態數據挖掘上的彈性較大。但是Hadoop不適合少量流動較慢的數據及復雜繁瑣的數據圖。所以要將傳統的數據庫和操作方式應用到Hadoop平臺中[2]。
當前大數據預處理是建立在MapReduce的基礎上,將傳統預處理技術、數據流實時處理、多模態實體識別、DeepWeb集成、遠程自動采集融合等技術進行的有效的應用,從而加強其預處理的整體功能,如:在數據的傳輸過程中,通過有效的流式計算技術及嵌入式中間件多級數據處理技術,能夠對原始數據和數據流進行適時的挖掘。
4 結語
云計算與大數據是信息科技于社會經濟高度發展的產物,且科技的發展總是潛移默化的改變著人們的思維模式和生活方式。由于信息技術的不斷開發與應用,大數據這座寶庫也在不斷地被挖掘,但大數據作為新興產物對此還沒有絕對的能力去進行良好的好處理。因此在云計算的基礎上進行大數據挖掘能夠對信息進行實時、有效的處理,確保能夠為用戶提供及時的、有效的、嶄新的信息資源。
參考文獻
[1]劉鎮.基于云計算的大數據挖掘內涵及解決方案研究[J].科技風,2017,(19):39-39.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數據挖掘內涵及解決方案研究[J].情報理論與實踐,2015,(7):103-108.
Abstract:This paper discusses the basic introduction of big data mining, analyzes the big data mining framework of cloud computing, and studies the big data mining platform of Hadoop.
Key Words:cloud computing; big data mining connotation; solutionendprint