何燕燕
摘? ?要:傳統的數據處理技術已經無法滿足人們對信息的需求,數據挖掘技術作為一種全新的信息提取方式,可以幫助個人、企業在海量的信息內容中找到有價值、有意義的信息。首先,文章簡要概述云計算在應用過程中的優缺點;其次,針對海量數據挖掘機制的實現進行分析;最后,通過實際案例進行驗證分析,以供參考。
關鍵詞:云計算;數據挖掘;信息提取
隨著互聯網技術不斷發展,人們接觸信息的渠道不斷增加,獲取量也隨之提高,在這樣的情況下,信息篩選反而成為一個難題。新時期,想要快速、高效地完成信息挖掘工作,就要對數據挖掘技術進行創新,云計算技術在處理數據挖掘技術方面有著良好的效果,因此,文章基于云計算技術,分析了海量數據挖掘實現方式。
1? ? 云計算技術的實際應用用處
1.1? 云計算技術的實際應用優點
云計算技術之所以可以在數據挖掘過程中得到廣泛使用,是因為云計算技術本身具有的存儲能力和分布式并行處理能力,可以最大程度提高信息經濟價值和實用價值,具體的應用優勢包括以下幾個方面。
1.1.1? 分布式并行數據挖掘能力
云計算技術的分布式并行處理能力效率高、實時性強,尤其是在當前時代背景下,云計算技術的這種性能可以幫助個人、企業更好地實現海量數據挖掘工作。
1.1.2? 低成本的高質量服務功能
云計算技術在實際應用過程中,可以應用在多種不同規模的組織結構中,不僅數據挖掘的服務質量高,整體計算成本也相對較低,尤其是在大型數據的快速處理業務中,云計算技術的優勢十分明顯。
1.1.3? 系統自動化分配調節功能
云計算技術在實現數據挖掘過程中,是一個分層實現的過程,尤其是在數據塊劃分、計算任務調度、加載節點等過程中,可以通過系統實現自動分配。
1.1.4? 數據挖掘技術的門欄較低
很多海量數據挖掘機制的使用門欄較高,有很多中小型企業以及社會個體無法使用到數據挖掘技術。不僅如此,一部分數據挖掘機制的操作難度較高,信息挖掘模式固化,無法滿足用戶需求。但是云計算技術下,可以從用戶的實際需求出發,為用戶提供個性化信息服務,最大程度保證大眾用戶的利益和需求。
1.1.5? 并行化動態增刪改查能力
云計算技術具有并行化的特點,因此也具備動態結點功能,在這種狀態下,用戶只需要在原有設備上添加結點,就可以進行數據挖掘處理工作。讓數據處理速度、處理能力得到有效提高,讓設備生命力和使用率得到提高。
1.2? 云計算技術的實際應用缺點
云計算技術目前尚處于初級發展階段,因此,很多地方還存在一定的問題和缺陷,具體可以從以下幾個方面進行分析。
首先,用戶需求問題。作為一種新型服務形式,以云計算技術為基礎的海量挖掘機制的多樣化、個性化水平還需要不斷提升。其次,數據容量問題。隨著信息技術的全面發展,在實際應用的過程中,數據分析、數據處理將要面臨更大的容量,可能達到太字節(Terabyte,TB)甚至于十億字節(Gigabyte,GB)??赡苓€要同時處理多種不同的數據內容,數據挖掘難度也會進一步提高,如噪音數據、動態數據、高維數據。再次,算法選擇問題。數據挖掘算法會對挖掘效果產生直接的影響,此外,算法設計、參數設置等也會對數據挖掘結果產生影響。最后,不確定性問題。數據挖掘過程中不確定因素較多,經常會出現任務需求描述模糊、數據采集預處理不確定、算法選擇不確定等情況。
2? ? 海量數據挖掘機制實現對策
針對上文分析結構,在應用云計算技術實現海量數據挖掘機制的過程中,需要結合用戶、企業的個性化發展需求,建立起真正合適的云計算數據挖掘系統。
2.1? 海量數據挖掘模型建立
想要讓云計算技術的數據存儲能力和并行處理能力在海量數據挖掘機制中得到最大程度體現,首先要建立起海量數據挖掘模型。一般情況下,數據挖掘模式性主要分為3個層面:服務層、運算層、用戶層,每個層面負責的功能各不相同。
服務層作為基礎層次,主要功能是實現對海量數據的存儲功能和并行處理功能。在建立數據挖掘模型過程中,數據實用性、安全性、可靠性,尤其是在數據存儲階段,需要充分利用云計算技術使用分布存儲方式,建立起數據副本冗余存儲功能,避免出現數據丟失的情況。從目前發展狀態上看,云計算數據存儲技術的普通使用功能有兩種,分別為開源分布式文件系統(Hadoop Distributed File System,HDFS)、非開源可擴展的分布式文件系統(Google File System,GFS),另外,為了可以及時回復用戶數據,實現實時性動態化的數據挖掘服務,采用多用戶指令。
在運算層主要實現的是數據的預處理和挖掘算法的并行處理,是數據挖掘機制的核心。通過對海量、無規則的數據進行預先處理,結合云計算的并行運算模式進行數據挖掘工作,完成數據分類、數據轉化、數據約束、數據抽調等。通過數據預處理工作,可以為后續的數據挖掘工作奠定良好的基礎,提高數據挖掘質量、效率,保證數據挖掘的快速性和實時性。
用戶層是整個數據挖掘機制的最頂層,主要功能是接收數據挖掘指令,并且對系統服務器中的信息進行傳遞,通過服務器發出的信息指令,調動數據庫中的數據內容,并且結合最優算法,將最滿足用戶查找需求的信息傳遞給用戶。這一階段也是對信息的深入挖掘階段,讓挖掘結果實現可視化,便于用戶查看和了解。
2.2? 海量數據挖掘算法實現
在明確海量數據挖掘模型的基礎上,還要進一步確定海量數據挖掘的實現算法,常見的算法為sprint,這種算法可以實現多次數據遍歷,將數據的特征充分展現出來,一般使用直方圖、屬性表兩種數據結構?;趕print算法進行并行設計,使用多種不同的表示方式,實現算法的最優化,讓函數發展工作得到有效開展。在完成以上處理工作過程中,海量數據挖掘機已經全部結束,為了驗證海量數據挖掘機制的效果,使用了某數據作為訓練集,驗證分析該挖掘機制的有效性。在實際操作過程中,將所有的樣本集分隔成了5個沒有交集的小組,通過實際驗證情況來看,算法的精準率達到了89.25%,精準性較高,可以實現有效分類挖掘。目前,數據量依然在不斷增加的過程中,數據挖掘工作也要不斷地發展,在這樣的狀態下,想要對數據進行有效處理,就要結合不同行業特色,設計出更具個性化的數據挖掘算法機制,讓數據性和安全性得到進一步提高[1]。
3? ? 海量數據挖掘機制實際案例
為了進一步驗證上文中提出的海量數據挖掘機制實際應用效果,本文以某電商業務貿易公司為例,借助云計算技術,建立了電子商務海量數據挖掘系統。
3.1? 云計算集群的搭建
考慮到云計算技術的應用環境,采用了六路四核刀片的形式,借助Linux操作系統中的Redhat 5.5系統結構,啟動后臺進程、相關例程以及云計算集群,從而實現整個計算過程,為海量數據挖掘控制奠定良好的基礎。
3.2? 數據挖掘體系架構
首先,建立起一個海量數據挖掘系統體系架構;其次,對分布式文件系統層、計算層進行全面的分析;最后,就可以通過實際應用查看具體的效果。
在Hadoop HDFS下,不僅可以實現數據分布式存儲功能,還能夠最大程度保證功能的高可靠性[2]。因為本文建立的是電子商務海量數據挖掘平臺,電子商務的信息分布存儲過程中,需要實現文件的分塊存儲,根據文件的主要內容,利用多臺計算機進行集群處理,在保證文件有效性的基礎上,對文件進行容錯自動分塊復制。在這一平臺中HDFS主要作用在于對文件的節點進行管理,負責文件系統內的名字空間分配。不僅如此,HDFS還要在客戶端文件訪問數據平臺時,及時處理客戶端的讀寫請求,完成數據塊的增、刪、改、查功能,讓數據塊可以有效性創建、刪除、復制。而在上層分布式計算層中,HDFS的主要作用是提供數據的輸入、數據載體、中間結果,充分發揮云計算技術中的可伸縮性優勢,在業務系統的聯系階段,對該電商企業的分布式文件系統進行有效的管理,保證客戶端的正常訪問。分布式計算層作為海量數據挖掘平臺中的重要結構,主要應用的是MapReduce相關模式,在這種模式下,結合分布式并行計算模型,可以最大程度加強數據的有效性挖掘。通過MapReduce模式不僅可以對數據節點進行合理的調度計算,也能夠對海量數據進行有效性處理和分析[3]。此外,在數據分析中間層,要建立起協同過濾數據挖掘算法,這種算法在應用過程中,可以根據實際情況進行擴展應用,通過Mahout算法庫進行定制,從而讓電商平臺中的應用層業務得到更好的開展,最大限度滿足電商平臺的運行需求。
經過對云計算技術下海量數據挖掘系統體系結構的詳細分析和實際應用,可知本文研發出來的海量數據挖掘實現機制可以根據企業的服務形式,實現智能信息檢索、信息分析、客戶聚焦、決策支持等多種電商平臺應用層需求。不僅如此,基于云計算技術下,信息材料分析模式實現了競價參考形式,讓該企業可以進行智能分析,滿足企業實際運行過程中的業務需求。
4? ? 結語
“互聯網+”時代下,社會各界對數據挖掘精準度、數據挖掘成本提出了全新的要求,建立科學的海量數據挖掘體系,讓海量數據挖掘工作穩定開展,是現階段的重點內容。通過本文的分析對海量數據挖掘實現機制有了認識,存儲、變化、處理等能力都得到提高,用戶數據的安全有效性也得到進一步加強。
[參考文獻]
[1]崔辰.云計算技術下海量數據挖掘的實現機制[J].微型電腦應用,2019(4):129-131.
[2]朱娜.基于云計算技術的數據挖掘平臺設計與實現[J].信息記錄材料,2018(6):79-81.
[3]張菁.云計算技術下海量數據挖掘的實現機制[J].安徽水利水電職業技術學院學報,2018(1):62-64.