摘 要 隨著互聯網的快速普及,以及移動互聯網和智能終端設備的廣泛使用,產生了大量的互聯網數據。云計算和大數據技術應運而生。近年來,每年產生的海量數據是20世紀末期十幾年數據的總和,這些數據冗雜。為了更好的提升數據分析質量和數據挖掘效率,加強基于云計算數據挖掘的研究與計算機方針意義重大。仿真技術的應用極大優化了數據挖掘的工藝流程。本文淺析了研究基于云計算海量數據的必要性,針對海量數據挖掘研究的主要方法,提出了研究基于云計算的海量數據挖掘基本原則。
【關鍵詞】云計算 數據挖掘 研究原則 計算仿真
云存儲技術和大數據技術的發展使得海量數據的挖掘極具現實意義和指導意義。對于電子商務而言,海量數據挖掘可以了解不同消費者的消費習慣和消費原則。對這些大數據的云計算可以幫助商家更好的為消費者提供電子商務服務。對于各行各業,基于云計算海量數據的挖掘研究,需要正確的研究方法和挖掘手段的使用。深度挖掘有效提升了挖掘的質量和挖掘效率,對于海量數據的信息篩選作用效果明顯。
1 研究基于云計算海量數據挖掘的必要性
1.1 有利于獲得網絡價值信息
網絡數據之間存在一定的弱關聯性,通過網絡數據有價值信息的篩選和分析,有利于更好的發展互聯網網絡和服務水平。當然,由于互聯網網絡平臺準入門檻較低,充斥著大量的網絡垃圾信息。云計算技術是以大數據為依托,結合相關數學模型仿真,實現網絡數據的高效管理。研究數據挖掘可以從海量信息中提取最有價值的網絡數據和相關信息。
1.2 有利于提升信息獲取效果
互聯網的快速普及,應用在各行各業,極大改變了不同行業的經營模式和運作效率。對于互聯網用戶而言,互聯網數據蘊含了自身的網絡行為和思想。一些行業為了不斷提升網絡平臺的服務質量,做到“投其所好”,就要在第一時間識別出網絡用戶的基本用網習慣和用網需求。借助云計算數據挖掘,可以讓不同行業在最短時間獲取相關信息,提升獲取效率。
1.3 有利于推動大數據技術應用
大數據技術的應用需要云存儲技術和大數據管理技術呈現匹配性的發展。大數據技術的核心任務之一,就是利用對海量網絡信息的數據挖掘,理清數據之間的弱關聯性,并不斷提升網絡數據的管理質量。云計算是一種以計算仿真為實現手段的信息處理形式,研究基于云計算的海量數據挖掘,有利于推動大數據技術應用,實現大數據技術的系統化發展。
2 基于云計算海量數據挖掘研究的主要方法
2.1 數據關聯性挖掘法
在對云計算環境下的海量數據進行價值提取與細節分析時,關聯性數據挖掘,可以將發散的網絡數據集中化。弱關聯挖掘法一般分為三個步驟:首先,確定挖掘數據的范圍,收集所要處理的數據對象。明確關聯性研究的屬性。其次,海量數據的預處理。對數據進行噪聲處理,保障挖掘數據的完整性和真實性,將預處理結果保存在挖掘數據庫中。最后,塑造訓練的數據挖掘。利用排列組合進行實體閾值分析。
2.2 數據模糊性學習法
模糊性學習法是一種重要的數據挖掘方法,其挖掘原理就是假設云計算平臺下存在一定數量的信息樣本,對任意一個樣本進行指標描述,計算所有樣本的標準差,實現數據的高度壓縮與挖掘價值信息操作。數據模糊性學習法應用在海量數據的挖掘的關鍵是模糊錄屬函數的篩選與確定,進而實現基于云計算的海量數據挖掘價值信息的模糊化實際操作。網絡數據的結點信息需要在激活的條件下收集。
2.3 Apriori計算挖掘法
基于云計算海量數據挖掘方法的主要形式之一就是Apriori算法基礎上的數據挖掘。與其他算法不同,Apriori算法最大的技術優勢在于可以有效避免海量數據的復雜性和冗繁性帶來的數據挖掘算法收斂性較差的缺陷。利用計算仿真模擬,在節省投入成本的前提下,大大提升了海量數據的挖掘速度。
3 基于云計算的海量數據挖掘的基本原則
3.1 準確性原則
云計算為數據挖掘提供了平臺,對于海量數據的挖掘,特別是深度挖掘,挖掘結果的準確性直接影響數據的后期使用,對于互聯網后期的優化意義重大。在基于云計算的海量數據挖掘,無論采取何種方法和算法,必須保障數據分析結果的準確性。一方面,驗證挖掘方法選擇的準確性和匹配性。另一方面,通過不同數據挖掘手段,對最后結果進行偏差分析,已找到影響準確性的關鍵因素。
3.2 便捷性原則
云計算平臺主要借助計算機進行計算仿真和挖掘程序運算。對于海量數據的挖掘分析需要具備的便捷性。一方面,基于云計算平臺海量數據挖掘的流程要在實踐分析過程中不斷優化流程,提升挖掘的時間效率。另一方面,數據挖掘的方法和手段的選擇要具有可控性強的特點。利用人力和財力的投入,可以實現海量數據的便捷挖掘,避免操作過難對數據挖掘任務的延遲。
3.3 安全性原則
由于互聯網信息需要包含個人的基本真實信息。對于云計算海量數據挖掘的安全性直接影響被挖掘海量數據在云計算平臺的安全性。近幾年來,一些基于信息泄露造成的人民財產損失總量較大,嚴重危害了每一個公民的網絡使用安全。在對海量數據進行挖掘時,可以通過獨立挖掘系統的應用,隔離原始數據,避免挖掘分析過程對信息安全性的威脅。同時,對余挖掘數據結果進行二級加密。
4 結論
云計算作為大數據技術的內容之一,對于大數據的推廣應用意義重大。通過價值信息的提取,有利于提升互聯網服務水平。在進行海量數據挖掘時,需要理解并熟練掌握主要的方法技巧,以準確性、便捷性和安全性原則展開具體的數據挖掘工作。
參考文獻
[1]劉增鎖.云計算環境下海量數據中侵入檢測挖掘模型研究[J].計算機仿真,2015(11).
[2]黃華.基于大云數據快速挖掘過程的研究與方針[J].計算機仿真,2016(06).
作者簡介
李響(1992-),男,四川省成都市人。研究生學歷。研究方向為知識工程與應用軟件。
作者單位
東北師范大學信息與軟件工程學院 吉林省長春市 130000