黃敏
摘要:云計算是一種新型的數據計算方式,主要是通過網絡系統將客戶端進行連接之后將客戶端中的信息和數據資源進行整合,然后統一到一個巨大的數據資源庫當中,在這之后就可以根據實際的需求對資源進行調配和管理。而大數據挖掘技術與分析平臺能夠更高效、更迅速地進行計算和分析,滿足人們對信息的需求。
關鍵詞:云計算技術;大數據挖掘技術;體系架構
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2019)11-0096-01
1 大數據挖掘技術的基本概述
1.1 大數據挖掘技術的優勢
大數據挖掘技術可以從數來眾多、類型豐富、流轉速度較快的信息與數據當中挖掘到價值密度高的信息,將這些信息推送給用戶,為用戶提供精準化的服務。與傳統的數據挖掘技術相比,大數據挖掘技術在挖掘的深度與廣度方面和信息處理的效率方面都具有重要的優勢。
在傳統的數據挖掘技術當中,數據來源主要是特定的管理系統,再加上網頁信息系統當中的被動數據。而大數據挖掘技術的數據來源更加廣泛,除了上述兩個基本來源之外,各種傳感設備產生的仿真數據也是重要來源。從總數據體量來說,大數據挖掘技術的信息更加海量,需要使用EB或ZB計量。
1.2 應用大數據挖掘技術的必要性
從數學的角度來說,數據挖掘就是通過特定的工作來對數據進行分析與提取,了解數據的特點、發現數據之間的潛在規律。在應用到企業當中之后,大數據挖掘技術就可以通過對數據之間規律的總結來進行預測,從而為企業的財務預算與各項決策提供理論依據。在互聯網領域當中,各項技術不斷發展與成熟,可以為企業帶來經濟上的巨大利潤。
根據相關的調查顯示,大多數企業在互聯網領域的投資回報率都超過了投資數量的3倍。與此同時,在企業經營與發展的過程當中,做好市場調研、了解外部環境動態是科學決策的基礎,這些信息不僅可以使管理人員對市場走勢進行精準判斷,同時還可以為企業提供更便利的服務。而要實現這個目標,就要利用大數據挖掘技術。
1.3 大數據挖掘技術的實際應用
1.3.1 在鐵路行業當中的應用
鐵路行業的特點就是每天要處理大量的信息與數據,這是由于行業系統為了滿足人們不同的出行要求、為人們的生活提供便利,每天的客觀運營總量比較大,產生的信息量也比較大。與此同時,這些信息比較復雜,不僅需要對每天的客運流量進行統計,同時還需要對各個線路、測試數據進行整理,還需要處理各種票務上的信息。而應用大數據挖掘技術可以自動對這些信息進行搜集,同時還可以按照相關的算法來對信息進行整理與分析。這樣一來,鐵路的管理人員就可以更好地了解旅客的出行需求,從而根據需求來調整列車運行的狀況,同時可以在列車運行期間,通過大數據挖掘技術對各項數據進行監測。
1.3.2 在其他領域當中的應用
除了在鐵路部門之外,大數據挖掘技術還可以在其他很多領域當中被應用。比如在股票領域,利用該技術可以對歷史數據與信息進行有效分析,從中發現這些數據的規律,從而對股票未來發展的趨勢進行預測,從而為投資者提供參考依據。再比如在金融行業當中,使用該技術可以通過對信息的深入挖掘,從而發現信用異常或者資產異常的客戶信息,同時通過對比發現其中存在的不法交易,這樣可以為相關企業減少經濟損失。與此同時,金融企業還可以利用這一技術來對市場的走向進行分析與預測,從而對公司未來的發展方向進行調整。
2 基于云計算技術視角的大數據挖掘體系架構
2.1 傳統數據挖掘體系存在的問題
傳統數據挖掘系統在構建的過程當中,通常是在單機或者服務器上進行運行,因此它的結構體系主要是服務器的二層機構,更加完善的是網頁瀏覽器的三層結構。在應用的過程當中,通常會采用數據移向計算的方式,這種方式的特點是會先將信息進行儲存然后再進行集中處理。這種方式雖然具有一定的合理性和科學性,但是在面對海量信息與具有異構動態的信息與數據的時候,這種處理方式需要耗費大量的時間,同時還需要大量的傳輸成本、增加了空間的復雜程度。
2.2 基于云計算技術的大數據挖掘體系架構
大數據挖掘技術可以充分解決上述傳統數據挖掘體系存在的問題,它融合了計算、儲存等模式,可實現同步分析,同時還具有較強的分析與挖掘功能。在構建體系架構的過程當中,可以分為不同的結構層次。首先是支撐平臺層。該層次是大數據挖掘動力的來源,可以提供基本的信息與資源。在該層次當中,融合了大數據技術、云計算以及多種信息處理技術,形成了資源豐富的云環境。其次是功能層。功能層的作用是對用戶的需求進行分析與挖掘,它可以根據用戶的喜好來挖掘他們的潛在需求。第三層是服務層。在服務層當中,大數據挖掘技術可以通過客戶端來與服務提供者和使用者相連接,從而實現三者之間的信息交流,從而發掘價值密度比較高的信息,并以服務的形式傳達給用戶。
在大數據挖掘體系架構構建的過程當中,云計算技術發揮了重要的作用。功能層、服務層與平臺層這三者之間相互配合,共同形成了挖掘云系統,在系統當中實現了對信息的計算和儲存,同時展示了分析、挖掘的功能。在完成了上述的過程之后,可以通過服務的形式將分析的結果呈現給用戶,為他們的決策提供理論幫助。
3 基于Hadoop的大數據挖掘平臺
在Hadoop的基礎上構建大數據挖掘平臺,可以更好地對大數據挖掘技術進行分析,了解數據與信息的處理流程。
首先是數據預處理。大數據挖掘技術在運行的過程當中是以數據為基礎的,并不是先確定某種模式之后再確定數據,模式會隨著數據的改變而發生變化。在數據預處理的過程當中,通過應用各種現代化的處理技術,可以在處理過程當中實現并行計算和迭代計算,同時還可以對數據進行合并與共享。第二是數據存儲。大數據挖掘技術的存儲的方式比較多樣化,除了傳統的存儲形式之外,還包括分布式存儲方式,可以存儲各種形式的數據。對于不確定的數據,該平臺也有相應的管理系統,可以通過構建不確定關系模型來進行有效存儲。第三是數據計算與分析。大數據挖掘技術主要是以多種計算模式相融合的方式來實現對信息與數據的分布并行處理的。對于靜態數據,通常維度比較小,傳統的分析工具可以進行有效處理。而對于維度較大且復雜的數據,傳統的分析工具無法起到較好的效果,而大數據挖掘技術可以提高原有系統的計算能力和分析能力,對傳統的算法進行改進。
4 結語
總的來說,而云計算與大數據挖掘技術相結合之后,可以更加快速、高效地在大量的信息中為人們找到有用的信息,并按照人們的需要做好信息的篩選與數據的運算。大數據挖掘技術與傳統的挖掘技術相比,在挖掘的深度與廣度上具有明顯的優勢。本文在這個基礎上探究了大數據挖掘體系架構和大數據挖掘平臺,希望能夠為大數據挖掘技術的發展提供參考與借鑒。
參考文獻
[1] 邢丘丹,焦晶,杜占河.基于云計算和大數據的在線教育交互應用研究[J].現代教育技術,2017,24(04):88-95.
[2] 何清,莊福振,曾立,趙衛中,譚慶.PDMiner:基于云計算的并行分布式數據挖掘工具平臺[J].中國科學:信息科學,2017,44(07):871-885.