胡珊
摘? ?要:近年來,隨著經濟的飛速發展,社會逐漸步入信息化社會。相比傳統數據挖掘系統,基于云計算的數據挖掘平臺是新時代的科技產物,具有得天獨厚的優勢,其處理海量數據的能力、面向服務、高度擴展性等特點受到各行各業廣泛的關注和認可。文章首先概述了云計算的概念以及服務范圍,之后分析基于云計算的數據挖掘平臺架構,并且提出相關的技術指導建議。
關鍵詞:云計算;數據挖掘;平臺架構;關鍵技術
隨著經濟全球化的逐漸加深,國家建設規模得到進一步擴大。時代的發展促使人們從電氣時代步入高效發展的信息時代。互聯網技術的廣泛應用,為人們的日常生活帶來極大的便利,同時也促進了國際經濟的發展。在互聯網時代,每天都會產生大量的數據信息,海量的數據內存在大量的無用信息。并且現階段信息處理技術尚不成熟,在信息挖掘方面比較薄弱,為了改善這樣的現象,基于云計算的數據挖掘平臺應運而生。幫助人們解決了信息處理問題,也推動了信息時代的發展。傳統數據挖掘并不能滿足人們對信息的需求,經過專家學者的探索研究,云計算具有超強的計算能力和存儲能力,并且運營成本比較低,得到社會的青睞,所以以云計算為依托構建數據挖掘平臺是新時代發展的必然趨勢,為推動國家科技水平發展做出突出貢獻。
1? ? 云計算概述
1.1? 概念
云計算是二十一世紀的新名詞,是一種新型網絡模式,社會各界對其的定義各有不同。云計算是分布式計算的一種,主要利用網絡“云”將巨大的數據計算處理程序分解為無數個小程序,之后利用多種服務器構成的系統進行處理和分析,并且將處理后的結果回傳給用戶[1]。美國NIST認為云計算是一種根據使用量來進行付費提供的,是一種比較方便、符合用戶需求的網絡訪問模式。綜合國內外專家學者研究成果,將其定義為:云計算是一種多種計算方式對于某些特定需求,在短時間內面對海量信息數據具有超高效率的計算處理模式。
1.2? 服務層次
通過對現階段的理論綜述研究,分析出云計算服務層次一般為3種:軟件級服務、平臺級服務以及基礎設施級服務。軟件級服務就是指用戶群體利用云計算來獲取信息資源和計算能力,進而實現對軟件的操作使用。平臺級服務能夠在用戶群體不需要購買相關的軟硬件設備的前提下直接實現應用的測試和開發等。基礎設施級服務主要是幫助用戶群體直接實現云計算服務的使用,比如資源的存儲、開發等。在服務層次上,發展較為成熟的是美國的亞馬遜等服務平臺。
2? ? 基于云計算的數據挖掘平臺架構
近年來,互聯網技術發展比較迅速,在數據挖掘平臺架構方面得到了充分體現。在云計算的分布式存儲和分布式計算的影響之下,推動了新時代數據挖掘平臺的創新改革。
可以發現,基于云計算的數據挖掘平臺構架是從上到下的順序設計,一共分為3層,根據順序依次為數據挖掘云服務層、數據挖掘能力層以及云計算支撐平臺層[2]。其中,數據挖掘云服務層主要是向外界分享數據挖掘云服務以及服務能力封裝的接口方法,也就是本地應用程序的編程接口,具體包括HTTP,Restful,SOAP以及Web service等。可以為客戶提供解析引擎,并且支持語言語句的搜索查詢,可以根據實際情況適當調節云服務,來滿足不同業務系統對數據的用戶業務的真實需求,此外,還可以對數據挖掘云服務自行調用和組裝。
數據挖掘能力層主要是較為基礎的數據挖掘能力,具體表現為調度引起和算法服務管理以及數據并行處理框架等,并且也為使用者提供數據挖掘能力層的相關能力。在本層中,能夠直接與Mathout和Weka等第三方數據挖掘工具的分布式算法庫連接,除此之外,還具有內部數據挖掘算法能力和算法庫。
云計算支撐平臺層通常情況下具備3種能力,分別是分布式文件存儲、數據庫存儲和計算能力。本層架構比較簡單,可適用于企業自主研發的數據挖掘平臺,還可以依托于第三方云計算數據處理平臺,。
3? ? 基于云計算的數據挖掘平臺的關鍵技術
通過對數據挖掘技術和云計算技術的有機結合,進一步實現基于云計算的數據挖掘平臺的搭建[3]。而基于云計算的數據平臺搭建的質量與云計算數據平臺的每一個關鍵技術有著密不可分的關系。本文全方位地分析有關于云計算數據挖掘平臺的關鍵技術,找出平臺架設過程中的問題和不足,進而對平臺進行完善優化,推動信息化社會穩定發展。
3.1? 云計算技術
云計算關鍵技術主要表現在虛擬化技術、分布式存儲技術以及并行云計算技術3個方面。(1)虛擬化技術。能夠為網絡海量數據挖掘營造良好環境,在大數據時代背景下,虛擬化技術在數據挖掘的具體表現可以分為跨兩個或者跨多個系統的信息數據挖掘處理。此外,結合虛擬化技術可以幫助用戶群體實現動態化數據管理,能夠擴大技術服務范圍,進而提高服務效率。(2)分布式存儲技術。其存在的價值在于可以提高信息數據處理精度,還可以降低挖掘平臺運作的成本。如果平臺的硬件能力不足,可以轉化研究方向,向高性能的軟件方面探索來彌補缺陷。基于種種外在影響因素,分布式存儲方式相比傳統存儲方式,具有非常大的優勢,比如存儲容量龐大,并且挖掘平臺運作成本相關較低。(3)并行云計算技術。該方面的研究尚不成熟,但是該技術在一定意義上對云計算數據挖掘平臺的運作效率有著直接影響作用[4],利用此項技術能夠實現多個數據處理任務的同時進行。并且云計算技術對服務調度有著非常重要的作用,而且基于并行云計算技術,可以強化云計算數據挖掘平臺的穩定性。
3.2? 數據匯集調度中心
具體表現為將平臺的各種業務數據進行匯集接入,可以為多種源數據格式進行支撐,從而有效地解決由于各種數據所導致的規約問題。除此之外,源數據格式也可以為多種數據作為支撐,比如各種日志數據、爬蟲數據等,同時還支持聯機分析處理系統數據和聯機事物處理系統數據等。基于此項技術,可以實現很大程度的數據同步,比如文件數據傳輸協議同步等。而且源數據格式也應該提供更多的數據同步形式,比如socket消息同步、數據庫實時同步以及文件傳輸協議等。并且利用數據匯集調度中心可以有效地改善現階段云計算所存在的隱私安全問題。也就是并行云計算技術為云計算提高了效率,而數據匯集調度則為云計算數據挖掘平臺的高效性、穩定性和安全性提供了保障。在數據匯集調度中心方面,主要應用的是模板化的設計技術,具體功能為將不同類型的數據信息進行整合匯集,可以支持新數據和源數據的配置,借此可以實現對于不同業務數據的規約和統一匯集管理。
3.3? 服務調度與管理技術
云計算具備非常強的基礎能力,服務調度和管理技術正是實現其能力的關鍵技術。云計算數據挖掘平臺的架構必須具備服務調度能力和服務管理能力,而且需要不同的業務系統才可以滿足使用此平臺的條件[5]。在并行互斥和服務管理等方面,應該結合平臺實際運作情況以及用戶信息反饋等,根據實際需求合理對服務和資源進行分配,出現這些問題,要根據服務的優先等級按照順序解決。基于此,才可以進一步實現云計算數據挖掘平臺的安全性和可靠性,同時根據相關的服務管控情況適當地對調度進行調節。在服務注冊和服務暴露等方面,可以利用服務管理對這些系統功能進行統一管理。在云計算數據挖掘平臺實際操作過程中,服務管理功能可以直接納入第三方數據挖掘能力,由于其自身具備暴露本地服務的能力,所以可以最大限度地發揮出云計算數據挖掘平臺的服務能力。
4? ? 結語
總而言之,云計算技術的廣泛應用為國家建設帶來新的機遇和挑戰,在新的時代背景下,將云計算技術作為依托構建數據挖掘平臺,可以極大地提高數據處理效率,還可以為用戶群體提供更為優質的體驗和服務。但是現階段的數據挖掘平臺發展過程中存在一些問題,比如用戶的安全隱私問題等,都需要加大重視程度,努力探索完善,彌補技術上的不足。文章全面分析了云計算和數據挖掘技術以及二者進行有機結合后的發展前景與關鍵技術,提出一些不成熟的建議,旨在幫助新時代云計算數據挖掘平臺獲得更為良好的發展。通過國內外專家學者的探索研究和社會的不斷進步,云計算數據挖掘平臺也會不斷地完善優化,受到社會各界的廣泛關注,為用戶提供更為優質的服務體驗,推動信息時代的發展。
[參考文獻]
[1]葛曉玢,劉杰.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].景德鎮高專學報,2017(3):26-29.
[2]陳磊.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].電腦編程技巧與維護,2017(6):64-65.
[3]馮娜.云計算環境下數據挖掘信息平臺架構設計及實現[J].電腦編程技巧與維護,2017(18):63-65.
[4]徐焱.基于教育數據挖掘的個性化自適應學習系統研究[J].中國教育信息化,2019(11):13-15.
[5]尚斯年.基于云計算分布式技術的海量AIS數據挖掘系統設計與實現[D].大連:大連海事大學,2017.
Research on the architecture and key technologies of data
mining platform based on cloud computing
Hu Shan
(Guangzhou College of Technology and Business, Guangzhou 510000, China)
Abstract:In recent years, with the rapid development of economy, the society has gradually stepped into the information society. Compared with the traditional data mining system, the data mining platform based on cloud computing is the product of science and technology in the new era, which has unique advantages. Its ability to deal with massive data, service-oriented, high scalability and other characteristics are widely concerned and recognized by all walks of life. This paper first outlines the concept and service scope of cloud computing, then analyzes the data mining platform architecture based on cloud computing, and puts forward relevant technical guidance suggestions.
Key words:cloud computing; data mining; platform architecture; key technologies