摘要:隨著我國云計算和物聯網技術的持續發展,數據挖掘技術和模型逐漸發展成熟,提高了網絡數據利用率。文章基于云計算和互聯網技術下的數據挖掘技術以及模型、系統研究,在簡單闡述云計算和物聯網技術內涵的前提下,針對以云計算和互聯網技術所形成的數據挖掘系統中的數據匯集調度、挖掘算法并行、服務調度管理等多項關鍵技術進行探討,并對以云計算和物聯網技術形成的數據挖掘模型、系統建立進行了分析。
關鍵詞:云計算;物聯網;數據挖掘
中圖法分類號:TP391文獻標識碼:A
Data mining based on cloud computing and Internet of things technology
LU Yu
(Wuxi City Cloud Computing CenterCo.,Ltd.,Wuxi,Jiangsu 214135,China)
Abstract:With the continuous development of cloud computing and Internet of things technologies in China,data mining technologies and models have gradually developed and matured,improving the utilization of network data. Based on the data mining technology and model and system research under cloud computing and Internet technology, this paper briefly expounds the connotation of cloud computing and Internet of things technology, and aims at the data collection and integration in the data mining system formed by cloud computing and Internet technology. Scheduling,mining algorithm parallelism, service scheduling and management and other key technologies are discussed. and the data mining model and system establishment formed by cloud computing and Internet of things technology are analyzed.
Key words:cloud computing, Internet of things, data mining
數據挖掘技術能夠幫助企業以及相關部門發掘社會生活中存在的海量數據,以便在掌握人們真實需求的前提下,為其提供針對性的產品和服務。對于相關部門而言,數據挖掘技術能夠深刻發掘目前國內經濟社會發展問題背后的原因,在采取針對性措施解決相關問題的基礎上,推動國內經濟社會的發展。企業則可以利用數據挖掘技術將業務經營中積累的各項數據進行分析,充分利用這些數據反映出的市場變化規律形成正確的企業發展決策。
1概述
1.1云計算技術
云計算技術可以憑借分布式計算平臺對海量數據背后的隱藏規律進行挖掘。云計算技術可以幫助用戶結合真實需求隨時訪問計算機和數據庫,并提供不同類型數據的分析處理服務,對提高數據挖掘效率及數據利用率都有著重要作用[1]。為了進一步提高數據的安全性,云計算技術可以同步實施儲存和計算操作,對各項數據進行高效處理,并能夠解決其中的融合性和存儲問題。隨著國內云計算技術的持續發展,逐漸展現出如下特征:第一,規模較大。云計算技術通常會涉及百萬臺服務器,這意味著能夠在極短時間內對海量數據進行全面計算和挖掘;第二,資源的虛擬特征。用戶可以憑借基于云計算技術的現代化裝置在任意時間和地點實現和數據中心的連接,獲得自己所需要的各種服務,同時數據不會在任何實體服務器內進行儲存,通常會被存入云端系統中;第三,可靠性和通用性特征。云計算系統中分布的各種節點能夠實現同構互換的效果,與本地計算機相比,計算可靠性得到了明顯提升。
1.2物聯網技術
物聯網技術實際上是一種全新的網絡模式,能夠使用節點表示對象,并涉及數據的查詢、應用、匯總等多個環節,能夠將數據分別傳送到不同的傳感器和服務器中。隨著國內物聯網技術的持續發展,計算機技術和第5代通信技術的融合也變得越發深入,物聯網技術可以借助實體對象與信息網絡進行無縫連接,以保障業務經營的有效性[2]。國內物聯網技術發展體現出如下特征:第一,可以憑借現代信息技術和電子標簽技術獲得生產、生活的基礎性信息;第二,有著較高的信息傳輸可靠性,物聯網可以通過無線、有線網絡技術的集成處理,借助傳感器和通信網絡獲取、傳輸各種信息;第三,物聯網技術可以與云計算技術進行結合,進行數據信息的傳輸和處理,通過使用標準化數據識別技術對各項異構數據及時進行處理,從而維護海量數據的有效性。
2數據挖掘中的關鍵技術
2.1數據匯集調度技術
以云計算和物聯網平臺作為基礎,數據挖掘體系逐漸形成,其能夠借助云計算平臺匯集和調度多種不同類型的數據,最終實現綜合性管理和應用數據信息的目標。數據匯集調度技術作為數據挖掘技術的核心,能夠有效連接不同格式、類型之間的數據,實現二者之間的交流,同時不同類型的數據也能夠同步進行處理和連接。數據處理技術可以幫助相關人員在設計問題解決方案時,保障不同數據生成格式的統一化,具體包括聯機事務處理系統的形式數據、分析處理系統的形式數據和各種日常維護日志數據等[3]。數據匯集調度技術的應用能夠在深入挖掘海量數據信息背后價值的前提下,幫助企業做出正確決策。
2.2挖掘算法并行技術
基于云計算和物聯網技術的數據挖掘系統擁有挖掘算法并行技術,具體可以分為可行化算法、并行化算法和并行策略等。在數據挖掘算法應用的過程中,挖掘算法并行技術同樣可以引入決策樹算法和關聯規則算法。用戶可以在使用云計算平臺時,結合自己的具體需求以及數據規模選擇不同的挖掘算法,以便對數據背后的價值進行挖掘以及利用。
2.3服務調度管理技術
出于滿足不同業務系統服務需求的考慮,需要在綜合使用云計算和物聯網技術的過程中融入服務調度管理技術。服務調度管理技術可以針對服務等級、資源匹配進行科學分析,從而實現優先級服務的調度工作。在應用這一技術的過程中,同樣需要保障隔離不同服務以及維持彼此之間的互斥狀況,確保服務調度管理技術能夠發揮應有的作用,保證云服務的安全穩定運行[4]。此外,應用服務調度管理技術時,可以通過設置服務注冊、服務暴露等功能模塊,開展用戶所需的一體化服務管理工作。以服務調度管理技術為基礎所形成的數據挖掘系統能夠接入第三方數據,從而進一步提高系統的數據挖掘能力。
2.4基于云計算數據的挖掘技術
在國內信息技術持續發展的影響下,數據信息已經成為各個行業可持續發展的重要基礎資源,使用云計算數據的行業若要取得市場競爭力方面的優勢,必須深入挖掘核心數據中的商業價值,以實現數據價值的利益最大化目標。隨著云計算數據下的挖掘技術不斷發展,企業內部的數據挖掘工作在質量和效率方面也得到了明顯的進步。同時,企業的數據挖掘工作總量也得到了控制,企業完全可以憑借云計算技術、物聯網應用獲取關于生產、生活的關鍵數據信息,對數據背后的規律進行全面挖掘,確保企業的生產、生活信息應用逐漸向著高質量方向發展。
3數據挖掘模型及系統
3.1數據挖掘模型
以目前結合云計算和物聯網技術所形成的數據挖掘模式看來,通常是以物聯網環境作為基礎。但當下物聯網應用擁有明顯的復雜性、煩瑣性和關聯性特征,企業為了避免數據模型中的應用出現問題,會在數據應用的過程中進行創新,發揮云計算和物聯網數據技術在數據挖掘過程中的重要作用。以云計算和物聯網技術為基礎形成的數據挖掘模型可以幫工作人員對互聯網世界中的數據分布特征進行全面解析,從而選擇符合自身需求以及數據處理規模的方法,能夠進一步推動云計算和物聯網下的數據挖掘模型的發展。隨著國內信息化社會的持續發展和進步,物聯網數據同樣出現了關聯性弱、容量大、質量差等缺點。針對數據挖掘模型的應用,也需要結合數據規模方面的變化進行科學調整。基于云計算和物聯網技術所形成的數據挖掘模式和傳統的數據挖掘模式存在較大的差異,尤其是原始數據來源于四維空間中的時空網絡表現得最為明顯,而傳統的物聯網數據則是使用個體用點進行表示。數據挖掘模型可以合理應用云計算數據成果,尤其是網絡發掘技術,實現對生產、生活數據的高質量處理,并且數據挖掘操作中的失誤事件發生概率有所降低。
基于云計算和物聯網技術所形成的數據挖掘模型建立需要綜合考慮物與物之間的個體聯系。并且,聯系方面的差異意味著建立的數據挖掘模型也存在明顯不同。一般而言,物與物之間存在的間接聯系可以使用拉普拉斯變換模型或者是 SVD 模型表示,數學模型的差異也會帶來表現結果的不同[5]。比如,目前較為常用的超圖物聯網數據模型就可以隨意的連接預編點,借此客觀展示網內的數據關聯關系,最為常見的表示如下:A={ v1,v2,v3,v4,v5,v6,v7}超邊集合,B={ e1,e2,e3,e4}={{ v1,v2,v3},{ v2,v3}。同時,穩定性相對較好的可外推非參數模型的建立也需要相關人員針對事物之間的聯系進行深入分析,通過建立數學模型,獲得完整的數量效果。但實際上,這種模型的應用也會受到網絡數據丟失以及錯誤方面的阻礙。
3.2數據挖掘系統
基于云計算和物聯網技術所形成的數據挖掘系統,其內部結構可以分為應用層、中間層、網絡層、接入網絡層和感知層等。感知層作為整個數據挖掘系統的底層,一般都是以硬件和物理設施為主;中間層則是感知層和應用層之間的連接和過渡層,能夠實現數據在二者之間的有效傳遞。中間層是處于底層的硬件層和上層應用層之間的接口,具備設備、信息管理等關鍵功能,同時數據過濾、語義分析、信息發現等工作也需要在這一層進行處理;應用層需要為用戶提供相應的服務或者是應用程序;接入網絡層在數據挖掘系統中主要是負責消息發布,并且在必要的情況下能夠實時跨平臺通信。
數據挖掘系統中的應用程序和中間層需要使用云計算技術實現其功能,云計算技術能夠提供帶有伸縮性的儲存、計算時間和其他工具,為用戶提供應用程序服務。基于此,網絡層能夠進行物聯網設備和云端的連接。數據挖掘系統可以借助云計算和物聯網技術形成較大的流量,在解決相關問題的過程中可以引入 fog 計算方式來否定節點。因為提供了本地化服務,以及擁有明顯的低延遲和上下文感知特征,云計算技術能夠提供全局集中的服務。
為了建立完善的以物聯網技術和云計算技術為基礎的數據挖掘系統,通常會使用readmake云或者是大數據的數據挖掘系統。微軟的 Azure 機器學習作為一個以 SaaS 技術所形成的預測分析服務,能夠向用戶提供必要的包括數據獲取、預處理、特征定義等在內的完善數據分析服務。但用戶只能夠在 Azure ML 學習算法中應用包括分類、回歸、異常檢測和聚類等方式,并且在算法擴展的過程中也只能添加有關機器學習市場上其他成熟、可用的算法,這項技術可以憑借 Azure API 發布集成性質的其他模塊以及服務。
Apache Spark 機器學習庫作為一種以 Apache Spark 平臺為基礎形成的帶有擴展性的機器學習庫,涵蓋了最為常見的學習算法和工具,以分類、回歸、聚類、協同處理等為主,擁有屬于自己的 MapReduce 范例實現,可借助已有內存進行數據的儲存和管理。同時,這種機器學習庫算法能夠進一步提高算法效率,用戶也可以根據自己的需求拓展機器學習算法。但實際上,用戶在對其進行具體應用的過程中,需要在地圖上進行算法分解,這使得部分機器學習庫中的功能有所減少,限制了數據挖掘算法的并行化能力。
作為國際社會知名度較高的開源數據挖掘庫下的拓展成果,Weka4WS 實現了 WSRF 網格中的數據挖掘算法執行框架,可以做到在遠程網絡節點上執行擁有的挖掘算法。Weka4WS 可以實現產品的遠程調用目標,Weka 提供的數據挖掘算法是一種以 Web 服務的形式進行全面公開,能夠在各個網絡節點上進行部署。但實際上,這種算法也只能夠針對單個儲存節點中儲存的數據集合進行處理,并且需要將數據集合傳輸到需要挖掘的計算節點中。
4結束語
基于物聯網和云計算技術所形成的數據挖掘算法和模型通常使用的是集中式或者是分布式架構,又以集中式結構體系為主。由于分布式結構體系能夠減少終端在互聯網上的網絡流量,逐漸得以推廣和應用。在今后的數據挖掘系統算法持續優化的過程中,相關人員需要結合物聯網和云計算技術發展的全新技術成果,將數據挖掘算法分解成系統中的各個功能逐一映射到參與者身上,以便在進一步提高數據挖掘系統的數據分析性能的同時,降低終端設備和云端之間的網絡流量,以最小的成本提高數據挖掘系統算法以及模型的數據處理效率。
參考文獻:
[1]周鑫隆,梁婧.云計算與物聯網技術的數據挖掘分析[J].電子世界,2022(2):28?29+32.
[2]王艷雨,劉萍.基于云計算與物聯網技術的數據挖掘分析[J].科技創新與應用,2021,11(35):94?97.
[3]楊烈龍.基于云計算與物聯網技術的數據挖掘[J].中小企業管理與科技(下旬刊),2021(2):148?149.
[4]房悅.基于云計算與物聯網技術的數據挖掘分析[ J].粘接,2021,45(1):163?166.
[5]湯勇峰.基于云計算平臺的物聯網數據挖掘研究[J].電腦知識與技術,2017,13(7):218?219.
作者簡介:
陸煜(1983—),碩士,工程師,研究方向:物聯網產業和云計算產業的發展。