摘要:網絡發達的現今社會,信息產業已經成為國民經濟的支柱產業之一。云計算和物聯網技術已成為推動人類文明邁向智能化方向發展的核心點,將云計算與物聯網技術進行有效融合,能實現海量數據的有效挖掘,對于我國數據挖掘技術的優化與升級有不容小覷的重要意義。
關鍵詞:云計算;物聯網技術;數據挖掘
引言
信息技術發展速度的提升以及網絡各種技術、標準的發展,促使第三次信息產業革命的到來,也就是物聯網的出現。隨著應用終端接入數量增多,物聯網存儲的數據不僅大規模增長,而且數據的格式和類型也變得錯綜復雜。同時,出現在物聯網中的數據不斷變化,這些數據中出現大量無用數據,而且部分數據在時間和空間的黏合度較高,具有動態分布和異構性,所以進行數據挖掘難度增大。云計算技術能夠在非常短的時間內對海量數據進行處理,結合數據挖掘技術,利用算法,深挖有價值數據。通過云計算與物聯網技術的有效契合,利用數據挖掘技術能有效提高信息數據的分析,保證網絡數據的精準定位與安全存儲。
1. 云計算與物聯網的簡要介紹
1.1 云計算
云計算不是實體化的資源,而是通過互聯網的算法平臺,將共享軟、硬件上的信息和資源推送給用戶。在數據處理過程中,云計算的分布式計算可以將龐大的計算進行拆分,并將拆分后的小分支依次分配到各個計算機上進行處理,最后整合計算結果,加強了數據的安全性,云計算中的并行計算能保證數據存儲和計算的同時進行,在不勝枚舉的數據群里對數據進行深層價值分析,促使數據有效,云計算的恰當使用,不僅優化數據,還能解決數據容錯及存儲問題[1]。
云計算受眾很廣,與其技術特點密不可分:第一,計算規模大。云計算技術需要使用的服務器數目眾多,比如谷歌的云計算就有100多萬臺服務器,還有亞馬遜、雅虎和微軟有幾十萬臺,私人企業最少幾十臺,最多上千臺。第二,非實體化資源的使用。用戶可以使用多種終端設備,突破地域限制連接數據中心得到自己的需求資源。數據并不存放在實體中,主要靠“云存儲”,至于如何運行,用戶不用關心。第三,穩固,適用范圍大,擴展區域大。內容一樣、同樣結構的計算節點可以互相交換,在云的支撐下可以構造出千變萬化的程序[2]。第四,按照需要提供服務,性價比高。用戶可以按照自己的需求獲得服務,就像在超市購物一樣。
1.2 物聯網技術
“物聯網”提出的時間較早,但當時的科技發展水平和條件相對落后,所以并沒有引起人們的注意。1999年,Auto-ID在射頻識別技術以及互聯網等基礎上,首先提出“物聯網”概念,同年,中國也提出了“傳感網”。近年來,網絡技術的成熟讓物聯網技術也得到了全面提升。此項技術是根據應用對象的實際情況進行數據建模,技術手段的使用能將物理對象的實際情況和信息系統的構建進行無縫對接,實現項目的規范化處理和監管,并將處理后的數據應用到不同領域,解決不同客戶群體的實際需要。
物聯網的核心是傳感器之間相互連接組成傳感器網絡,以數據挖掘服務網絡為基準,形成網絡環境后,在各個節點進行傳感器設置,讓監測的內容包括溫度、濕度、光照強度、輻射強度及移動速度等。數據挖掘服務網絡在使用過程中配合,將獲取的數據和信息通過無線網絡傳送給使用者,例如將無線監控攝像頭安裝于家庭,主人可以通過視頻、音頻傳感器對家中的環境進行監控。傳感器是物聯網建設的基礎[3]。
1.3 基于云計算的物聯網特征
物聯網可以應用于大量移動終端設備,起到實時監控作用。大量移動終端設備的接入,使數據驟增,數據的格式和種類也不再簡單,如果仍然沿用過去的數據挖掘方法,對物聯網應用需求會產生羈絆。為了解決存在的問題,需要使用更加科學的挖掘技術,而云計算中的并行計算優勢可以突破重圍,滿足要求。物聯網中的各類數據不止結構不同,不同時間及不同空間產生的動態數據也不同,這兩種情況加大了數據挖掘難度。為了對數據有更加清晰的認識,需要花費較長的時間周期進行存儲和管理,針對以上困境,將云計算技術應用于物聯網,簡化并降低了挖掘難度。通過云計算的分布式并行計算,可以讓用戶在海量數據中有效提取數據價值,而且不需要考慮技術細節,對控制系統維護成本有顯著效果,其中包括MapReduce并行計算框架、迭代pregel等[4]。
Hadoop平臺為云計算的開展提供良好基礎,在Hadoop平臺中,通過開放源優勢結合集群方式給用戶提供信息存儲和數據運算的服務,平臺中包含有HDFS以及MapReduce。HDFS容錯強、擴展佳的優點,可以滿足用戶對該平臺差異硬件系統的各種現實要求。MapReduce并行編程模型是將一個大規模的數據集,按照一定的規則發放到各個分節點處理后再次將結果進行合理整合,監控功能的使用能夠處理失敗和異常的節點,最終獲得良好的數據處理與分析結果[5]。
2. 數據挖掘技術
2.1概述
數據挖掘技術從誕生到高速發展經歷的時間并不長,因此存在的問題多,完善性也弱。但隨著20世紀90年代信息技術的發展,信息處理水平的提升讓數據挖掘范圍得到了拓展,技術應用持續增強。數據挖掘工作開始在時代舞臺上嶄露頭角,它可以歸屬于科學研究領域,也可以納入交叉學科中。綜合文獻剖析,數據挖掘技術構成如下:第一,數據不虛假,延伸廣。第二,數據被深度挖掘并提取價值。第三,結合分析后的數據做出判斷,為決策提供正確及科學的指導。將數據挖掘與云計算技術進行銜接,通過挖掘得到的信息提供給更多的行業,給人民的生活提供便利。
2.2 特征
量大、短時有效、結構不同以及形態多樣是物聯網數據的特征。物聯網的數據分布在不同的位置,數據的分類必須精確,因為數據量大且不簡單,故需要將傳感器節點配置到數據中,確保數據信息能夠得到及時處理。
2.3 物聯網數據處理技術要求
物聯網數據的特性對數據質量的控制沒法保證,數據查詢、集成、存儲、融合沒有辦法有效完成,因此,需要技術人員深入探索研究,擺脫困境。鑒于此,物聯網數據處理有如下要求:
(1)異構性要求。由于物聯網數據的異構性,要結合實際以軟件作為入手點,合理使用操作系統,對于不同種類的感知信息要使用相應的數據結構以及數據庫,不同的操作系統配置不同的中間件。數據庫體系結構用來深度挖掘數據信息并存儲價值數據。
(2)海量性與實效性要求。數據量大增加數據存儲難度,反應速度和計算結果滯后。解決辦法有兩個:一是對服務器升級,將數據放置在服務器中處理;二是提高物聯網每個節點的計算能力。
(3)數據傳輸要求。數據采集和傳輸主要依靠讀寫器、RFID 標簽、傳感器以及節點等數據提供者。為了確保系統域運行的穩妥,系統硬件必須滿足功耗不高、可靠性高、抗干擾性強的特性。對于架構模型也必須以系統成熟、推廣度高作為選用基礎。
2.4 物聯網數據挖掘技術應用中存在的挑戰
物聯網技術處于成長階段,雖然在具體應用中掌握了一定的運行周期,但在一些更加具體的應用中還存在很多不足,特別是技術層面,如:
(1)對于數據存儲手段不靈活,而且效用不高,大量的數據存儲地點各異,應用的中央管理模式無法精準探知分布式數據。
(2)數據基數大,需要的存儲空間也變大。對信息節點處理的有效性和實效性提出了要求,結合中央處理模式,對計算機硬件性能也需要進一步提升,但目前設施并不完善。
(3)節點的資源有限,數據放在中心節點的策略沒有優化資源使用,越來越多的數據信息處理需要更多處理設備,但目前沒有足夠的設備能夠滿足需求。
(4)受物聯網存在的外在因素影響,將數據存儲到數據倉庫,會涉及傳輸安全、數據隱私等因素,可靠性降低,網絡的穩定性也會影響運行。
以當前分析,物聯網數據挖掘技術存在的限制性對數據應用和使用價值產生了枷鎖。
3. 基于云計算的物聯網數據挖掘關鍵技術
3.1 云計算的數據挖掘模式
物聯網數據類型并不單純,物物之間的關聯、特性差異化及應用的煩瑣性造成與傳統數據挖掘有很大的差異,使用時存在的問題舉不勝舉,究其根源,是物聯網系統造成的。云計算的數據挖掘應當考慮到這些影響因子,關注物物的關系構成,特別是把數據在傳輸中存在的丟失和錯誤等問題進行有效杜絕。相關技術人員需要掌握物聯網的數據特點,比如關聯性、時空性、非結構性,并在云計算技術的應用過程中進行合理調整,結合物物之間的個體練習進行建模,如果是間接關系,可以使用SVD模型、拉普拉斯變換模型引導,在不同的數學模型表現出不同的展示結果。例如,超圖物聯網數據模型就可以預編點進行隨意連接。如果是直接關系,要有利于物物間接關系的推導。針對物聯網數據的繁雜關系,利用超標方式描述。對于穩定的外推非參數模型的建立要以事先進行事物聯系為基準,明確關系,利用數據模型描述數量關系。
3.2 云計算的數據挖掘技術
信息化時代下,數據信息的重要性愈發突出,將數據的深層價值挖掘出來應用到行業領域可以為企業獲取優勢資源添磚加瓦。云計算和數據挖掘技術相得益彰,是獲取數據價值更有效的方式,云計算模式的使用為實現各種數據的收集、儲存及匯總提供了更強的技術支持。
3.2.1 數據匯總調度技術
數據匯總調度技術可通過云計算將不同類型的數據先匯總,然后對匯總后的數據根據情況進行二次調度。這種方式能夠實現不同格式數據的交流,對多種數據的同步連接也有好的服務觀感,對數據進行層次化整理、存放也有了靈活的排列存儲方式。比如企業運營過程中對于運營資金管理要根據行業發展及企業業務特點,制定數據信息收集和整理策略規劃,根據數據是否有效做好劃分,建立企業內部的信息分析評估體系,在短時間內將重要數據推送給企業負責人,使企業決策有更強的指導性。
3.2.2 服務調度以及服務管理
每個行業、不同群體之間要求的實際服務是有差異的,云計算平臺要從服務調度和服務管理兩個方面齊抓共管。對于調度功能來講,注重資源匹配與服務分析,實現對優先級服務的調度工作,在處理階段要解決好不同服務之間的隔離和互斥,提升云服務的安全運行范圍。
3.3 物聯網數據挖掘技術模塊
物聯網數據挖掘網絡拓撲的可控性非常重要,利用挖掘平臺劃分技術模塊,通常在Hadoop基礎上,將技術模塊按照功能進行層次劃分,在每個模塊上實現各自的數據分析,最終完成數據挖掘任務,劃分如下:
3.3.1 物聯網感知層
感知層是物聯網的最下面層級,它利用層內的眾多采集節點,以射頻識別器、全球定位系統和紅外感應器、攝像頭等多種設備識別和獲取各類事務的數據信息,并完成通信工作,利用無線網絡匯聚數據至匯聚節點,通過傳輸層將匯總的數據傳到云平臺數據庫。
3.3.2 傳輸層
傳輸層可以實現對不同數據的有效處理,為數據層提供數據傳輸服務,主要設計有線網、無線網及傳感器,保證網絡連接,快速將數據上傳到數據中心實現全網通信。傳輸層的應用能夠強化網絡監測數據的傳輸效果,也能在不同數據傳輸設備之間起到有效監測的作用。
3.3.3 數據層
數據層隸屬于技術體系的核心部分,直接影響技術可行性。物聯網數據的海量性和異構性需要在數據層進行方案制定,促進數據的安全性和可行性。
3.3.4 數據挖掘層
數據挖掘層由數據準備模塊、數據挖掘引擎模塊和用戶模塊共同構建。數據準備模塊需要將類型不同的數據進行清理、變化、數據規約。數據挖掘引擎模塊進行數據明確,最終結果由用戶模塊中包含的數據挖掘平臺用戶接觸端將結果進行可視化表示。通過以上幾個模塊將信息連接,對不同種類數據進行預處理,包括去噪、精簡冗余數據、補充不完整數據等。對挖掘模式還可以進行測試評估。
結論
隨著信息化社會的發展,物聯網技術的開發程度已經趨于最大化。如果想在未來的數據分析應用中占據一席之地,還需要其他技術的支持與配合,而云計算給物聯網提供了繼續發展的機遇。物聯網技術與云計算的聯合應用,為物聯網數據挖掘技術的發展提供了更多的可能,在實際應用中,及時發現問題并實時處理、總結技術經驗,將其進一步優化,幫助技術人員對海量數據進行高效處理,對物聯網技術的發展有非常重要的促進意義。
參考文獻:
[1]王艷雨,劉萍.基于云計算與物聯網技術的數據挖掘分析[J].科技創新與應用2021,(35):94-97.
[2]趙建保,施爍.淺析基于云計算的物聯網數據挖掘技術[J].信息系統工程2019,(10):83-84.
[3]王寶龍.云計算與物聯網技術的數據挖掘研究[J].產業創新研究2022,(12):47-49.
[4]周鑫隆,梁婧.云計算與物聯網技術的數據挖掘分析[J].電子世界2022,(2):28-29,32.
[5]黃君,陳超雪.云計算背景下物聯網數據挖掘技術研究[J].電子世界2021,(22):4-5.
作者簡介:白萍,碩士,副教授,研究方向:計算機科學與技術。