◆王元太
基于云計算的物聯網數據挖掘系統分析
◆王元太
(蘭州鐵路技師學院 甘肅 730050)
物聯網是世界信息產業“第三次浪潮”下的產物,全球各個國家也將物聯網的發展提升至國家戰略的層面。現代大數據環境之下,物聯網需要解決多個方面的技術問題。“云計算”具有規模龐大、可靠性高和擴展性良好的技術優勢,滿足物聯網朝著智能化發展的現實需求。本文通過利用“云計算”在信息處理上的時效性及數據存儲容量大等特點,改造相關算法,設計開發一種基于“云計算”的物聯網數據挖掘系統,有效地提高信息處理的時效性和準確性。
信息系統;物聯網;云計算;數據存儲;信息處理
隨著科學技術的不斷發展,現代各行各業實現了高速的發展,尤其是各種信息化系統因其高效性、時效性和準確性得到了廣泛應用。如在運輸行業中的目標探測系統,是基于物聯網搭建的框架下,利用目標探測系統中的各種傳感系統,對所要監控的目標進行信息數據的采集,并將采集到的相關信息數據上傳到主系統信息處理中心,進行對應的信息數據挖掘與處理工作。但是,隨著各行業的業務量不斷地增長,在傳統的信息數據化處理系統中,數據存儲容量以及挖掘處理效率等方面都已經不能滿足現有需求。
“云計算”是一種集并行化與分布式等特點于一身的計算系統,可以有效地提高系統對信息數據的處理與挖掘效率。
“云計算”通常被認為是一種商業計算模型,是在大量計算機共同構成的資源池中處理完成任務的過程。而這種資源池就被稱為“云”,用戶可以按照實際需求獲取存儲空間或是其他類型的信息服務,且“云計算”用戶可以動態地獲取并利用部分資源,且各種任務直接交給“云計算”進行處理后,用戶本身并不需要考慮到底層的分布細節,只需要關注任務的執行情況即可。
“云計算”是分布式計算方式的一種,它能夠通過互聯網將所有的數據計算處理方式,劃分成許許多多個小程序,借助不同的服務器系統來對這小程序進行信息化處理和分析,計算出結果后反饋客戶。
“云計算”通過利用互聯網的虛擬化信息技術,將眾多的服務器硬件有機結合起來,并進行抽象化操作,再進行邏輯化資源的整合分配與劃分。
數據挖掘系統的任務直接決定了數據挖掘系統的工作方向,并且會直接指導算法朝著怎樣的數據分析模式發展。前者主要集中于了解數據具備的一般特點,包括對數據庫中已有數據的刻畫和描繪,總結數據之間的關系和類型等。而后者則側重于立足現有數據進行分析判斷,對一些加入的新數據進行同步預測。按照具體任務的差異,在挖掘結果中會獲得不同類型的數據模式,因此數據挖掘系統就要具備對多種數據的分析能力以此來滿足不同用戶的實際需求。按照發現的數據模式和任務要求,我們可以將基本任務劃分為幾個不同類型:數據描述可視化、相關性分析、分類預測與聚類、復雜數據挖掘和數據演變分析。
在“云計算”中,需要將各個不同的應用程序分析出來的結果數據,按照事前設定的邏輯關系進行排列,組成新的數據列。再通過“云”處理系統進行相應的統一處理,將資源有序地分配給需求客戶。

數據挖掘的所需時間T如公式2所示:

通過公式1與2,得出復雜系數λ隨著系統的系數復雜性的提高而提高,數據挖掘間的耦合性增大,其處理時間T也會增大。
基于“云計算”的物聯網數據挖掘系統結構,主要是能為客戶提供虛擬化與動態資源點的計算系統。該系統的結構設計主要是先進行軟件層次的分層設計,主要分為三層,從低往上依次為:PaaS數據算法層,DaaS任務層,SaaS用戶層。軟件中的底層透明地為其上層服務,其上一層通過層間的開放式接口,來協調各層的服務,有利于各層之間的功能可以獨立運行,滿足各類算法靈活維護的同時,還符合物聯網數據的高效動態特性。
物聯網數據存在數據海量、邏輯關系不強以及比較混亂等問題,因其數據規模龐大,針對計算機的需求較高;數據間的需求與供給節點產生了巨大矛盾;物聯網的數據安全性不強。
由于傳統的信息處理系統,在統一處理不同程序應用的大量數據時,需要進行對數據挖掘算法的收斂,其效果不是很好,而且在它的計算能力和對應的數據存儲資源上,不能有效地滿足用戶需求的提高,導致信息處理系統的效率不斷地降低。通過設計一種分布式、網格化處理算法,來提高計算的工作效率。
通過在初始化計算階段,將服務器中需要處理的相關信息數據,根據信息數據的屬性來對其進行相關信息的判斷并重新排序。之后,對相同屬性的數據進行刪除重復,并建立云服務器端與信息數據間的關聯系數。
再通過公式3進行計算原屬性D和客戶需求G的關聯系數,如果計算得出的關聯系數小于0,說明原數據集合D與客戶需求沒有關系,不用保存其相關的數據;如果計算出的關聯系數大于0,說明原數據集合D與客戶需求相關,需要云存儲終端進行對原數據的保存工作。

公式中D為數據集的屬性;
F為通過服務器終端邏輯處理后的邏輯屬性;
G為客戶需求。
“云數據”挖掘算法需要先計算“云計算”預處理后的信息數據屬性數集,并得出了不同屬性間的業務數據集。再對這些屬性數據進行逐條運算。把M設為挖掘的信息數據,其信息數據集為M1,M2,…Mn,每個矩陣向量中的元素為m1,m2,…mn,則簡化后的數據挖掘算法公式如4所示。

經過算法關聯處理后的數據公式如5所示。

數據挖掘模型主要分為如下五層形式:
(1)數據接入層,主要由各類的傳感儀器終端組合而成,包括無線傳感儀器,GPS等,應用在監視目標,并對目標進行數據采集工作;
(2)集成層,主要是將數據接入層采集到的相關數據存儲起來,作為數據源,為其他各層提供相應的數據保障;
(3)挖掘層,作為該系統的核心層,主要是為系統提供數據挖掘所需要的各項功能模塊,并行運算算法,并將計算出的結果反饋至業務控制層;
(4)業務控制層,主要是進行數據挖掘程序的邏輯運算,控制或調控邏輯算法,并將計算出的結果傳送至交互層中;
(5)交互層,它是該系統與客戶間聯系的窗口,借助這些接口,客戶可以查看或保存相關的數據結果。
上述系統模型五層結構擁有各自不同的功能模塊,比如在接入層中使用的“云計算”功能模塊;在系統挖掘層中使用的是并行數據挖掘算法功能模塊、模式評估功能模塊和并行的ETL功能模塊;在控制層中主要是使用任務調度控制功能模塊以及工作流程控制功能模塊;最后的交互層主要是使用管理功能模塊、業務功能模塊和結果顯示功能模塊。
在數據挖掘中的相關數據子系統管理是用戶對數據資源進行分配管理,主要是基于“云計算”功能的DaaS任務層服務模式,可以有效地保護用戶的個人隱私,做到數據的安全性。在數據挖掘的子系統中,可以為用戶提供數據知識的發現,實現對數據的挖掘工作,有效地幫助需要知識數據挖掘的用戶。
隨著科學技術的不斷發展,物聯網信息處理系統的需求不斷提高,如對數據挖掘的精準度,高效性以及快速響應等需求也不斷增加,傳統的數據挖掘算法已經無法滿足用戶增長需求。借著大數據信息技術的高速發展,基于“云計算”的物聯網數據挖掘系統將得到更廣泛的應用,有效提高信息數據處理分析的高效性和準確性。
[1]湯勇峰.基于云計算平臺的物聯網數據挖掘研究[J].電腦知識與技術,2017(1307):218-219.
[2]陳俊麗.基于云計算平臺的物聯網數據挖掘研究[J].中國新通信,2016(1821):74-75.
[3]武桂云.基于hadoop平臺的分布式數據挖掘系統研究與設計[D].天津大學,2012.
[4]BARALIS E,CERQUTTELI T,CHIUSANO S. Index support for frequent itemset mining in a relaional DBMS[C]//Procof Data Engineering 2005. ICDE 2005. Los Alamitos,CA:IEEE Computer Sociely,2005:754-765.
[5]減麗娜,鄭艷娟,張宇敬.面向云計算的船舶生產信息平臺建設[J].艦船科學技術,2014,36(12):107-111.
[6]曹強,潘維光數據挖掘技術在艦載信息系統中的應用研究[J].艦船科學技術,2005,27(8):62-65.