任 偉
(南通科技職業學院,江蘇 南通 226007)
基于云計算的物聯網數據挖掘模型研究
任 偉
(南通科技職業學院,江蘇 南通 226007)
隨著計算機和網絡技術的發展,數據挖掘、云計算、物聯網等技術在人們生活、工作當中占據著越來越重要的地位。本文分析了物聯網、信息融合技術及其應用方法,闡述了以云為中心的物聯網數據處理模型,并以城市公共交通出租車數據集為例,描述了數據處理的基本過程,驗證了物聯網實時數據處理的可行性與可操作性。
云計算;物聯網;數據挖掘;模型
數據挖掘技術是從一個隨機海量數據中,提取有效可用的信息,進而過渡到信息數據挖掘其應用價值的過程。數據挖掘平臺在物聯網、云計算等強大技術的支持下,功能更加強大,結構更加穩固,進而將模式辨別、統計學等科技元素融為一體,使得數據處理高效而經濟。數據挖掘技術在現代科技領域中發揮著極其重要作用。
物聯網(“Internet of things”,簡稱 IOT。)是指物與物之間相通相連的一種網絡,是信息時代最重要的技術之一。物聯網利用其本身強大的辨別和智能感知技術,在網絡中融會貫通,使物物相連的同時,也使互聯網客戶端的應用業務得以延伸。為此,物聯網被稱之為繼計算機、Internet之后的第三次世界信息產業浪潮。
物聯網的應用領域十分廣泛,從智能交通、政府工作、環境保護,再到智慧城市、公共安全、環境監測、食品溯源、智能家居等,都或多或少涉及到物聯網的應用。具體而言,在家電、電網、食品以及鐵路橋梁等物之中設置傳感器,對網絡信息予以整合,進而通過中心控制系統,反饋、解決實時信息,方可達到有效管理、提高生產的目的。在應用領域中進一步創新,加強用戶體驗,是物聯網未來發展的核心所在。
首先,物聯網技術具有強大感知能力,利用諸多傳感器,獲取不同信息源的實時數據,這些數據具有不用的形式、內容,并且根據一定的周期頻率搜集環境信息,予以更新。
其次,物聯網是一種基于互聯網的泛在網絡,其技術核心仍然是互聯網。由物聯網傳感器定時收集信息,利用網絡協議傳遞物體實時信息。由于數據信息量大,導致形成海量數據,在傳遞期間,為確保實時性信息,必須與不同結構的協議、網絡相適應。
再次,物聯網中的傳感器具有智能化處理的功能。物聯網將傳感器和智能處理相結合,利用云計算、模式識別等各種智能技術,擴充其應用領域。從傳感器獲得的海量信息中分析、加工和處理出有意義的數據,以適應不同用戶的不同需求,發現新的應用領域和應用模式。
信息與技術融合,又稱數據融合。通過計算機技術,在一定原則下,綜合、分析多種信息源的傳感器信息,以此來取得一個或者是單個信息源所不及的有價值信息。也可以是多傳感器信息融合,綜合一個或多個信息源,進而獲取相關數據、關聯信息,以此來精準估計身份、確定位置,動態評估、處理信息的過程。該過程具有持續性和創新性,最終實現結果的更新。
信息融合技術中,具有代表性的方法,有以下幾種:
第一,小波分析方法:這種方法最大的特征在于局部化信息時域,可良好解決分布特征信息、信號。
第二,加權平均方法:對傳感器所獲取的信息實施加權平均,最后的融合值為平均過后的數值,是信息融合技術中最簡單直接的一種方法。
第三,概率論:分析不同傳感器信息源,將錯誤、低水平的信息刪除,如果已知條件為先驗概率,則通過貝葉斯概率法,最終取得有價值的信息融合結果。
第四,卡爾曼濾波法:適用于低層次動態實時傳感器冗余信息,于線性系統而言,當傳感器噪聲、系統噪聲達到建模條件時,此方法可提取有意義的統計融合值,在此期間的存儲不需要太大的空間,對信息的處理可以達到實時化。
第五,D-S證據理論方法:此方法可擴充概率論,可應用于人工智能、辨別技術、專家系統以及系統決策領域。
第六,模糊邏輯理論法:這種邏輯是一種多數據邏輯,在推理期間,可反應出傳感器的不確定性。該方法可運用在多傳感器信息融合技術中。
第七,貝葉斯信息融合方法:多傳感器信息融合時,將諸多不同傳感器傳遞的不確定信息,以概率來表示,把互相獨立的決策視作樣本空間劃分,利用貝葉斯概率方法,予以處理,最后利用系統決策中的準則,獲取有用信息。
云計算作為一種新型技術,與物聯網的結合,是社會發展的必然結果。圖1是基于云計算所形成的數據處理平臺,也是物聯網數據處理中的挖掘環節。在模型中,充分考慮了挖掘算法與推薦算法的并行運行與分布運行。模型將數據處理平臺分為三個基本層次,分層設計的思想使得整個物聯網數據處理的有效性更高,處理效率也得到極大的提升。自下而上為:云計算支撐平臺層、數據挖掘能力層、數據挖掘云服務層。
提供文件或數據存儲空間以及數據計算能力,是數據處理平臺的基石。在該平臺中,融入了第三方挖掘算法服務,業務運作可以基于企業自主研發的云計算平臺,也可以基于第三方提供的云計算平臺來進行,這也是物聯網的便捷性所在。

圖1 基于云計算的數據處理平臺模型Fig.1 A model of data processing platform based on cloud computing
給予整個平臺數據挖掘的基礎能力。在該層次中,必須要有基本的算法服務管理、調度引擎和數據并行處理框架。同時,還需要對數據挖掘云服務層的能力提供必然的支撐。從某種程度上來說,數據挖掘能力的高低,直接影響云計算的服務能力,整個物聯網的服務力都將受到影響。
對外提供數據挖掘云服務,其服務能力封裝的接口形式對外是具有多樣性的,簡單的對象訪問協議、XML或者本地應用程序編程接口等形式,都可以成為云服務的對外接口形式。物聯網的基本作用就是利用信息技術為用戶提供更加便捷的服務。而云服務的存在,就是為了強化其服務能力。云服務層實際上是綜合其下兩層的數據處理,實現的某種用戶需求。另外,云服務層還可以支持結構化的查詢語言語句的訪問,從而使得數據在處理的過程中,語言的轉化更加方便。
物聯網中,運用不同傳感器所采集到的數據多數為實時數據流,對實時數據進行處理和加工成為物聯網數據處理的核心問題。本文通過對路面部分公共交通監控定位數據的采集與處理以感知城市交通狀況。與此同時,還搭建了原型系統來處理物聯網的實時數據。
筆者通過利用出租車GPS獲得的行車軌跡信息作為傳感數據來源,搭建原型系統以及必要的驗證平臺。在某城市采集數據時,有7648輛出租車在一天時間內正常行駛的軌跡信息,傳感采樣的數據達1800萬條。在處理數據時,需要處理好兩個問題。第一,交通狀況處于不斷變化中,應該如何確保實時處理的數據對交通狀況的有效性。第二,出租車在城市中隨機行使,在時空維度上,采集的數據呈現出非均勻稀疏狀態且分布在不同道路中。因此,筆者提出利用在線實時估算法建立物聯網實時數據處理系統。
為了能夠解決缺失值估算的問題,所以運用多元線性回歸方法的在線算法。運用多元線性回歸模型來運算出有關的系數:

式子中:vit代表t時刻區域ri的交通條件;vkt,k={1.2.3…m}代表臨近區域中 rk在 t時刻的交通條件;βk代表 vit和vkt的偏相關系數;μ代表隨機誤差項。

式子中:?itv代表 vit的估計;vkt,k={1.2.3…m}代表區域中t時刻的真實值。
再運用式子(2)運算出系數估計值,解決方案的具體算法,見圖2。

圖2 在交通缺失的情況下的估計算法Fig.2 Estimation algorithm in the absence of traffic
運用 geohash法分割地球表現經緯度,在維度[90-90]、經度[180-180]中不斷迭代二分,直至達到需要的精度位置。運用原始二進制來儲存與操作,可以把 geohash轉化成浮點數,以便根據浮點數自動儲存和訪問。運用 geohash從二進制的字符串到浮點數的映射設計,因為研究區域被限制在一個城市中,geohash二進制字符串的多位是一樣的,出租車GPS數據集中前十位是相同的。把相同部位截斷,壓縮數據以方便下一步計算。對有效位實施移位操作,得到儲存浮點數。以達到簡化運算的目的,把地區分成9個矩形(如圖3),估算樣本參考區就有8個。來自一個估算方向以及速度的兩組樣本臨近兩側的樣本區,每組采樣組區都會有圖3所示的矩形區域??杖眳^域值是按照一個估算速度方向中兩側臨近樣本得到了交通信息來估算。

圖3 區域交通網絡劃分Fig.3 Division of regional traffic network
實時數據處理系統的運行流程,見圖 4。出租車軌跡數據集中的信息按照時間順序依次排列到消息隊列中。在處理過程中,包括了4種業務處理邏輯,一種Spout和三種Bolt。Spout讀取數據消息隊列;Bolt切分每條原始數據,處理為標準化數據處理結構。完成樣本區域中的 geohash劃分,最后實施聚合操縱業務。在具體運用中,數據傳感速度非常高,若使用傳統數據庫處理,其效率很低。所以使用內存數據來儲存,減少數據處理時延。在實時數據處理過程中,分布了五臺臺式計算機,并將其組成集群運行環境,將ubuntu server操作系統安裝在節點上,通過web頁面實現將數據呈現出來,實現用戶的交互。
運用上述算法設計以及分布式計算框架,在當前計算機設備環境中也能夠滿足應用提出的數據處理實時性的要求。在數據交互與訪問過程中,計算單元時延保持為毫秒級,能夠滿足數據實時性要求。
隨著科學技術的發展,人們的工作和生活對網絡的實際需求將不斷增加,以云為中心的物聯網數據處理與傳統的數據處理系統相比,可拓展性更強,數據處理效率和準確性更高,其面向的服務群體更廣,提供的服務力有更大的發展潛力。

圖4 實時數據處理系統結構Fig.4 The structure of real time data processing system
[1] 丁巖, 楊慶平, 錢煜明. 基于云計算的數據挖掘平臺架構及其關鍵技術研究[J]. 中興通訊技術, 2013(01).
[2] 張毅, 崔曉燕. 基于云計算平臺的物聯網數據挖掘研究[J].軟件, 2014(01).
[3] 卜范玉, 王鑫, 張清辰. 基于云計算的物聯網數據挖掘模型[J]. 電腦與信息技術, 2012(06).
[4] 張春梅. 云計算物聯網體系的數據挖掘模式設計[J]. 信息系統工程, 2017(02).
[5] 解姍姍. 一種基于云計算的數據挖掘平臺架構設計與實現[J]. 安陽師范學院學報, 2015(05).
[6] 熊敏, 林榮恒, 鄒華. 云計算環境下的自適應資源監測模型設計[J]. 新型工業化, 2012(11).
[7] 葛曉玢, 劉杰. 基于云計算的數據挖掘平臺架構及其關鍵技術研究[J]. 德鎮學院學報, 2017(03).
[8] 張宏萌. 云計算平臺下智能車輛管理系統的研究與設計[J].中小企業管理與科技, 2012(04).
[9] 趙會群, 李會峰, 劉金鑾. RFID物聯網復雜事件模式聚類算法研究[J]. 計算機應用研究, 2017(03).
[10] 李立, 張玉州, 江克勤. 一種改進的基于云平臺的物聯網數據挖掘算法[J]. 安慶師范學院學報(自然科學版),2014(06).
Research on Data Mining Model of Internet of Things Based on Cloud Computing
REN Wei
(Nantong science and technology Academy, Nantong, Jiangsu 226007)
With the development of computer and network technology, data mining, cloud computing, Internet of things and other technologies occupy more and more important position in people's life and work. This paper analyzes the networking, information fusion technology and its application method, describes the data processing model of IOT cloud centric, and the city public transportation taxi data set as an example, describes the basic process of data processing, real-time data processing and networking verifies the feasibility and operability.
Cloud computing; Internet of things; Data mining; Model
TP391.8
A
10.3969/j.issn.1003-6970.2017.12.045
本文著錄格式:任偉. 基于云計算的物聯網數據挖掘模型研究[J]. 軟件,2017,38(12):229-232
任偉(1981-),男,講師,主要研究方向:云計算、物聯網技術。