凌穎,邱蕓
?
基于網絡數據實現對物聯網終端網絡行為監控的方法
凌穎,邱蕓
(中國電信股份有限公司上海研究院,上海 200122)
物聯網是通過部署具有一定感知、計算、執行和通信等能力的各種設備,獲得物理世界的信息或對物理世界的物體進行控制,通過網絡實現信息的傳輸、協同和處理,從而實現人與物通信、物與物通信的網絡,每一個物聯網傳感節點都是一個信息源,數據流源源不斷。電信網絡運營商可以通過對網絡數據的分析,及時發現物聯網終端的異常情況,從而保證物聯網終端的正常使用。闡述了一種通過分析電信網絡中的網絡數據、制定物聯網終端的網絡行為標簽、對物聯網終端網絡行為進行實時監控的方法。并以穿戴行業應用為例,描述了對物聯網終端網絡行為進行監控的分析過程。
物聯網;網絡數據;網絡行為監控
物聯網是一種全球化的信息服務基礎設施,它基于現有和未來演進的通信和信息技術,提供互聯物理和虛擬物體的先進服務[1]。物聯網是指通過部署具有一定感知、計算、執行和通信等能力的各種設備,獲得物理世界的信息或對物理世界的物體進行控制,通過網絡實現信息的傳輸、協同和處理,從而實現人與物通信、物與物通信的網絡[2]。
物聯網應用的數據產生于物聯網產業鏈的各個環節,包括感知層、網絡層、平臺層和應用層上都會產生大量的數據[3]。物聯網應用產生的數據具有海量性、多態性等特性。每一個物聯網傳感節點都是一個信息源,數據流源源不斷[4];物聯網涉及的應用范圍廣泛,不同領域、不同行業的物聯網應用數據通常具有不同的類型和格式,因此物聯網中數據多樣性更為突出[5]。
物聯網應用提供商擁有物聯網感知層和應用層上的數據,而電信網絡運營商則擁有物聯網的網絡層和平臺層上的數據,這些數據不是應用層面的數據,但能夠通過對這些數據的分析結果,掌握與物聯網終端所屬行業應用相關的網絡行為特征。目前,很多物聯網大數據分析是基于感知層和應用層的數據進行的[6],而很少有運營商對物聯網終端在網絡中產生的數據進行分析。
電信網絡運營商可以通過對網絡數據的分析,及時發現物聯網終端的異常情況,從而保證物聯網終端的正常使用,而且還可以將這些與行業應用相關的物聯網終端網絡行為數據作為咨詢報告形式提供給第三方行業研究機構。
本文主要描述了從網絡數據中可以分析出哪些物聯網終端網絡行為特征以及如何為不同行業應用的物聯網終端設計網絡行為標簽,并基于這些標簽進行物聯網終端異常行為檢測的方法。最后還以可穿戴行業應用為例,描述了對物聯網終端網絡行為進行監控的分析過程。
物聯網感知設備基于計算機和通信技術,利用蜂窩移動網絡、有線網絡、無線網絡等完成信息的傳輸、協同和處理,從而實現物與物通信、物與人通信的網絡[7]。因此,物聯網終端相關的網絡信息數據可以從電信網絡數據中采集清洗獲得,物聯網相關的網絡數據主要包括:物聯網終端語音、短信業務的通信數據、物聯網終端上網數據、物聯網終端的基本屬性數據和位置數據等。
通過這些數據可以獲得不同行業應用的物聯網終端網絡行為特征,如下所示。
(1)物聯網終端的數據通信行為特征
隨著3G、4G網絡的發展,越來越多的物聯網終端使用數據上網的通信方式進行信息傳輸,不同行業應用的物聯網終端數據通信行為特征各不相同,主要體現在以下幾個方面:終端數據上網訪問的時段、頻次、在線時長、活躍時長、流量大小以及數據訪問方向等。
? 數據上網訪問的時段每周可以分為工作日或休息日,每天可以分為8:00—18:00的工作時間或18:00—8:00的非工作時間。如:稅控機行業的物聯網終端通常是在工作日的工作時間進行信息傳輸;視頻監控行業的物聯網終端可以是在非工作時間段內進行信息傳輸。
? 數據上網的頻次可以分為高頻次的數據傳輸、低頻次的數據傳輸或偶發的數據傳輸。如:金融POS終端每日會高頻次地進行信息傳輸;智能井蓋在被移動或破壞時才會有信息傳輸,屬于偶發的信息傳輸行為。
? 數據上網的在線時長是指物聯網終端建立數據連接的時間長度,而活躍時長是指物聯網終端在連接狀態下進行信息傳輸的時間長度。如:金融POS終端雖然長時間處于連接狀態,在線時長通常很長,但是金融POS終端的活躍時長卻很短,通常是在交易發生時,用戶在POS機上劃卡時才會產生信息傳輸。
? 不同行業應用的物聯網終端的數據上網流量大小差別較大。如:智能家居行業應用終端傳輸的數據量較大;而金融POS終端傳輸的數據量通常都較小。
? 物聯網終端的數據訪問分為定向和非定向兩種。很多物聯網終端是向特定地址的應用平臺傳輸數據的,如:智能抄表的終端就是向特定的抄表應用服務器上傳輸抄表數據,這類數據訪問就是定向的數據訪問;而也有一些物聯網終端數據訪問的目的地不是特定的地址,而是任意的網絡地址,如:車載Wi-Fi終端的數據訪問地址就不是特定地址,這類數據訪問就是非定向的數據訪問。
(2)物聯網終端的語音和短信通信行為特征
目前網絡中還有一些使用2G的語音和短信的通信方式進行信息傳輸的物聯網終端。物聯網終端的語音和短信的通信行為特征與數據通信行為特征相類似,包括:語音通話時段、頻次、時長以及被叫號碼是否為定向號碼等;短信通信時段、頻次以及接收短信號碼是否為定向號碼等。

表1 8個物聯網行業應用的網絡行為特征
(3)物聯網終端的移動性行為特征
如果物聯網終端利用移動網絡實現信息傳輸,那么其在網絡中就具備移動性特征。物聯網終端的移動性行為特征包括固定位置類型、游牧類型和移動類型等。
有些物聯網終端的位置是固定的,而有些物聯網終端的位置是不固定的。
對于不連續移動的物聯網終端可以稱為是游牧類型的終端,如:物流行業的物聯網終端,其位置變化過程是不連續的,可能上午在北京進行了信息傳輸,而下午就出現在上海。對于游牧類型的物聯網終端而言,可以根據不同游牧地的個數進行分類,分為游牧位置多的終端和游牧位置少的終端。
對于連續移動的物聯網終端可以稱為是移動類型的終端,如:車聯網行業的物聯網終端,其位置變化過程是連續的。對于移動類型的物聯網終端而言,可以根據移動速度快慢進行分類,分為快速移動的終端和慢速移動的終端。
表1列舉了8個物聯網行業應用的網絡行為特征,這些特征都是基于網絡數據分析獲得的。
綜上所述,根據物聯網終端在移動網絡中所具備的網絡特征,可以對物聯網終端的網絡行為進行描述,并結合物聯網終端所屬行業、應用分類等基本屬性信息,歸納出不同行業物聯網終端的網絡行為特征。而這些不同行業物聯網終端的網絡行為特征可以通過網絡行為標簽進行描述。

圖1 物聯網行業屬性標簽
電信網絡運營商設計的物聯網行業用戶的標簽體系,可以通過物聯網行業屬性標簽、物聯網終端網絡行為靜態標簽、物聯網終端網絡行為動態標簽三大標簽模塊共同構成。靜態標簽是直接從原始數據中提取出來的標簽,而動態標簽是通過對原始數據計算匯總后得到的統計數據中提取出來的標簽。
物聯網行業屬性標簽如圖1所示,這類以行業應用特征為主的標簽模塊,來源于對物聯網行業的深入研究,不依賴于電信所擁有的用戶數據。
物聯網終端網絡行為靜態標簽如圖2所示。

圖2 物聯網終端網絡行為靜態標簽
物聯網終端網絡行為動態標簽如圖3所示。
綜上所述,通過物聯網行業屬性標簽和網絡行為標簽結合的定性分析結果,可以提取出物聯網終端的關鍵特征,形成物聯網行業群體的網絡行為畫像。

圖3 物聯網終端網絡行為動態標簽
基于物聯網行業應用的網絡行為標簽體系,可以實現各種應用,對物聯網網絡行為進行監控就是其中一種重要的應用。
物聯網網絡行為監控應用需要對物聯網終端異常行為進行分析,旨在尋找具有異常特征的物聯網終端。首先是基于物聯網終端的網絡數據,對各行業物聯網行為進行歸納,提取特征,建立分析維度;然后對各分析維度進行數據清洗和抽取,建立分析維度字段;接下來選擇合適的算法進行異常行為分析,找到離群點,建立分析模型;最后進行模型的應用和評估。
不同行業的物聯網終端有不同的網絡行為特征,因此,物聯網終端異常行為的分析需要分行業進行,需要依據現有樣本及物聯網終端的網絡行為標簽,通過對不同行業物聯網終端離群點的檢測,分行業標注異常樣本點,建立模型訓練集,從而構建機器學習分類器,預測物聯網終端是否異常。
依據上述物聯網終端的網絡行為標簽,找到離群點,作為具有異常行為的終端,為下一步構建分類器做準備。尋找離群點的方法大致可以分為兩類:一類是基于統計分布模型的方法,例如,假定總體服從高斯分布,落在3倍標準差之外的樣本,認為是離群點,這種方法比較適合進行單變量分析;另一類是基于距離的方法,主要有NN算法、聚類算法以及局部異常因子(local outlier factor,LOF)算法。
NN算法是有監督的學習,不適合現在的場景;局部異常因子算法的時間復雜度很高,不適合大數據集;而聚類算法效率較高,適用于大數據集,所以這里采用的是基于聚類算法的離群點檢測。基于聚類算法的離群點檢測的主要步驟如下。
步驟1 對樣本數據進行聚類。
步驟2 計算每個樣本的離群因子,將離群因子較大的對象判定為離群點。
假設樣本集被聚類算法劃分為個簇={1,2,…,C},樣本的離群因子(outlier factor)()定義為與所有簇間距離的加權平均值:

進一步計算所有樣本離群因子均值(_)以及離群因子標準差(_),從而得到離群因子閾值:

大于該閾值的樣本認為是異常樣本。
上述是基于聚類算法找到現有樣本集中具有異常行為的終端,然后根據終端行為特征標簽,對正負樣本集進行訓練,構建有監督學習的分類器,并固化終端異常行為檢測模型。
可穿戴終端的上網時間和位置并不固定,根據個人行為的不同而不同;可穿戴終端的日均流量均值達到71.9 Mbit/s,中位數是11.4 Mbit/s,數據波動比較大;如果終端不活躍,只有下行流量不到1 kbit/s的數據流量。
從數據流量角度分析,對可穿戴物聯網終端使用的日均流量進行統計,日均流量是用戶使用的總流量與發生流量的天數之比。表2反映了可穿戴終端4G話單下日均流量統計指標值的情況。

表2 可穿戴日均流量統計指標值(4G)
在4G情形下,可穿戴終端日均流量數據偏差較大,有10%的終端日均流量在1 Mbit/s以下;同時,有10%的終端日均流量在169 Mbit/s以上。低流量終端可能是不活躍的終端,而對于流量大于169 Mbit/s的終端可能是存在異常的高流量終端。
在3G情形下,通過極大似然估計得到的可穿戴終端日均流量均值和標準差結果見表3。

表3 可穿戴日均流量統計指標值(3G)
基于高斯分布模型,在3G情形下,日均流量大于87 Mbit/s的概率是0.022 8,因此,根據統計分布模型異常檢測思想,當可穿戴終端在3G下的業務數據流量大于87 Mbit/s時,可能是高流量異常終端。
從可穿戴終端在線時長維度分析,可穿戴終端在線時長因人而異,其在線時長包含終端和基站交互的靜默時長。對可穿戴物聯網終端日均在線時長進行統計,統計指標值結果見表4。

表4 可穿戴日均在線時長統計指標值(4G)
在4G情形下,可穿戴終端日均在線時長中位數為17 h,均值為16 h,偏度較小,在線時長分布較為集中。對于日均在線時長大于24 h的終端,是數據質量異常。
在3G情形下,通過極大似然估計得到的可穿戴終端日均在線時長均值和標準差見表5。

表5 可穿戴日均在線時長統計指標值(3G)
基于高斯分布模型,在3G情形下,日均在線時長大于22 h的概率是0.022 8,因此,根據統計分布模型異常檢測思想,當可穿戴終端在3G下的在線時長大于22 h時,可能是存在異常終端。
對可穿戴終端的活躍時長進行統計分析,活躍時長是終端產生業務數據流量的時長,反映終端的活躍程度。各指標統計結果見表6。
在4G情形下,終端活躍時長均值為5 h,中位數為4 h,在統計的樣本中,有10%的終端活躍時長不足1 h,屬于低活躍終端;另有10%的終端活躍時長超過14 h,屬于異常高活躍終端。

表6 可穿戴日均活躍時長統計指標值(4G)
在3G情形下,通過極大似然估計得到的可穿戴終端日均活躍時長均值和標準差見表7。

表7 可穿戴日均活躍時長統計指標值(3G)
基于高斯分布模型,在3G情形下,日均活躍時長大于19 h的概率是0.022 8,因此,根據統計分布模型異常檢測思想,當可穿戴終端在3G下的活躍時長大于19 h,可能是異常高活躍終端。
對可穿戴終端上網頻次進行統計,通過極大似然估計得到的可穿戴終端日均上網頻次的均值和標準差,4G和3G情形下的日均上網頻次分布模型參數見表8。

表8 可穿戴日均上網頻次分布模型參數
基于高斯分布模型,在4G情形下,日均上網頻次大于192次的概率是0.022 8,因此,根據統計分布模型異常檢測思想,當可穿戴終端在4G下的上網頻次大于192次時,可能是異常高頻次終端。同理,在3G情形下,上網頻次大于160次時,可能是異常高頻終端。
本文提出的通過分析電信網絡數據,制定物聯網終端的網絡行為標簽,并對物聯網終端網絡行為進行實時監控的方法。可以廣泛應用在物聯網業務運營分析系統中,可以為不同行業的物聯網應用打上網絡行為標簽,從而實現對物聯網業務運營情況的實時分析和監控,有利于物聯網應用在趨勢分析、產品規劃和營銷決策等層面的工作。
[1] ITU. Overview of the Internet of things: ITU-T Y.2060[S]. 2012.
[2] 工業和信息化部. 物聯網總體框架與技術要求: YD/T 2437-2012, CCSA[S]. 2012.
MIIT. General framework and technical requirements of IoT: YD/T 2437-2012, CCSA[S]. 2012.
[3] 羅伯特?斯特科維卡, 艾特?利希特, 維諾?曼薩, 等. 大數據與物聯網:企業信息化建設新時代[M]. 劉舂容, 譯. 北京: 機械工業出版社, 2016.
STACKOWIAK R, LICHT A,? MANTHA V, et al . Big data and Internet of things: enterprise information architecture for a new age[M]. Translated by LIU C R. Beijing: China Machine Press, 2016.
[4] 梁循,楊小平,趙吉超. 大數據物聯網復雜信息系統[M]. 北京: 清華大學出版社, 2017.
LIANG X, YANG X P, ZHAO J C. Big data IoT complex information system[M]. Beijing: Tsinghua University Press, 2017.
[5] 王桂玲, 王強, 趙卓峰, 等. 物聯網大數據處理技術與實踐[M]. 北京: 電子工業出版社, 2017.
WANG G L, WANG Q, ZHAO Z F, et al. The technology and practice of large data processing in the Internet of things[M]. Beijing: Publishing House of Electronics Industry, 2017.
[6] 尼克?貝瑟斯, 斯普萊恩?杜布里. 大數據與物聯網:面向智慧環境路線圖[M]. 郭建勝, 周競賽, 毛聲, 等譯. 北京: 國防工業出版社, 2017.
BESSIS N, DOBRE C. Big data and Internet of things: a roadmap for smart environment[M]. Transelated by GUO J S, ZHOU J S, MAO S, et al. Beijing: National Defense Industry Press, 2017.
[7] 魏穎琪, 林瑋平, 李穎. 物聯網智能終端技術研究[J]. 電信科學, 2015, 31(8): 146-152.
WEI Y Q, LIN W P, LI Y, et al. Study on key technologies of intelligent IoT device[J]. Telecommunications Science, 2015, 31(8): 146-152.
A method of IoT terminal’s network behavior monitoring based on network data
LING Ying, QIU Yun
Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China
The internet of things (IoT) is the network of physical devices, vehicles, home appliances and other items embedded with electronics, software, sensors, actuators and network connectivity which enable these objects to connect and exchange data. Every sensor node is a source of information. In the offered method, telecom network operators could analyze the network data and discover the abnormal situation of the IoT terminals, so as to ensure the normal use of the IoT terminals. A network behavior tag for the IoT terminals by analyzing the network data in the telecom network, and a real-time monitoring method for the IoT terminal network behavior were described. And take the wearable industry application for example, the analysis process of the internet of things network behavior was described.
internet of things, network data, network behavior monitoring
TP277
A
10.11959/j.issn.1000?0801.2017333
2017?10?13;
2017?11?30
凌穎(1973?),女,中國電信股份有限公司上海研究院高級工程師,主要研究方向為大數據、物聯網網絡數據分析、數據管理等。

邱蕓(1980?),女,中國電信上海研究院網絡數據系統架構師、中級工程師,主要從事基于網絡數據的應用研究開發、物聯網網絡數據分析方面的工作。