葛良
摘要:提出了一種基于業務流量監測的方法,該方法屏蔽業務系統內部復雜的結構,以業務的有效性為監測的重點。該方法運用了統計學中的相關系數的概念來建立曲線相似度的數學模型。經過實驗數據的相關驗證,該方法在業務流量監測上非常是有效的。
關鍵詞: 業務流量監測;相關系數;曲線相似度;增值業務
Abstract: In this paper, a new method based on service flow supervision is presented. In this method, the complex internal structure is shielded, and the effective business is the key of monitoring. A mathematical model about curve correlation coefficient is built to test service effectiveness under the guidance of interrelated coefficient in statistics. Experiments indicate that this approach is effective.
Key words: service flow supervision; interrelated coefficient; curve correlation coefficient; value-added service
隨著電信企業的重組,各運營商間的業務逐漸趨向同質化,而提高服務質量、提升客戶滿意度是企業取勝的重要法寶。對于網絡部的維護人員而言,維護模式也將發生變化,從傳統的面向設備的維護模式轉變為面向業務的維護模式,即不僅關注設備的運行狀況,更要關注用戶是否能正常使用承載在設備之上的業務。面向業務的維護模式,客觀要求維護部門在用戶無法正常使用某業務時,能夠快速解決以及先于用戶投訴通知客服部門。
但是在目前的維護工作中,由于承載在網絡上的數據業務(如氣象通、農信通、通用分組無線服務技術(GPRS))完成一個業務流經的網絡設備鏈條較長,如氣象通業務完成一個業務需要流經全球移動通信系統(GSM)核心網、短信中心、數據通信網絡(DCN)、短信網關、移動信息服務中心(MISC),城域網等設備,如圖1所描示。因此,在這些設備中任何一個出現故障都可能導致業務出現異常[1-2]。
由于在數據業務方面傳統異常發現機制存在局限,導致業務異常的發現往往滯后于用戶批量投訴,因此引發的投訴具有范圍廣、歷時長、投訴量大的特點。
1 基于業務流量的監測
文章探討了一種新的監測方法,該方法可以屏蔽業務系統內部復雜的結構,以業務的有效性為監測的重點,并將關注點移至與用戶的最近端,完全以用戶的感受來衡量業務是否正常。整個業務監測包含2個過程:第1個過程為建模過程,在業務流經的最后網絡環節選取歷史正常值為樣本空間,統計單位時間段業務量,構建各業務流量模型,消除重大事件、節假日等情況下異常值的干擾;第2個過程為監測過程,準實時取得業務流量,通過一定的數學算法模型來評估業務及網絡是否存在異常狀況[3]。
根據統計學的原理,某類數據業務的業務流量隨著時間段有規律地進行變化。如果業務量在某個時間段突然出現異常變化,一般可以認為業務出現了故障[4]。
圖2是最簡單的、通過業務流量來判斷業務是否異常的方法。該方法通過建模環節來獲取某類短信業務量的模型,然后通過一定的比例(例如10%)來確定上下限值,最后通過實際測試的數據來進行對比,一旦超過門限值就認為業務流量存在問題。基于上下門限的判斷方法雖然在理論上可以實現,但是在實際應用中,數據的上下波動還是非常頻繁的,因此需要尋找一種新的、有效的數學方法[5]。
2 相似度介紹
相似度是用以度量兩組數據變化趨勢相似程度的一個數值度量,其取值范圍為[-1,1]。相似度的計算方法可以基于統計學中的相關系數的一些概念。
(1) 數學期望
數學期望是指離散型隨機變量的一切可能的取值Xi(隨機變量)與對應的概率p(=Xi)之積的和。
X1,X2,X3,……,Xn為隨機變量數據,p(X1),p(X2),p(X3),……p(Xn)是隨機變量數據的概率函數。
通過證明,得出:
E(X)=(X1+X2+... +Xn)/n (2)
這說明數學期望就是一組數據的算術平均值。
(2)方差
設X是一個隨機變量,若[E{X-E(X)}]存在,則稱[E{X-E(X)}]為X的方差,則可得出
D =[E{X-E(X)}] (3)
(3)協方差
協方差分析是建立在方差分析和回歸分析基礎之上的一種統計分析方法。協方差與方差之間的相關關系為:
[Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}] (4)
(4)相關系數
相關系數是變量之間相關程度的指標。相關系數的取值范圍為[-1,1]。值越大,誤差越小,變量之間的線性相關程度越高;值越接近0,誤差越大,變量之間的線性相關程度就會越低。
相關系數又稱皮(爾生)氏積矩相關系數,是用來說明兩個現象之間相關關系密切程度的統計分析指標。相關系數用希臘字母γ表示,γ值的范圍為[-1,1]。γ > 0為正相關,γ < 0為負相關,γ = 0表示不相關。γ的絕對值越大,相關程度越高。兩個現象之間的相關程度,一般劃分為4級:如兩者呈正相關,γ呈正值;γ =1時為完全正相關;如兩者呈負相關則γ呈負值;γ = -1時為完全負相關。完全正相關或負相關時,所有圖點都在直線回歸線上,點子的分布在直線回歸線上下越離散,γ的絕對值越小。當例數相等時,相關系數的絕對值越接近1,相關越密切;越接近于0,相關越不密切。當γ = 0時,說明X和Y兩個變量之間無直線關系[6-7]。
[γxy=Cov(X,Y)/D(X)D(Y)] (5)
3 基于曲線相似度的業務
流量監測
根據統計學的原理,統計的數據樣本數量越大,統計的準確度則越高。
每天運行在移動設備上各類數據業務的數量是非常巨大的。我們設想,如果某一天從某個時間點開始業務曲線與平時的業務曲線相似度低于設定的門限,我們則認為業務出現了異常情況,應及時通知維護人員進行處理。
文章研究的實驗平臺基于matlab 7.0,并采用無異常歷史數據作為分析樣本,對多項業務數據進行了分析。為了保證監控及檢驗結果有效,實驗計算當前實時監測的業務發送量與相同時刻前5天采集的業務發送量,以及歷史平均業務發送量之間的相關系數共6組數據,取其相關系數最大值為參考值。如果參考值低于閾值,則說明當前時刻業務流量出現異常[8-10]。
首先以手機報日業務量以及某市GPRS日業務量為例(如圖3、圖4),經計算,相關系數值分別為0.9692和0.9764。
通過曲線比較以及比較值可以分析得出結論,當前業務發送量異常狀況。
下面通過對業務量發送異常狀況數據進行分析,說明本方法監控效果的有效性。 6月21日WAP網關出現故障,導致某市GPRS業務無法正常使用。計算全天數據與歷史數據的相關系數,得出參考值為0.8866。趨勢對照圖如圖5所示。
WAP網關故障發生在10:55左右。我們分別計算了10:30 和11:00這兩個時間點的曲線相似度,分別為0.9950,0.8430。通過相似度的計算,很容易發現在10:30—11:00,GPRS業務出項了異常情況。趨勢對照圖如圖6、圖7。
4 結束語
文章提出基于統計學中相關系數的相似度度量方法,通過計算當前時刻業務發送量與歷史正常數據之間的相關系數,判定當前業務發送量是否處于穩定狀態。當參考值低于正常閾值時系統發出告警,從而完成對業務流量模型的實時監控。通過實驗數據的驗證,證明本方法是非常有效的。
參考文獻
[1] 劉澤猛, 劉純志. 統計學的未來[J].統計與決策, 1991 (06): 02-04.
[2] 高風. "假設檢驗方法"簡析[J]. 中國質量, 2005 (04): 22-25.
[3] 樊靜. GPS弱信號的高靈敏度捕獲算法[J].重慶郵電大學學報(自然科版), 2012, 24(03): 326-329.
[4] 陶新民,郝思媛,張冬雪,徐鵬.不均衡數據分類算法的綜述[J].重慶郵電大學學報(自然科學版),2013,25(1): 101-110.
[5] 秦哲. 假設檢驗在科技項目評估結果分析中的應用[J]. 科技進步與對策, 2005 (07): 18-20.
[6] 劉曉俊, 陳愛江. 正態分布函數值的近似求法[J]. 金融教學與研究, 1998 (02): 35-39.
[7] 商廣娟. 統計技術在我國質量管理中的應用現狀[J]. 航空標準化與質量, 2006 (05) : 33-37.
[8] 郭雪峰,方立軍,馬駿,張焱. 寬帶線性調頻信號的性能檢測方法[J].雷達科學與技術, 2012,10(05): 57-60.
[9] 李青華, 姚云萍. 一種基于知識輔助的CFAR檢測器[J].雷達科學與技術, 2012,10(01): 92-97.
[10] 秦雪松,秦雪峰. 影響流量經營的因素與對策[J]. 郵電設計技術, 2012(12): 63-74.
[γxy=Cov(X,Y)/D(X)D(Y)] (5)
3 基于曲線相似度的業務
流量監測
根據統計學的原理,統計的數據樣本數量越大,統計的準確度則越高。
每天運行在移動設備上各類數據業務的數量是非常巨大的。我們設想,如果某一天從某個時間點開始業務曲線與平時的業務曲線相似度低于設定的門限,我們則認為業務出現了異常情況,應及時通知維護人員進行處理。
文章研究的實驗平臺基于matlab 7.0,并采用無異常歷史數據作為分析樣本,對多項業務數據進行了分析。為了保證監控及檢驗結果有效,實驗計算當前實時監測的業務發送量與相同時刻前5天采集的業務發送量,以及歷史平均業務發送量之間的相關系數共6組數據,取其相關系數最大值為參考值。如果參考值低于閾值,則說明當前時刻業務流量出現異常[8-10]。
首先以手機報日業務量以及某市GPRS日業務量為例(如圖3、圖4),經計算,相關系數值分別為0.9692和0.9764。
通過曲線比較以及比較值可以分析得出結論,當前業務發送量異常狀況。
下面通過對業務量發送異常狀況數據進行分析,說明本方法監控效果的有效性。 6月21日WAP網關出現故障,導致某市GPRS業務無法正常使用。計算全天數據與歷史數據的相關系數,得出參考值為0.8866。趨勢對照圖如圖5所示。
WAP網關故障發生在10:55左右。我們分別計算了10:30 和11:00這兩個時間點的曲線相似度,分別為0.9950,0.8430。通過相似度的計算,很容易發現在10:30—11:00,GPRS業務出項了異常情況。趨勢對照圖如圖6、圖7。
4 結束語
文章提出基于統計學中相關系數的相似度度量方法,通過計算當前時刻業務發送量與歷史正常數據之間的相關系數,判定當前業務發送量是否處于穩定狀態。當參考值低于正常閾值時系統發出告警,從而完成對業務流量模型的實時監控。通過實驗數據的驗證,證明本方法是非常有效的。
參考文獻
[1] 劉澤猛, 劉純志. 統計學的未來[J].統計與決策, 1991 (06): 02-04.
[2] 高風. "假設檢驗方法"簡析[J]. 中國質量, 2005 (04): 22-25.
[3] 樊靜. GPS弱信號的高靈敏度捕獲算法[J].重慶郵電大學學報(自然科版), 2012, 24(03): 326-329.
[4] 陶新民,郝思媛,張冬雪,徐鵬.不均衡數據分類算法的綜述[J].重慶郵電大學學報(自然科學版),2013,25(1): 101-110.
[5] 秦哲. 假設檢驗在科技項目評估結果分析中的應用[J]. 科技進步與對策, 2005 (07): 18-20.
[6] 劉曉俊, 陳愛江. 正態分布函數值的近似求法[J]. 金融教學與研究, 1998 (02): 35-39.
[7] 商廣娟. 統計技術在我國質量管理中的應用現狀[J]. 航空標準化與質量, 2006 (05) : 33-37.
[8] 郭雪峰,方立軍,馬駿,張焱. 寬帶線性調頻信號的性能檢測方法[J].雷達科學與技術, 2012,10(05): 57-60.
[9] 李青華, 姚云萍. 一種基于知識輔助的CFAR檢測器[J].雷達科學與技術, 2012,10(01): 92-97.
[10] 秦雪松,秦雪峰. 影響流量經營的因素與對策[J]. 郵電設計技術, 2012(12): 63-74.
[γxy=Cov(X,Y)/D(X)D(Y)] (5)
3 基于曲線相似度的業務
流量監測
根據統計學的原理,統計的數據樣本數量越大,統計的準確度則越高。
每天運行在移動設備上各類數據業務的數量是非常巨大的。我們設想,如果某一天從某個時間點開始業務曲線與平時的業務曲線相似度低于設定的門限,我們則認為業務出現了異常情況,應及時通知維護人員進行處理。
文章研究的實驗平臺基于matlab 7.0,并采用無異常歷史數據作為分析樣本,對多項業務數據進行了分析。為了保證監控及檢驗結果有效,實驗計算當前實時監測的業務發送量與相同時刻前5天采集的業務發送量,以及歷史平均業務發送量之間的相關系數共6組數據,取其相關系數最大值為參考值。如果參考值低于閾值,則說明當前時刻業務流量出現異常[8-10]。
首先以手機報日業務量以及某市GPRS日業務量為例(如圖3、圖4),經計算,相關系數值分別為0.9692和0.9764。
通過曲線比較以及比較值可以分析得出結論,當前業務發送量異常狀況。
下面通過對業務量發送異常狀況數據進行分析,說明本方法監控效果的有效性。 6月21日WAP網關出現故障,導致某市GPRS業務無法正常使用。計算全天數據與歷史數據的相關系數,得出參考值為0.8866。趨勢對照圖如圖5所示。
WAP網關故障發生在10:55左右。我們分別計算了10:30 和11:00這兩個時間點的曲線相似度,分別為0.9950,0.8430。通過相似度的計算,很容易發現在10:30—11:00,GPRS業務出項了異常情況。趨勢對照圖如圖6、圖7。
4 結束語
文章提出基于統計學中相關系數的相似度度量方法,通過計算當前時刻業務發送量與歷史正常數據之間的相關系數,判定當前業務發送量是否處于穩定狀態。當參考值低于正常閾值時系統發出告警,從而完成對業務流量模型的實時監控。通過實驗數據的驗證,證明本方法是非常有效的。
參考文獻
[1] 劉澤猛, 劉純志. 統計學的未來[J].統計與決策, 1991 (06): 02-04.
[2] 高風. "假設檢驗方法"簡析[J]. 中國質量, 2005 (04): 22-25.
[3] 樊靜. GPS弱信號的高靈敏度捕獲算法[J].重慶郵電大學學報(自然科版), 2012, 24(03): 326-329.
[4] 陶新民,郝思媛,張冬雪,徐鵬.不均衡數據分類算法的綜述[J].重慶郵電大學學報(自然科學版),2013,25(1): 101-110.
[5] 秦哲. 假設檢驗在科技項目評估結果分析中的應用[J]. 科技進步與對策, 2005 (07): 18-20.
[6] 劉曉俊, 陳愛江. 正態分布函數值的近似求法[J]. 金融教學與研究, 1998 (02): 35-39.
[7] 商廣娟. 統計技術在我國質量管理中的應用現狀[J]. 航空標準化與質量, 2006 (05) : 33-37.
[8] 郭雪峰,方立軍,馬駿,張焱. 寬帶線性調頻信號的性能檢測方法[J].雷達科學與技術, 2012,10(05): 57-60.
[9] 李青華, 姚云萍. 一種基于知識輔助的CFAR檢測器[J].雷達科學與技術, 2012,10(01): 92-97.
[10] 秦雪松,秦雪峰. 影響流量經營的因素與對策[J]. 郵電設計技術, 2012(12): 63-74.