姜劍青


摘 要 本文針對電信網絡負載均衡指標擴容的問題,在相關數據量有限的情況下,對其進行數據的描述性統計分析,利用傳統的ARIMA模型對負載均衡指標HLR和VLR進行了時間序列預測模型的構建,精準預測HLR和VLR指標在天級以及小時級以及節假日上的變化趨勢,幫助通信公司提前擴容以應對網絡壓力,豐富了ARIMA模型在實踐應用上的場景。
關鍵詞 ARIMA模型;電信數據;負載均衡;指標預測
1預測指標簡介
本次分析數據一共選取了2016年1月至今以及2016年五一前后共10天的兩期數據,HLR和VLR兩個關鍵性指標。
1.1 指標概述
HLR(home location register)保存的是用戶的基本信息,如你的SIM的卡號、手機號碼、簽約信息等,和動態信息,如當前的位置、是否已經關機等;
VLR(visiting location register)保存的是用戶的動態信息和狀態信息,以及從HLR下載的用戶的簽約信息。
2基于月度與日度的指標時序分析
2.1 基于HLR/VLR日維度數據
(1)基于日維度數據數介紹
Hlr:共429條記錄,沒有缺失值,3個維度變量,分別是賬期,取值范圍20160101-20170301,HLR利用率(HLR生成用戶數/HLR容量),取值范圍0.694-0.335(0-1),HLR生成用戶數(HLR生成用戶數/HLR容量),取值范圍178-368(萬戶)。
Vlr:共429條記錄,少量缺失,3個維度變量,分別是賬期,取值范圍20160101-20170301,VLR利用率(VLR登記用戶數/VLR容量),取值范圍0.211-0.928(0-1),VLR登記用戶數(VLR登記用戶數/VLR容量),取值范圍66-291。
(2)異常點檢測與分析
通過作箱線圖,從箱線圖可以看出有不少異常點,其中HLR離群點約73個,對此本文看一下這些點對應的日期:2016年2月18個、3月28個、4月17個、6月1個、7月1個、10月3個、11月1個;2017年1月4個。所以可以得出初步結論是從2月到4月中旬指標連續都處于一個很低的水平,可能跟吉林這段時間的電信政策有關系。
(3)基于月度的時序圖分
從HLR看出隨著月份的增加,HLR有一個緩慢的增加趨勢,但是異常值影響明顯(異常值都是下偏數據),可以著重分析一下異常數據的原因,因為量還不少,為73/426(17%)左右。從VLR可以看出隨著月份的增加,VLR利用率小幅度穩定增長,可以根據這個趨勢來設立閥值,如果是節假日可以關注那些遠高于正常值的異常值,并在異常值長做好容災,設立擴容指標(預警值)。
2.2基于HLR/VLR小時維度數據
(1)基于小時維度數據數介紹
HLR:數據共335條,4個維度變量,其中賬期、HLR利用率、hlr生成用戶數與前文相同,無缺失值,新增小時變量,取值0-23.
VLR:數據共335條,4個維度變量,其中賬期、HLR利用率、HLR生成用戶數與前文相同,無缺失值,新增小時變量,取值0-23.
(2)異常點檢測與分析
通過分別繪制HLR\VLR的箱線圖可以得出HLR利用率上有2個異常點,VLR利用率上有1個異常點,可以查看一下異常點的原因,因為是下偏所以對于擴容來說意義不大。
(3)基于日度的時序圖分析
從上圖可以看出HLR整體穩定,有異常值,而且異常值呈現某種規律,可以留意,下偏,對擴容沒意義。VLR周期性波動趨勢明顯,4點到10點呈現穩步上漲趨勢,10點到7點穩定,7點以后急劇下跌,且五一前后呈現出一種節前節后的利用率高于節日期間的現象[1-5]。
3基于節假日的指標時序分析
3.1 基于2015年“五一”數據的時序圖分析
(1)異常值檢驗與分析
通過繪制箱線圖可以得出從年份來說,HLR和VLR的利用率整體都在穩健上漲,VLR漲幅遠大于HLR,但是2016年較2015年異常數據過于異常,沒有15年穩定。
(2)基于五一節假日的時序圖分析
通過繪制時序折線圖,可以看出規律相同,HLR每天的利用規律都是0點到1間有個穩定的增長,達到峰值后開始保持平穩,直到第二天0點斷崖式下降,再重新在第二天的0點到1點間穩增長。節假日期間HLR呈現穩定增加,或者先增加再減少的趨勢。而VLR則每天都是在凌晨的3點多達到最低值,在5點以后穩定增長,在10點以后達到峰值,并保持穩定到6點多下班時間,之后穩定下降,呈現一種穩定周期的特性,而在節假日期間呈現節假日前中期波動,甚至節假期期間下降,節后上升的情況,這有點符合人們節假日后進入工作,交流變多的一種生活常態。
3.2 基于2015-2017“春節”數據的時序圖分析
(1)異常點檢測與分析
通過分別繪制2015、2016、2017指標箱線圖可以看出:
1)2015年至2016年HLR利用率上漲很多,但是從2016年到2017年,其實HLR利用率并沒有沿著之前的趨勢上漲,反而下降了。
2)不同于HLR,VLR指標從2015年到現在呈現出了一個穩定增長的情況,且區間穩定,沒有過于異常的異常值。
(2)基于春節假日的時序圖分析
通過分別繪制HLR2015、2016、2017的時序圖可以看出2015年春節期間,HLR呈現節前節后穩定增長的態勢,2015到2016年HLR穩定增長,2016年春節期間節前穩定,節后下降的趨勢,且2016年到2017年,HLR利用率不增反而小幅度減少。
通過分別繪制VLR2015、2016、2017的時序圖可以看出相對于HLR指標,VLR指標呈現,節假日前高,節假日期間下降,節假日后波動,或者小幅度回升的趨勢,從2015年到2017年,整體的VLR指標利用率穩增長,并且已將近6個點的速度增長,且波動區間也在6個點左右。
3.3 探索性分析結論
通過選取了2016年到2017年16個月每天上午10點的數據,以及2015、2016年五一節假日期間,以及2015年到2017年節假日期間的數據,通過一些描述性分析,我們可以得出一些整體的情況:HLR指標在2015年到2016年是穩定增長的,但在2017年則小幅度下降,并且,2016、2017年的異常數據過于異常(可能數據質量差,或者業務出現了問題造成了波動),尤其是2016年的2月到5月期間,對于每天的HLR指標進行分析,發現除了從凌晨0點到1點期間有個斷崖式的增長,其他時間整體穩定,而在節假日期間也無明顯穩定規律,整體是波動的態勢,這應該跟節假日期間的政策有關,因此HLR指標對擴容的相和性不是很好,可以不做考慮。
VLR指標隨著月份年份的增加,是穩定的一個增長趨勢,且節假日期間呈現,節前節后高,節假日期間反而低的常態,但是基于其穩定的增長率,以及穩定的日規律性,可以用來作為擴容的一個指標預測,預警。
4基于AIRIMA模型的時間序列預測模型研究
基于以往的VLR數據,商榷一個VLR預測值為(月,日,小時)(根據業務需求),然后依據影響的因素(時序等),以及影響的系數(年,月,日),其中時間精度越大,準確率越大。以此構建一個預測模型,并設立一個閾值,來鑒別是否擴容[6-10]。
4.1 預測指標數據來源介紹
HLR:2016.01.01-2017.03.06每天10點數據和2016.04.25-2016.05.08每天24小時數據。
VLR:2016.01.01-2017.03.06每天10點數據和2016.04.25-2016.05.08每天24小時數據。
ARIMA模型的構建順序通常是:①先劃出時序圖;②做自相關和偏自相關分析以確定是否需要做差分和階數;③最后做白噪聲檢驗。
(1)基于ARIMA的HLR日維度時間序列模型
5總結與展望
基于節假日的指標預測,維度單一,簡單但卻復雜,本文主要采用的是ARIMA模型進行的擬合預測,在沒有明確精度要求的情況或者對比下,結果良好,后續可以考慮加法組合模型來對ARIMA進行殘差優化,提高精確度,由于數據的局限性,本案例并不繼續深入研究探討,文章按照了數據分析的一般流程進行的分析,后續一些描述性分析的代碼會放入附錄里面,希望本案例對其他學者以后的分析有參考和借鑒意義。
參考文獻
[1] 劉芹,鄒波,朱平華,等.基于時間序列自回歸移動平均模型的湖北省衛生技術人員需求預測[J].醫學與社會,2020,(2):266-269.
[2] 周亮.機器學習融合ARIMA模型的離岸人民幣匯率預測[J].統計學報,2020,(2):48-56.
[3] 楊雨芳,趙慧峰.基于ARIMA模型的河北省肉牛生產波動分析與預測[J].黑龍江畜牧獸醫,2020,(6):16-19.
[4] 劉忠廣,劉德欣.河南省城鎮居民人均消費支出預測[J].北方經貿,2020,(3):31-33.
[5] 耿獻輝,安寧.基于ARIMA模型的梨果價格波動及市場行情預測[J].北方果樹,2020,(2):1-4.
[6] 陶艷麗.基于ARIMA模型的河北省居民消費價格指數實證分析[J].河北企業,2020,(3):66-67.
[7] 吳榮火,歐詩德,農品玉.基于乘積季節模型的我國流通中現金預測[J].中國市場,2020,(7):43-46.
[8] 高嵐嵐,張雪莉,段占祺,等.基于ARIMA模型對四川省醫療機構衛生資源需求預測分析[J].預防醫學情報雜志,2020,(2):197-202.
[9] 李媛,鄭安剛,譚煌,等.基于時間序列的電能表月故障數預測方法[J].中國電力,2020,(2):51.
[10] 周友維,姚建剛,王欣,等.基于時間序列模型的劣化絕緣子紅外熱像檢測方法[J].電瓷避雷器,2020,(1):149-155.