999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ARIMA和指數(shù)平滑算法對磁盤占用率的預測分析

2024-01-27 09:20:49張新禹
現(xiàn)代信息科技 2023年24期

摘? 要:基于氣象下行傳輸系統(tǒng)的磁盤利用率隨著時間的變化呈現(xiàn)一定的周期性的現(xiàn)象,通過調用監(jiān)控平臺關于磁盤利用率的指標接口獲取分析數(shù)據(jù),進行關鍵指標項提取、數(shù)據(jù)缺失值修正等數(shù)據(jù)預處理操作,通過磁盤利用率的趨勢圖分析時間序列的穩(wěn)定性和周期性,利用ARIMA和三次指數(shù)平滑算法分別對磁盤利用率的周期性時間序列做預測,并比較兩種算法的殘差、均方差等參考指標,通過兩種預測算法分析得出最優(yōu)算法模型,利用預測結果和告警閾值計算告警預測時間值。

關鍵詞:磁盤利用率;周期性;ARIMA;三次指數(shù)平滑

中圖分類號:TP39? 文獻標識碼:A? 文章編號:2096-4706(2023)24-0067-05

Prediction Analysis of Disk Utilization Rate Based on ARIMA and Exponential Smoothing Algorithms

ZHANG Xinyu

(Inner Mongolia Meteorological Service, Hohhot? 010051, China)

Abstract: The utilization rate of disks based on the meteorological downlink transmission system exhibits a certain periodicity over time. The analysis data is obtained by calling the indicator interface of the monitoring platform regarding disk utilization rate, and data preprocessing operations such as key indicator item extraction and missing data value correction are performed. The stability and periodicity of the time series are analyzed through the trend chart of disk utilization rate. ARIMA and triple exponential smoothing algorithms are used to predict the periodicity of time series of disk utilization rate, and reference indicators such as residuals and mean squared errors are compared between the two algorithms. The optimal algorithm model is obtained through the analysis of the results of the two prediction algorithms, and the alarm prediction time value is calculated by using the predicted results and the alarm threshold value.

Keywords: disk utilization rate; periodicity; ARIMA; triple exponential smoothing

0? 引? 言

隨著氣象信息技術日新月異的發(fā)展和硬件、軟件資源的不斷增加,僅僅依靠人工方式檢查和監(jiān)測系統(tǒng)的健康狀況會消耗大量人力資源,為了分析和預處理處理監(jiān)控平臺中出現(xiàn)的基礎資源指標的告警,通過對監(jiān)控平臺中氣象資料下載服務器集群指標的趨勢觀察,發(fā)現(xiàn)氣象下行傳輸系統(tǒng)的磁盤利用率隨著時間的變化呈現(xiàn)一定的周期性,趨勢較為平穩(wěn),因此可以選擇一種能夠處理周期性時間序列的模型進行時序數(shù)據(jù)的預測,在變化趨勢不是很復雜的情況下,通過ARIMA和三次指數(shù)平滑算法可滿足周期性和平穩(wěn)性序列進行預測的需求,經(jīng)過對比分析后選擇與實際指標誤差更小的算法來完成服務器集群的磁盤指標預測功能,進而在監(jiān)控告警來臨之前提前進行處置,保障業(yè)務實時穩(wěn)定運行。

氣象傳輸業(yè)務中監(jiān)控平臺在告警處理過程中起了很大的作用[1],作為業(yè)務運維中主要的監(jiān)控方式,氣象業(yè)務監(jiān)控平臺中存儲了很多關于系統(tǒng)的監(jiān)控數(shù)據(jù),但在此過程中無法做到對監(jiān)控平臺中的指標數(shù)據(jù)進行分析,只能人工解決發(fā)生的告警信息,在這種情況下出現(xiàn)了以下的缺陷:

1)監(jiān)控平臺集約性較差。往往氣象業(yè)務系統(tǒng)分布在不同系統(tǒng)中,例如內蒙古“天鏡”監(jiān)控系統(tǒng)、IMC設備監(jiān)控平臺、全國綜合氣象信息共享平臺(內蒙古)、全區(qū)廣域網(wǎng)監(jiān)控平臺等,每種監(jiān)控系統(tǒng)都具備自身的功能[2],但是多個監(jiān)控系統(tǒng)之間無法形成告警的集約化,日常運維時遇到復雜多樣的監(jiān)控告警信息時,需要切換監(jiān)控系統(tǒng)并依次處理,導致運維人員無法及時處理相應告警[3]。

2)故障處理效率低下。當監(jiān)控平臺的告警信息生成并推送至運維人員面前時,運維人員無法直接做出處置方案,因為沒有相適應的解決方案而拖慢運維過程中的故障處理時間,每次出現(xiàn)類似的故障需要人工重復處理,增加了運維的工作量。

3)缺乏對監(jiān)控平臺的數(shù)據(jù)分析。監(jiān)控平臺中存在的可研究性的數(shù)據(jù),例如服務器的部分指標具有可預測性卻沒有被及時挖掘,利用預測信息和告警閾值可以提前判斷告警的發(fā)生時間。

針對上述運維工作的情況,通過收集內蒙古自治區(qū)氣象信息中心所有業(yè)務監(jiān)控平臺的服務器指標數(shù)據(jù),基于ARIMIA算法和三次指數(shù)平滑對氣象下行傳輸系統(tǒng)磁盤利用率進行預測分析,通過設定告警閾值來提前預知告警發(fā)生的時間。

1? 監(jiān)控平臺數(shù)據(jù)獲取及預處理

1.1? 設備指標監(jiān)控數(shù)據(jù)收集

通過調用H3C的IMC設備監(jiān)控平臺提供的接口鏈接,獲取自2021年8月6日至2021年8月13日的磁盤使用率數(shù)據(jù)作為ARIMA、三次指數(shù)平滑模型分析的數(shù)據(jù)源。設備指標監(jiān)控數(shù)據(jù)獲取通過Python的json解析庫、網(wǎng)頁抓取方法[4]實現(xiàn),函數(shù)主要由接口獲取函數(shù)、解析入庫函數(shù)、編碼轉換函數(shù)、定時器函數(shù)組成。其中接口獲取函數(shù)調用接口請求庫完成對天鏡數(shù)據(jù)接口的讀取,該函數(shù)創(chuàng)建了訪問接口的鏈接參數(shù),主要包含天鏡系統(tǒng)平臺的管理地址、接口數(shù)據(jù)所在路徑。定時器函數(shù)則是定時調用接口獲取函數(shù),隨后通過編碼轉換函數(shù)對獲取數(shù)據(jù)進行編碼轉換和數(shù)據(jù)的美化,解析入庫函數(shù)將編碼轉換后的數(shù)據(jù)寫入數(shù)據(jù)庫。

1.2? 設備指標數(shù)據(jù)預處理

設備指標數(shù)據(jù)中存在時間戳、指標值、指標名稱這三種類型信息,以下步驟對服務器的磁盤利用率數(shù)據(jù)進行指標信息提取:

1)關鍵指標項提取。本設計中按照服務器硬件指標中單一磁盤路徑作為研究參考,例如將“/beht”磁盤利用率作為研究指標,因此在指標數(shù)據(jù)中通過Python中findall函數(shù)通過構造例如r"/beht"正則匹配規(guī)則篩選數(shù)據(jù)中包含“/beht”磁盤信息,得到包含該信息的一行字符串。再次利用r"(?<=\:)\d+"正則規(guī)則匹配冒號后的指標數(shù)字完成指標參數(shù)的獲取,得到表1預處理后的設備指標數(shù)據(jù)。

2)數(shù)據(jù)缺失值修正。指標數(shù)據(jù)一般為時間序列類型的連續(xù)數(shù)據(jù),對于缺少采集數(shù)據(jù)或出現(xiàn)異常數(shù)據(jù)的時間序列,由于序列整體變化趨勢較為平緩,因此使用均值插值法計算該序列前后1小時內數(shù)據(jù)的均值作為缺失值的理論補充值。

2? 磁盤利用率數(shù)據(jù)指標分析

本次預測所用到的數(shù)據(jù)為氣象資料收集服務器磁盤“/beht”的利用率,從預測準確度來講,為了保障模型的擬合過程更加貼近于實際的數(shù)據(jù)曲線,并且提高預測的準確性,對預測數(shù)據(jù)的平穩(wěn)性有一定的要求,通常平穩(wěn)性的要求是指隨著時間變化的預測數(shù)據(jù)能夠按照歷史趨勢不斷發(fā)展下去[5]。將磁盤利用率的趨勢圖1資料采集服務器磁盤beht利用率時間序列趨勢展示出來,從圖中可以粗略看出數(shù)據(jù)的變化趨勢是以天為周期連續(xù)的變化,利用率在60之間來回波動,最高不超過85,最低不超過35,雖然每天的數(shù)值較同周期有波動,但通過計算每個周期內數(shù)據(jù)的均值后發(fā)現(xiàn)差距較小。

3? ARIMIA和三次指數(shù)平滑算法分析及結果對比

3.1? 基于ARIMA算法的分析和結果

在基于ARIMA算法預測之前,需要驗證所處理的數(shù)據(jù)是否具有平穩(wěn)性,即所預測的時間序列為穩(wěn)定性序列。為了從統(tǒng)計檢驗方法角度判斷是否為穩(wěn)定性序列,對時間序列或其n階差分的結果進行檢驗,驗證其平穩(wěn)性。數(shù)據(jù)挖掘分析中比較常用的方法就是ADF(Augmented Dickey-Fuller)檢驗,即單位根檢驗。在ARIMA模型的構造過程中,如果單位根為1時,得出殘差的任何誤差均保持在一定的趨勢內,且不會隨著歷史數(shù)據(jù)的增加而衰減,自回歸模型中出現(xiàn)的殘差將永遠都會出現(xiàn),這樣的回歸過程是一個偽回歸[6]。為了避免偽回歸過程的出現(xiàn),通過檢驗序列中是否存在單位根,如果存在單位根就說明序列為偽平穩(wěn)的序列,影響預測結果。而ADF檢驗就是假設存在單位根,如果得到的顯著性檢驗統(tǒng)計量ADFTestresut均小于三個置信度(10%,5%,1%),則對應有(90%,95,99%)的概率來否定存在單位根,即可說明序列是穩(wěn)定的,否則說明時間序列是非穩(wěn)定的。

通過Python中的statsmodels統(tǒng)計學計算庫可以完成對序列進行單位根檢驗,檢測結果分別在時間序列的1階、3階、5階差分結果下計算得到,檢驗結果如表2時間序列單位根校驗結果所示。通過結果得出在1階差分時顯著性檢驗統(tǒng)計量就已經(jīng)小于三個置信度的假設值了,并且其中假設檢驗結果的值在3階差分之后趨于0,說明出現(xiàn)單位根的情況逐漸減小,從而證明磁盤利用率的時間序列數(shù)據(jù)是平穩(wěn)的[7]。

使用ARIMA模型對平穩(wěn)性的時間序列進行預測時,基本思想為對模型的參數(shù)進行分解之后求得自回歸模型AR的階數(shù)值p,移動平均模型MA的階數(shù)值q,使得時間序列變得平穩(wěn)的差分階數(shù)d,然后將三個參數(shù)代入ARIMIA模型中對原始數(shù)據(jù)進行擬合,之后代入測試數(shù)據(jù)求出預測結果。

其中p的值可以通過自相關函數(shù)ACF(Autocorrelation

Function)畫出的自相關圖中求得,參數(shù)q的值可以通過偏自相關函數(shù)PACF(Partial Autocorrelation Function)畫出的偏自相關圖中解出。自相關函數(shù)(ACF)的作用是從數(shù)學的角度來解釋時間序列數(shù)據(jù)與其過去的歷史數(shù)據(jù)間的相關性關系[8]。偏自相關函數(shù)(PACF)描述在已經(jīng)確定了中間觀測值的情況下時間序列預測數(shù)據(jù)與歷史數(shù)據(jù)之間的線性關系,具體參數(shù)的求解過程如表3平穩(wěn)隨機時間序列模型特征系數(shù)所示。參數(shù)p的值通過顯著不為0時的偏自相關系數(shù)的個數(shù)計算,此時數(shù)據(jù)在坐標軸中展現(xiàn)出來的畫面為拖尾,即當k>p時,滿足偏自相關系數(shù)存在于置信范圍內;q的取值根據(jù)顯著不為0的自相關系數(shù)的個數(shù)來計算,此時數(shù)據(jù)在坐標軸上的表現(xiàn)為截尾,即當k>p時,自相關系數(shù)的結果均滿足于置信范圍[9]。此處所說的拖尾現(xiàn)象指坐標軸上y的值以指數(shù)形式單調或振蕩衰減,截尾說的是從坐標軸某點開始衰減(不顯著非零)。

差分階數(shù)求解方法首先需要對序列進行n階差分后觀察序列值是否平穩(wěn),如果序列的值在某區(qū)間范圍內上下周期性擺動則表示時間序列趨于平穩(wěn),但在求解差分時不宜將n的值調至過大,這樣雖然滿足平穩(wěn)性要求,但差分的計算中會將一部分原始信息進行去除,在對數(shù)據(jù)處理的過程中,每次進行差分運算就意味著沒有保留最原始的數(shù)據(jù)。

綜上所述,ARIMA模型預測步驟如下:

1)求解差分的階數(shù)。通過對時間序列進行1、3、5階差分后,比較差分后的趨勢結果圖,得出在1階差分后的數(shù)據(jù)已經(jīng)出現(xiàn)了穩(wěn)定性趨勢,則確定差分參數(shù)d取值為1階。

2)通過畫出自相關與偏自相關圖來計算出ARIMA模型的兩個重要參數(shù)p和q。通過引入statsmodels庫中的自相關函數(shù)plot_acf和偏自相關函數(shù)plot_pacf,將一階差分后的數(shù)據(jù)導入,得出時序數(shù)據(jù)的自相關和偏自相關如圖2自相關圖和偏自相關圖。從自相關圖中在第0階發(fā)生截尾,偏自相關圖中在第0階發(fā)生截尾,由此判定p、q的值均為0。

3)建立ARIMA模型。通過以上計算確定ARIMA的參數(shù)為(0,1,0),使用Python中statsmodels統(tǒng)計模型庫來建立ARIMA模型,將將要預測的時間序列分解為趨勢分量、周期分量和殘差分量,首先趨勢分量代入模型進行訓練,然后對未來12小時內的數(shù)據(jù)進行預測,趨勢預測結果與周期分量求和得到最終ARIMA模型預測結果如表4所示。

從表4中可以看出預測結果與實際情況的趨勢基本一致,最大誤差出現(xiàn)在時間20:10,在此時刻數(shù)據(jù)曲線正處于拐點階段,此時的時序數(shù)發(fā)生跳變且未趨于穩(wěn)定,其余時間點變化趨勢趨于穩(wěn)定,誤差值均在0.5左右。在整個過程中預測數(shù)據(jù)與實際數(shù)據(jù)基本上吻合,可以得出較好的預測結果。

3.2? 基于三次平滑算法的分析和結果

通過對時間序列的觀察得知,該時間序列具有明顯的周期性,且不隨時間的延續(xù)發(fā)生變化,實際值有一定曲率,時間上屬于非線性的數(shù)據(jù),初步確定三次平滑加法模型適合,基于一、二次平滑算法求得的三次平滑算法數(shù)學式如下:

由此得出三次平滑算法預測未來時刻值xt+T的模型為:

其中:

上述公式中,α表示平滑系數(shù),取值在0與1之間。T表示序列的周期,首先通過將原始序列做趨勢分離,分離后的數(shù)據(jù)分為趨勢序列、周期序列和殘差序列,將分離后的周期結果進行周期求解,求解規(guī)則為計算器極值間的間隔距離,將極大值或極小值之間的距離求出,最終求得序列的周期為24小時,周期結果可判定每日服務器文件系統(tǒng)的數(shù)據(jù)下載趨勢以天為周期循環(huán)進行。

在周期確定的前提下,求得平滑系數(shù)α即可完成模型的構建,其中平滑系數(shù)越小得到的結果就越平滑,相反得到的結果的變化趨勢越不穩(wěn)定,為了使平滑系統(tǒng)足夠準確,引入均方誤差MSE來描述平滑系數(shù)的好壞,其中? 表示預測值,xk表示實際值,得到公式如下:

平滑系數(shù)可以通過假設法、公式預估法和驗證函數(shù)法實現(xiàn),經(jīng)查閱文獻得知當周期數(shù)T較大時,平滑系數(shù)α的值通過試算評估法計算一般為[10]:

通過計算得知α為0.08左右的值,將0.06、0.07、0.08、0.09帶入到模型中,求得在α為0.06的情況下求得和原曲線均方差最小,由此得到At、Bt、Ct的值分別為48、0.016、8.38×10-7,使用α替換原預測模型得到預測模型的公式為[11]:

使用上述模型的表達式可以預測在下個周期的同一相對時間的數(shù)值,在求未來12個小時的值時,會將上一周期的相同時刻的值帶入到模型中依次求得預測數(shù)據(jù),根據(jù)以上思路計算得到的三次指數(shù)平滑模型預測結果,如表5所示。

從預測結果中可以看出在未來12個小時的預測值趨勢基本與實際值趨勢一致,相對誤差較小,但是在20:10時間點存在3.7的誤差值,該時刻為機器清理文件系統(tǒng)造成磁盤利用率的迅速減小,這也是預測算法在遇到趨勢突變情況下的收斂程度不夠造成的數(shù)據(jù)誤差。

3.3? 兩種預測算法結果對比分析

根據(jù)上述兩種算法預測到的結果,分別計算ARIMIA、三次平滑算法的平均誤差和均方誤差如表6所示,從表中可以看出在相同源數(shù)據(jù)情況下預測序列的結果中,ARIMA模型的均方差和平均誤差均小于三次指數(shù)平滑算法,預測的趨勢效果通過趨勢曲線圖和殘差曲線圖能夠直觀地看出兩種算法與實際值的契合程度。

從圖3兩種算法預測與實際值的曲線中可以看出兩種預測算法的總體趨勢均與實際相符,在磁盤使用率增加的過程中基本與實際值相同,預測結果可靠性較好。在第九個預測時間點上,三次指數(shù)平滑算法的結果相對誤差為3.072,ARIMA模型的相對誤差為0.9,相比之下后者更加完美地還原了實際情況。從圖4兩種算法的殘差比較曲線中可以看出除了第7個預測值與第12個預測值以外,ARIMA模型的相對誤差均低于三次平滑算法的結果,并且在預測相對誤差穩(wěn)定性方面,前者更加平緩,未出現(xiàn)較大突變的預測值。綜上所述,在未來12個小時的預測磁盤利用率實現(xiàn)過程中,ARIMA模型的預測結果更好。

3.4? 告警預測時間計算

通過預測下次的告警時間可以使得運維人員提前了解告警的發(fā)生時間,從而制定清理磁盤空間的策略。通常監(jiān)控平臺中的磁盤告警閾值為90%,考慮到告警發(fā)生前需要處理的時間,因此在磁盤利用率預測值達到閾值為85%時定義為告警時間Ta,由于時間序列的預測值為離散的時間序列,因此選擇閾值前的時間點作為告警時刻,告警預測時間為當前時間Tn與告警時間Ta的差值。

4? 結? 論

通過基于ARIMIA和三次指數(shù)平滑算法對磁盤利用率的趨勢值做預測,并比較了兩種算法的殘差、均方差等參考指標,最終得出ARIMA算法的預測結果更加趨于實際的情況,實際應用中首選該算法進行預測分析,在預測值到達告警閾值時能夠通過短信或者語音方式通知運維人員,縮短告警處理時間。

參考文獻:

[1] 沈文海.當前氣象信息化所處階段的特征及主要內涵 [J].中國信息化,2015(9):81-86.

[2] 曾樂,梁中軍.氣象信息化評價指標體系研究 [J].信息系統(tǒng)工程,2020(3):129-130+133.

[3] 閆慧敏.大數(shù)據(jù)時代背景下的氣象信息化困境與對策研究 [J].信息記錄材料,2020,21(6):165-166.

[4] 李一風.基于Celery和Django的分布式自動化測試系統(tǒng)設計 [J].信息技術,2019,43(5):97-100.

[5] 房玄驊,王藝寧,劉夕.基于預測有效度成分數(shù)據(jù)處理方法組合預測 [J].價值工程,2019,38(21):192-194.

[6] 張朝輝,梁家豪,梁秉崗,等.基于時序分析的閥冷進閥溫度預測方法 [J].計算機系統(tǒng)應用,2021,30(4):9-16.

[7] 沈露露,梁嘉樂,周雯.基于ARIMA-LSTM的能量預測算法 [J].無線電通信技術,2023,49(1):150-156.

[8] 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM_(2.5)預測 [J].安全與環(huán)境工程,2014,21(6):125-128.

[9] 金旗,裴昌幸,朱暢華.ARIMA模型法分析網(wǎng)絡流量 [J].西安電子科技大學學報,2003(1):6-10.

[10] 吳會會,王嘉鵬,吳文靜,等.基于ARIMA模型的全球氣表溫度預測分析 [J].現(xiàn)代信息科技,2023,7(16):147-150.

[11] 熊莎,賀躍光,姬方,等.指數(shù)平滑法在基坑深層位移預測中的應用 [J].礦冶工程,2013,33(2):5-7.

作者簡介:張新禹(1992—),男,漢族,內蒙古化德

人,工程師,碩士研究生,研究方向:網(wǎng)絡與網(wǎng)絡安全、氣象數(shù)據(jù)分析。

主站蜘蛛池模板: 久久精品国产91久久综合麻豆自制| 国产黄网永久免费| 色综合天天娱乐综合网| 97色伦色在线综合视频| 2021国产精品自产拍在线| 热久久综合这里只有精品电影| 久久大香香蕉国产免费网站| 尤物视频一区| 精品久久国产综合精麻豆| 亚洲精品综合一二三区在线| 欧美国产中文| 国产AV毛片| 久草中文网| 亚洲男女天堂| 亚洲日本中文字幕天堂网| 亚洲一区二区约美女探花| 亚洲无线一二三四区男男| 国产杨幂丝袜av在线播放| 欧美日在线观看| 黄色国产在线| 亚洲福利视频一区二区| 亚洲AV无码一二区三区在线播放| 欧美一区国产| av大片在线无码免费| 精品自拍视频在线观看| 亚洲国产精品日韩欧美一区| 亚洲欧美不卡视频| 久久人搡人人玩人妻精品| 免费又爽又刺激高潮网址 | 婷婷色中文网| yjizz国产在线视频网| 在线观看国产精品第一区免费| 国模在线视频一区二区三区| 欧美日韩成人在线观看| 国产理论最新国产精品视频| 久久综合九九亚洲一区| av色爱 天堂网| 亚洲av综合网| 国产成人高清精品免费| 狠狠综合久久| 永久免费精品视频| 欧美色图第一页| 毛片基地美国正在播放亚洲 | 欧美a在线视频| 免费看一级毛片波多结衣| 国产午夜在线观看视频| 国产偷倩视频| 波多野结衣二区| 国产91丝袜在线播放动漫 | 欧美激情首页| 亚洲精品少妇熟女| 日韩欧美国产另类| 亚洲国产精品日韩专区AV| 99re66精品视频在线观看| 99视频在线看| 亚洲嫩模喷白浆| 免费一级成人毛片| 澳门av无码| 亚洲天堂区| 看国产一级毛片| 波多野结衣一二三| 亚洲天堂自拍| 国产无码性爱一区二区三区| 亚洲中文在线看视频一区| 久久精品视频亚洲| 天天综合色网| 亚洲精品第五页| 综合五月天网| 自偷自拍三级全三级视频| 四虎在线观看视频高清无码| 国产视频一区二区在线观看 | 蜜桃视频一区二区| 国产精品亚洲片在线va| 国产综合另类小说色区色噜噜| 精品夜恋影院亚洲欧洲| 不卡无码h在线观看| 国产高清精品在线91| 国产一级片网址| 亚洲天堂.com| 亚洲视频色图| 国产午夜无码片在线观看网站| 熟女成人国产精品视频|