999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ARIMA和指數(shù)平滑算法對磁盤占用率的預測分析

2024-01-27 09:20:49張新禹
現(xiàn)代信息科技 2023年24期

摘? 要:基于氣象下行傳輸系統(tǒng)的磁盤利用率隨著時間的變化呈現(xiàn)一定的周期性的現(xiàn)象,通過調用監(jiān)控平臺關于磁盤利用率的指標接口獲取分析數(shù)據(jù),進行關鍵指標項提取、數(shù)據(jù)缺失值修正等數(shù)據(jù)預處理操作,通過磁盤利用率的趨勢圖分析時間序列的穩(wěn)定性和周期性,利用ARIMA和三次指數(shù)平滑算法分別對磁盤利用率的周期性時間序列做預測,并比較兩種算法的殘差、均方差等參考指標,通過兩種預測算法分析得出最優(yōu)算法模型,利用預測結果和告警閾值計算告警預測時間值。

關鍵詞:磁盤利用率;周期性;ARIMA;三次指數(shù)平滑

中圖分類號:TP39? 文獻標識碼:A? 文章編號:2096-4706(2023)24-0067-05

Prediction Analysis of Disk Utilization Rate Based on ARIMA and Exponential Smoothing Algorithms

ZHANG Xinyu

(Inner Mongolia Meteorological Service, Hohhot? 010051, China)

Abstract: The utilization rate of disks based on the meteorological downlink transmission system exhibits a certain periodicity over time. The analysis data is obtained by calling the indicator interface of the monitoring platform regarding disk utilization rate, and data preprocessing operations such as key indicator item extraction and missing data value correction are performed. The stability and periodicity of the time series are analyzed through the trend chart of disk utilization rate. ARIMA and triple exponential smoothing algorithms are used to predict the periodicity of time series of disk utilization rate, and reference indicators such as residuals and mean squared errors are compared between the two algorithms. The optimal algorithm model is obtained through the analysis of the results of the two prediction algorithms, and the alarm prediction time value is calculated by using the predicted results and the alarm threshold value.

Keywords: disk utilization rate; periodicity; ARIMA; triple exponential smoothing

0? 引? 言

隨著氣象信息技術日新月異的發(fā)展和硬件、軟件資源的不斷增加,僅僅依靠人工方式檢查和監(jiān)測系統(tǒng)的健康狀況會消耗大量人力資源,為了分析和預處理處理監(jiān)控平臺中出現(xiàn)的基礎資源指標的告警,通過對監(jiān)控平臺中氣象資料下載服務器集群指標的趨勢觀察,發(fā)現(xiàn)氣象下行傳輸系統(tǒng)的磁盤利用率隨著時間的變化呈現(xiàn)一定的周期性,趨勢較為平穩(wěn),因此可以選擇一種能夠處理周期性時間序列的模型進行時序數(shù)據(jù)的預測,在變化趨勢不是很復雜的情況下,通過ARIMA和三次指數(shù)平滑算法可滿足周期性和平穩(wěn)性序列進行預測的需求,經(jīng)過對比分析后選擇與實際指標誤差更小的算法來完成服務器集群的磁盤指標預測功能,進而在監(jiān)控告警來臨之前提前進行處置,保障業(yè)務實時穩(wěn)定運行。

氣象傳輸業(yè)務中監(jiān)控平臺在告警處理過程中起了很大的作用[1],作為業(yè)務運維中主要的監(jiān)控方式,氣象業(yè)務監(jiān)控平臺中存儲了很多關于系統(tǒng)的監(jiān)控數(shù)據(jù),但在此過程中無法做到對監(jiān)控平臺中的指標數(shù)據(jù)進行分析,只能人工解決發(fā)生的告警信息,在這種情況下出現(xiàn)了以下的缺陷:

1)監(jiān)控平臺集約性較差。往往氣象業(yè)務系統(tǒng)分布在不同系統(tǒng)中,例如內蒙古“天鏡”監(jiān)控系統(tǒng)、IMC設備監(jiān)控平臺、全國綜合氣象信息共享平臺(內蒙古)、全區(qū)廣域網(wǎng)監(jiān)控平臺等,每種監(jiān)控系統(tǒng)都具備自身的功能[2],但是多個監(jiān)控系統(tǒng)之間無法形成告警的集約化,日常運維時遇到復雜多樣的監(jiān)控告警信息時,需要切換監(jiān)控系統(tǒng)并依次處理,導致運維人員無法及時處理相應告警[3]。

2)故障處理效率低下。當監(jiān)控平臺的告警信息生成并推送至運維人員面前時,運維人員無法直接做出處置方案,因為沒有相適應的解決方案而拖慢運維過程中的故障處理時間,每次出現(xiàn)類似的故障需要人工重復處理,增加了運維的工作量。

3)缺乏對監(jiān)控平臺的數(shù)據(jù)分析。監(jiān)控平臺中存在的可研究性的數(shù)據(jù),例如服務器的部分指標具有可預測性卻沒有被及時挖掘,利用預測信息和告警閾值可以提前判斷告警的發(fā)生時間。

針對上述運維工作的情況,通過收集內蒙古自治區(qū)氣象信息中心所有業(yè)務監(jiān)控平臺的服務器指標數(shù)據(jù),基于ARIMIA算法和三次指數(shù)平滑對氣象下行傳輸系統(tǒng)磁盤利用率進行預測分析,通過設定告警閾值來提前預知告警發(fā)生的時間。

1? 監(jiān)控平臺數(shù)據(jù)獲取及預處理

1.1? 設備指標監(jiān)控數(shù)據(jù)收集

通過調用H3C的IMC設備監(jiān)控平臺提供的接口鏈接,獲取自2021年8月6日至2021年8月13日的磁盤使用率數(shù)據(jù)作為ARIMA、三次指數(shù)平滑模型分析的數(shù)據(jù)源。設備指標監(jiān)控數(shù)據(jù)獲取通過Python的json解析庫、網(wǎng)頁抓取方法[4]實現(xiàn),函數(shù)主要由接口獲取函數(shù)、解析入庫函數(shù)、編碼轉換函數(shù)、定時器函數(shù)組成。其中接口獲取函數(shù)調用接口請求庫完成對天鏡數(shù)據(jù)接口的讀取,該函數(shù)創(chuàng)建了訪問接口的鏈接參數(shù),主要包含天鏡系統(tǒng)平臺的管理地址、接口數(shù)據(jù)所在路徑。定時器函數(shù)則是定時調用接口獲取函數(shù),隨后通過編碼轉換函數(shù)對獲取數(shù)據(jù)進行編碼轉換和數(shù)據(jù)的美化,解析入庫函數(shù)將編碼轉換后的數(shù)據(jù)寫入數(shù)據(jù)庫。

1.2? 設備指標數(shù)據(jù)預處理

設備指標數(shù)據(jù)中存在時間戳、指標值、指標名稱這三種類型信息,以下步驟對服務器的磁盤利用率數(shù)據(jù)進行指標信息提取:

1)關鍵指標項提取。本設計中按照服務器硬件指標中單一磁盤路徑作為研究參考,例如將“/beht”磁盤利用率作為研究指標,因此在指標數(shù)據(jù)中通過Python中findall函數(shù)通過構造例如r"/beht"正則匹配規(guī)則篩選數(shù)據(jù)中包含“/beht”磁盤信息,得到包含該信息的一行字符串。再次利用r"(?<=\:)\d+"正則規(guī)則匹配冒號后的指標數(shù)字完成指標參數(shù)的獲取,得到表1預處理后的設備指標數(shù)據(jù)。

2)數(shù)據(jù)缺失值修正。指標數(shù)據(jù)一般為時間序列類型的連續(xù)數(shù)據(jù),對于缺少采集數(shù)據(jù)或出現(xiàn)異常數(shù)據(jù)的時間序列,由于序列整體變化趨勢較為平緩,因此使用均值插值法計算該序列前后1小時內數(shù)據(jù)的均值作為缺失值的理論補充值。

2? 磁盤利用率數(shù)據(jù)指標分析

本次預測所用到的數(shù)據(jù)為氣象資料收集服務器磁盤“/beht”的利用率,從預測準確度來講,為了保障模型的擬合過程更加貼近于實際的數(shù)據(jù)曲線,并且提高預測的準確性,對預測數(shù)據(jù)的平穩(wěn)性有一定的要求,通常平穩(wěn)性的要求是指隨著時間變化的預測數(shù)據(jù)能夠按照歷史趨勢不斷發(fā)展下去[5]。將磁盤利用率的趨勢圖1資料采集服務器磁盤beht利用率時間序列趨勢展示出來,從圖中可以粗略看出數(shù)據(jù)的變化趨勢是以天為周期連續(xù)的變化,利用率在60之間來回波動,最高不超過85,最低不超過35,雖然每天的數(shù)值較同周期有波動,但通過計算每個周期內數(shù)據(jù)的均值后發(fā)現(xiàn)差距較小。

3? ARIMIA和三次指數(shù)平滑算法分析及結果對比

3.1? 基于ARIMA算法的分析和結果

在基于ARIMA算法預測之前,需要驗證所處理的數(shù)據(jù)是否具有平穩(wěn)性,即所預測的時間序列為穩(wěn)定性序列。為了從統(tǒng)計檢驗方法角度判斷是否為穩(wěn)定性序列,對時間序列或其n階差分的結果進行檢驗,驗證其平穩(wěn)性。數(shù)據(jù)挖掘分析中比較常用的方法就是ADF(Augmented Dickey-Fuller)檢驗,即單位根檢驗。在ARIMA模型的構造過程中,如果單位根為1時,得出殘差的任何誤差均保持在一定的趨勢內,且不會隨著歷史數(shù)據(jù)的增加而衰減,自回歸模型中出現(xiàn)的殘差將永遠都會出現(xiàn),這樣的回歸過程是一個偽回歸[6]。為了避免偽回歸過程的出現(xiàn),通過檢驗序列中是否存在單位根,如果存在單位根就說明序列為偽平穩(wěn)的序列,影響預測結果。而ADF檢驗就是假設存在單位根,如果得到的顯著性檢驗統(tǒng)計量ADFTestresut均小于三個置信度(10%,5%,1%),則對應有(90%,95,99%)的概率來否定存在單位根,即可說明序列是穩(wěn)定的,否則說明時間序列是非穩(wěn)定的。

通過Python中的statsmodels統(tǒng)計學計算庫可以完成對序列進行單位根檢驗,檢測結果分別在時間序列的1階、3階、5階差分結果下計算得到,檢驗結果如表2時間序列單位根校驗結果所示。通過結果得出在1階差分時顯著性檢驗統(tǒng)計量就已經(jīng)小于三個置信度的假設值了,并且其中假設檢驗結果的值在3階差分之后趨于0,說明出現(xiàn)單位根的情況逐漸減小,從而證明磁盤利用率的時間序列數(shù)據(jù)是平穩(wěn)的[7]。

使用ARIMA模型對平穩(wěn)性的時間序列進行預測時,基本思想為對模型的參數(shù)進行分解之后求得自回歸模型AR的階數(shù)值p,移動平均模型MA的階數(shù)值q,使得時間序列變得平穩(wěn)的差分階數(shù)d,然后將三個參數(shù)代入ARIMIA模型中對原始數(shù)據(jù)進行擬合,之后代入測試數(shù)據(jù)求出預測結果。

其中p的值可以通過自相關函數(shù)ACF(Autocorrelation

Function)畫出的自相關圖中求得,參數(shù)q的值可以通過偏自相關函數(shù)PACF(Partial Autocorrelation Function)畫出的偏自相關圖中解出。自相關函數(shù)(ACF)的作用是從數(shù)學的角度來解釋時間序列數(shù)據(jù)與其過去的歷史數(shù)據(jù)間的相關性關系[8]。偏自相關函數(shù)(PACF)描述在已經(jīng)確定了中間觀測值的情況下時間序列預測數(shù)據(jù)與歷史數(shù)據(jù)之間的線性關系,具體參數(shù)的求解過程如表3平穩(wěn)隨機時間序列模型特征系數(shù)所示。參數(shù)p的值通過顯著不為0時的偏自相關系數(shù)的個數(shù)計算,此時數(shù)據(jù)在坐標軸中展現(xiàn)出來的畫面為拖尾,即當k>p時,滿足偏自相關系數(shù)存在于置信范圍內;q的取值根據(jù)顯著不為0的自相關系數(shù)的個數(shù)來計算,此時數(shù)據(jù)在坐標軸上的表現(xiàn)為截尾,即當k>p時,自相關系數(shù)的結果均滿足于置信范圍[9]。此處所說的拖尾現(xiàn)象指坐標軸上y的值以指數(shù)形式單調或振蕩衰減,截尾說的是從坐標軸某點開始衰減(不顯著非零)。

差分階數(shù)求解方法首先需要對序列進行n階差分后觀察序列值是否平穩(wěn),如果序列的值在某區(qū)間范圍內上下周期性擺動則表示時間序列趨于平穩(wěn),但在求解差分時不宜將n的值調至過大,這樣雖然滿足平穩(wěn)性要求,但差分的計算中會將一部分原始信息進行去除,在對數(shù)據(jù)處理的過程中,每次進行差分運算就意味著沒有保留最原始的數(shù)據(jù)。

綜上所述,ARIMA模型預測步驟如下:

1)求解差分的階數(shù)。通過對時間序列進行1、3、5階差分后,比較差分后的趨勢結果圖,得出在1階差分后的數(shù)據(jù)已經(jīng)出現(xiàn)了穩(wěn)定性趨勢,則確定差分參數(shù)d取值為1階。

2)通過畫出自相關與偏自相關圖來計算出ARIMA模型的兩個重要參數(shù)p和q。通過引入statsmodels庫中的自相關函數(shù)plot_acf和偏自相關函數(shù)plot_pacf,將一階差分后的數(shù)據(jù)導入,得出時序數(shù)據(jù)的自相關和偏自相關如圖2自相關圖和偏自相關圖。從自相關圖中在第0階發(fā)生截尾,偏自相關圖中在第0階發(fā)生截尾,由此判定p、q的值均為0。

3)建立ARIMA模型。通過以上計算確定ARIMA的參數(shù)為(0,1,0),使用Python中statsmodels統(tǒng)計模型庫來建立ARIMA模型,將將要預測的時間序列分解為趨勢分量、周期分量和殘差分量,首先趨勢分量代入模型進行訓練,然后對未來12小時內的數(shù)據(jù)進行預測,趨勢預測結果與周期分量求和得到最終ARIMA模型預測結果如表4所示。

從表4中可以看出預測結果與實際情況的趨勢基本一致,最大誤差出現(xiàn)在時間20:10,在此時刻數(shù)據(jù)曲線正處于拐點階段,此時的時序數(shù)發(fā)生跳變且未趨于穩(wěn)定,其余時間點變化趨勢趨于穩(wěn)定,誤差值均在0.5左右。在整個過程中預測數(shù)據(jù)與實際數(shù)據(jù)基本上吻合,可以得出較好的預測結果。

3.2? 基于三次平滑算法的分析和結果

通過對時間序列的觀察得知,該時間序列具有明顯的周期性,且不隨時間的延續(xù)發(fā)生變化,實際值有一定曲率,時間上屬于非線性的數(shù)據(jù),初步確定三次平滑加法模型適合,基于一、二次平滑算法求得的三次平滑算法數(shù)學式如下:

由此得出三次平滑算法預測未來時刻值xt+T的模型為:

其中:

上述公式中,α表示平滑系數(shù),取值在0與1之間。T表示序列的周期,首先通過將原始序列做趨勢分離,分離后的數(shù)據(jù)分為趨勢序列、周期序列和殘差序列,將分離后的周期結果進行周期求解,求解規(guī)則為計算器極值間的間隔距離,將極大值或極小值之間的距離求出,最終求得序列的周期為24小時,周期結果可判定每日服務器文件系統(tǒng)的數(shù)據(jù)下載趨勢以天為周期循環(huán)進行。

在周期確定的前提下,求得平滑系數(shù)α即可完成模型的構建,其中平滑系數(shù)越小得到的結果就越平滑,相反得到的結果的變化趨勢越不穩(wěn)定,為了使平滑系統(tǒng)足夠準確,引入均方誤差MSE來描述平滑系數(shù)的好壞,其中? 表示預測值,xk表示實際值,得到公式如下:

平滑系數(shù)可以通過假設法、公式預估法和驗證函數(shù)法實現(xiàn),經(jīng)查閱文獻得知當周期數(shù)T較大時,平滑系數(shù)α的值通過試算評估法計算一般為[10]:

通過計算得知α為0.08左右的值,將0.06、0.07、0.08、0.09帶入到模型中,求得在α為0.06的情況下求得和原曲線均方差最小,由此得到At、Bt、Ct的值分別為48、0.016、8.38×10-7,使用α替換原預測模型得到預測模型的公式為[11]:

使用上述模型的表達式可以預測在下個周期的同一相對時間的數(shù)值,在求未來12個小時的值時,會將上一周期的相同時刻的值帶入到模型中依次求得預測數(shù)據(jù),根據(jù)以上思路計算得到的三次指數(shù)平滑模型預測結果,如表5所示。

從預測結果中可以看出在未來12個小時的預測值趨勢基本與實際值趨勢一致,相對誤差較小,但是在20:10時間點存在3.7的誤差值,該時刻為機器清理文件系統(tǒng)造成磁盤利用率的迅速減小,這也是預測算法在遇到趨勢突變情況下的收斂程度不夠造成的數(shù)據(jù)誤差。

3.3? 兩種預測算法結果對比分析

根據(jù)上述兩種算法預測到的結果,分別計算ARIMIA、三次平滑算法的平均誤差和均方誤差如表6所示,從表中可以看出在相同源數(shù)據(jù)情況下預測序列的結果中,ARIMA模型的均方差和平均誤差均小于三次指數(shù)平滑算法,預測的趨勢效果通過趨勢曲線圖和殘差曲線圖能夠直觀地看出兩種算法與實際值的契合程度。

從圖3兩種算法預測與實際值的曲線中可以看出兩種預測算法的總體趨勢均與實際相符,在磁盤使用率增加的過程中基本與實際值相同,預測結果可靠性較好。在第九個預測時間點上,三次指數(shù)平滑算法的結果相對誤差為3.072,ARIMA模型的相對誤差為0.9,相比之下后者更加完美地還原了實際情況。從圖4兩種算法的殘差比較曲線中可以看出除了第7個預測值與第12個預測值以外,ARIMA模型的相對誤差均低于三次平滑算法的結果,并且在預測相對誤差穩(wěn)定性方面,前者更加平緩,未出現(xiàn)較大突變的預測值。綜上所述,在未來12個小時的預測磁盤利用率實現(xiàn)過程中,ARIMA模型的預測結果更好。

3.4? 告警預測時間計算

通過預測下次的告警時間可以使得運維人員提前了解告警的發(fā)生時間,從而制定清理磁盤空間的策略。通常監(jiān)控平臺中的磁盤告警閾值為90%,考慮到告警發(fā)生前需要處理的時間,因此在磁盤利用率預測值達到閾值為85%時定義為告警時間Ta,由于時間序列的預測值為離散的時間序列,因此選擇閾值前的時間點作為告警時刻,告警預測時間為當前時間Tn與告警時間Ta的差值。

4? 結? 論

通過基于ARIMIA和三次指數(shù)平滑算法對磁盤利用率的趨勢值做預測,并比較了兩種算法的殘差、均方差等參考指標,最終得出ARIMA算法的預測結果更加趨于實際的情況,實際應用中首選該算法進行預測分析,在預測值到達告警閾值時能夠通過短信或者語音方式通知運維人員,縮短告警處理時間。

參考文獻:

[1] 沈文海.當前氣象信息化所處階段的特征及主要內涵 [J].中國信息化,2015(9):81-86.

[2] 曾樂,梁中軍.氣象信息化評價指標體系研究 [J].信息系統(tǒng)工程,2020(3):129-130+133.

[3] 閆慧敏.大數(shù)據(jù)時代背景下的氣象信息化困境與對策研究 [J].信息記錄材料,2020,21(6):165-166.

[4] 李一風.基于Celery和Django的分布式自動化測試系統(tǒng)設計 [J].信息技術,2019,43(5):97-100.

[5] 房玄驊,王藝寧,劉夕.基于預測有效度成分數(shù)據(jù)處理方法組合預測 [J].價值工程,2019,38(21):192-194.

[6] 張朝輝,梁家豪,梁秉崗,等.基于時序分析的閥冷進閥溫度預測方法 [J].計算機系統(tǒng)應用,2021,30(4):9-16.

[7] 沈露露,梁嘉樂,周雯.基于ARIMA-LSTM的能量預測算法 [J].無線電通信技術,2023,49(1):150-156.

[8] 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM_(2.5)預測 [J].安全與環(huán)境工程,2014,21(6):125-128.

[9] 金旗,裴昌幸,朱暢華.ARIMA模型法分析網(wǎng)絡流量 [J].西安電子科技大學學報,2003(1):6-10.

[10] 吳會會,王嘉鵬,吳文靜,等.基于ARIMA模型的全球氣表溫度預測分析 [J].現(xiàn)代信息科技,2023,7(16):147-150.

[11] 熊莎,賀躍光,姬方,等.指數(shù)平滑法在基坑深層位移預測中的應用 [J].礦冶工程,2013,33(2):5-7.

作者簡介:張新禹(1992—),男,漢族,內蒙古化德

人,工程師,碩士研究生,研究方向:網(wǎng)絡與網(wǎng)絡安全、氣象數(shù)據(jù)分析。

主站蜘蛛池模板: 呦女精品网站| 国产真实乱了在线播放| 国产精品手机视频一区二区| 国产精品入口麻豆| 亚洲精品日产AⅤ| 97视频精品全国在线观看| a级毛片免费播放| 制服丝袜在线视频香蕉| 亚洲成人高清在线观看| 亚洲乱码视频| 色综合激情网| 99热这里只有精品免费| 国产成人精品2021欧美日韩| 青草午夜精品视频在线观看| 国产色婷婷| 免费看的一级毛片| 伊人网址在线| 久久婷婷国产综合尤物精品| 日本一区中文字幕最新在线| 精品福利视频导航| 日本免费福利视频| 国产日韩欧美在线播放| 超清无码熟妇人妻AV在线绿巨人| 久久久精品无码一区二区三区| 国产国产人在线成免费视频狼人色| 亚洲成综合人影院在院播放| 日韩东京热无码人妻| 欧美亚洲国产视频| 沈阳少妇高潮在线| 正在播放久久| 99在线视频精品| 超级碰免费视频91| 中文字幕欧美日韩高清| 中文字幕精品一区二区三区视频 | 日本a级免费| 人与鲁专区| 国产97视频在线| 青青操视频在线| 日韩欧美中文亚洲高清在线| 中文字幕波多野不卡一区| 国产高清不卡| 国产91丝袜在线播放动漫 | 久久国产V一级毛多内射| 欧美日韩中文国产va另类| 午夜老司机永久免费看片| 最新日本中文字幕| 亚洲中文字幕无码mv| 97综合久久| 久久频这里精品99香蕉久网址| 精品视频在线一区| 一本大道AV人久久综合| 久久久久国色AV免费观看性色| 女人18毛片久久| 亚洲人视频在线观看| 露脸国产精品自产在线播| 欧美啪啪一区| 欧美一级在线看| 2021国产v亚洲v天堂无码| 精品国产成人a在线观看| 欧美一区二区自偷自拍视频| a级毛片免费在线观看| 在线观看视频一区二区| 亚洲成人免费看| 波多野结衣中文字幕一区二区| 人人爽人人爽人人片| 黄片在线永久| 午夜精品区| 亚洲一区国色天香| 扒开粉嫩的小缝隙喷白浆视频| 国产精品无码AⅤ在线观看播放| 久久久久人妻一区精品色奶水| 无码日韩精品91超碰| 在线观看无码av五月花| 国产综合精品一区二区| 日本黄色不卡视频| 国产欧美日韩va| 国产成人a在线观看视频| 日韩无码真实干出血视频| 69国产精品视频免费| 亚洲无码视频图片| 日韩无码真实干出血视频| 精品在线免费播放|