999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的硬盤故障預測研究

2022-06-29 12:37:28喬旭坤茅智慧
計算機技術與發展 2022年6期
關鍵詞:故障模型

喬旭坤,李 順,李 君,吳 鑫,茅智慧

(浙江萬里學院,浙江 寧波 315100)

0 引 言

隨著云計算和大數據時代的來臨,數據量劇增,存儲系統的重要性更為凸顯。磁盤是云存儲和數據中心等存儲系統的核心,超過90%的數據存儲在磁盤,磁盤故障是最頻繁出現(約占80%[1]),也是最為嚴重的硬件故障[2]。雖然單個磁盤故障發生概率較低,但對于磁盤基數大的存儲系統則帶來很大影響。騰訊公司報告磁盤月故障率約為0.21%,超過5年服務期的磁盤月故障率達到0.7%;Google數據中心4~6年期的數據統計表明有20%~57%的磁盤至少有一個扇區損壞[3]。磁盤故障不僅造成其上運行的業務中斷從而降低用戶滿意度,而且存儲在磁盤上的大量數據將隨著磁盤損壞而永久丟失,給企業和個人帶來不可估量的損失,阻礙了大數據、云計算技術的廣泛推廣和應用。若能對磁盤故障和磁盤壽命進行有效及時的預測,適時做好磁盤的更換或者維護,將會在保障數據安全、防止數據丟失、挽救重大數據損失帶來的負面效應以及降低數據中心等存儲系統運營成本等方面起到積極的作用。因此,磁盤故障預測具有非常重要的應用價值和理論研究價值,成為存儲系統的研究熱點。

目前檢測磁盤的健康狀態主要有三種方法。一是利用加速度傳感器和聲發射傳感器等外部傳感器來監測磁盤運行中振動信號的演變[4],但把傳感器安在磁盤外部無法有效得到磁盤退化信息,而安裝在內部則會破壞磁盤結構并增加物理尺寸。二是利用存儲系統的日志文件,由存儲系統中軟硬件的錯誤事件來判定磁盤健康狀態,但由于缺乏閉環監測無法提供磁盤性能的全面信息[5]。三是利用SMART(self-monitoring,analysis and reporting technology,自檢測、分析和報告技術)提供的磁盤特征參數,如磁盤加載/卸載周期數、磁盤啟動平均時間、磁頭尋道出錯率等,通過閾值檢測法實現無損的磁盤健康狀態監測,并當任意一個屬性值超過預設閾值時發出警報。該方法是目前磁盤廠商普遍采用的磁盤故障預測方法。但SMART閾值檢測法僅能實現簡單的磁盤故障評測,在達到0.1%誤判率FAR(false alarm rate,好盤被誤報為壞盤的比例)時,其故障檢測率FDR(failure detection rate,故障磁盤中被準確檢出的比例)只有3%~10%[6],無法滿足用戶實際需求。

1 相關工作

統計學和機器學習的方法廣泛應用在磁盤SMART數據集上進行故障預測。Hughes等[7]最早提出兩種統計方法以提高預測性能,在嚴重不均衡的數據集上取得60%的FDR和0.5%的FAR。Wang Yu等[8]基于異常檢測提出了一種基于滑動窗口的廣義似然比檢驗方法跟蹤磁盤異常,在均衡的小數據集上達到68%的FDR。除了統計方法,機器學習方法也大量應用到磁盤故障預測中。Murray等[6]比較了多種機器學習方法,其中支持向量機(support vector machine,SVM)在FAR為零時獲得50.6%的FDR,相對于樸素貝葉斯等算法具有較好的預測性能。樹型樸素貝葉斯算法TAN[9]和隱馬爾可夫模型[10]被相繼提出以進一步提升FDR。早期的故障預測方法總體上預測精度不高。

隨著機器學習技術的引入,磁盤故障預測準確性持續提升。Zhu Bingpeng等[11]采用反向傳播神經網絡與改進SVM,取得了0.03%的故障誤報率和高達95%的故障檢測率,并且可提前15天預測出硬盤故障。Nicolas Aussel等[12]采用梯度提升決策樹算法模型,達到了94%的準確度和67%的召回率,該方法誤報少,但是漏報占比大,而故障磁盤的漏報會帶來嚴重的后果。Yang Wenjun等[13]采用邏輯回歸(logistic regression,LR)算法建立硬盤故障預測模型,獲得0.3%的FAR和97.82%的FDR。Shen Jing等[14]在硬盤SMART數據上建立隨機森林(random forest,RF)算法模型,取得了97.67%的FDR和 0.017%的FAR。上述研究大部分都能在較低的誤報率前提下達到較好的磁盤故障檢測率,在檢測精度上有很大的進步,極大地提高了存儲系統的可靠性和可用性。國內研究人員段茹[15]和謝偉睿[16]在磁盤故障預測方面也進行了積極的探索和研究。

為了對不同算法模型預測效果有統一的比較,該文搭建了基于機器學習的硬盤預測實驗平臺,并采用常用算法模型進行比較,這些算法模型都是基于機器學習Scikit-learn框架,均在Anaconda上運行,使用相同的數據集和性能評估指標。

2 實驗數據集

實驗采用公開數據集S.M.A.R.T.dataset,是希捷(Seagate)公司制造的型號為ST31000524NS的硬盤(記為B1數據集)。B1數據集包括23 395塊硬盤,其中22 962塊健康盤和433塊故障盤。健康盤數是故障盤的50多倍。每隔一小時采集一次,健康盤采集時長為一周,故障盤采集時長為20天,得到健康盤3 857 616條樣本數,故障盤156 312條樣本數。從B1中抽出一份較小的數據集(記為B2數據集)以此來對比模型在不同數量級別樣本下的性能,B2數據共包含5 750塊硬盤,其中包括433塊故障盤和5 317塊健康盤,健康盤是故障盤的12倍多。故障盤有156 312條樣本,健康盤有892 264條樣本。數據集在公開的時候就已經清洗、處理過,健康盤被標記為“+1”,故障盤被標記為“-1”,所有的屬性值經過歸一化映射到區間[-1,+1]上。該文選取了11個特征屬性,加_raw標記的特征為屬性的原始值,如表1所示。由于SMART技術提供的數據屬性值值域范圍大,采用公式(1)進行數據集歸一化,以避免偏向具有較大參數值的特征而影響預測精度:

(1)

其中,X是歸一化后的值,x是屬性的當前值,xmax和xmin分別是數據集所對應特征屬性的最大值和最小值。

把處理好的數據集按7∶3的比例隨機劃分為訓練集和測試集。訓練集和測試集是互斥的,測試集的樣本在訓練集上未出現過。在訓練集上訓練出多種預測模型,用測試集作為新樣本來測試已經訓練好的預測模型。

表1 數據集對應的屬性值

3 硬盤故障預測模型

該硬盤故障預測模型都是基于機器學習算法,包括隨機森林(random forest,RF)、邏輯回歸(logistic regression,LR)、多層感知神經網絡(multilayer perceptron - artificial neutral network,MLP-ANN)、決策樹(decision tree,DT)、樸素貝葉斯(naive Bayes,NB)、極端梯度提升樹(extreme gradient boosting,XGBoost)、梯度提升決策樹(gradient boosting decision tree,GBDT)以及AdaBoost算法。其中集成學習算法XGBoost、GBDT以及AdaBoost均采用CART(classification and regression tree)作為基學習器來建立模型,CART學習器屬于弱學習器,這三種集成學習算法分別對CART進行集成,集成后的模型在文中稱為XGBoost模型、GBDT模型和AdaBoost模型。

4 實驗結果與分析

4.1 實驗環境

實驗平臺采用Windows7系統,12 GB的RAM內存,Intel(R)core(TM)i3-4160CPU@3.60 GHz的處理器。編程環境為Anaconda Navigator(spyder version 3.0.0)version 4.2.0,編程語言為Python語言,基于機器學習框架Scikit-learn version 0.19.0。

4.2 模型參數的設置

實驗中random_state均設為12,以便于后續驗證實驗結果,對于其他參數是采用經驗調參的方式。同一個參數在不同算法模型中設置的不一定相同,如學習率在XGBoost模型中設置為0.01,而在AdaBoost模型中設為0.1。在GBDT模型和AdaBoost模型中n_estimators都設置為了200。具體的模型調參流程如圖1所示。

圖1 模型調參流程

4.3 模型性能評估指標

為了進行合理的實驗結果對比,該文選擇統一的模型性能度量指標即查準率(precision)、查全率(recall)、故障檢測率(failure detection rate,FDR)、故障誤報率(false alarm rate,FAR)和ROC曲線(receiver operating characteristic curve)。

查準率(precision)也叫準確率,簡稱P,表示預測出的健康盤(故障盤)中實際為健康盤(故障盤)占所用測試健康盤(故障盤)的比例,具體定義見公式(2):

(2)

其中,真正例(true,positive,TP)表示真實為健康盤(故障盤)預測也為健康盤(故障盤),假正例(false,positive,FP)表示真實為健康盤(故障盤)預測為故障盤(健康盤)。

查全率(recall)也叫召回率,簡稱R,具體定義見公式(3):

(3)

其中,假反例(false,negative,FN)表示實際故障盤(健康盤)預測為健康盤(故障盤)。

故障檢測率(FDR)為故障盤的召回率,表示成功預測的故障盤占所用測試故障盤總數的比例。

故障誤報率(FAR)是把健康盤預測為故障盤的比例,如公式(4)所示:

(4)

其中,真反例(true,negative,TN)表示真實為健康盤預測仍為健康盤。

4.4 實驗結果分析

在樣本數較少的B2數據集上,各種算法模型的預測結果如表2所示,其中“+1”表示健康盤,“-1”表示故障盤。

表2 在B2數據下各種算法模型預測結果

P和R是precision和recall的簡稱,(-1)R和FDR相同,只是保留小數位不同。為了更直觀地對比預測效果,把上述各算法模型的預測結果以條形圖的形式呈現出來,如圖2和圖3所示。故障盤的查準率和召回率如圖4所示。值得一提的是在P、R條形圖中,隨機森林算法模型的P、R指標趨于“1”,但并沒有達到“1”。上述各算法模型的ROC曲線如圖5所示,可見在2%的誤報率情況下,所有算法模型的故障檢測率都達到了80%以上。

圖2 在B2數據下各種算法模型的FDR

圖3 在B2數據下各種算法模型的FAR

圖4 在B2數據下故障盤P和R

圖5 在B2數據下各種算法模型的ROC曲線

從上述結果可以看出,在數據集較小的情況下,RF算法模型預測精度最高,GBDT模型次之,DT模型預測效果略好于XGBoost模型,而XGBoost模型優于AdaBoost模型,AdaBoost模型好于MLP-ANN模型。雖然MLP-ANN模型故障檢測率高于AdaBoost模型,但是故障誤報率也高很多,AdaBoost模型要優于LR算法模型。NB算法模型故障檢測率最低,故障誤報率最高,是最差的算法模型。

各模型性能差異的原因主要是:RF算法是在集成學習算法Bagging基礎上的改進,Bagging算法是一種集成式并行運算算法,RF算法從所有屬性中隨機選擇m個屬性,選擇最佳分割屬性作為節點建立決策樹,從而有很好的分類性能。GBDT和AdaBoost算法是Boosting族的代表算法,AdaBoost算法在上一個基學習器的基礎上來學習優化下一個基學習器的參數,然后對這n個基學習器進行串行加權求和。GBDT算法集成了多棵CART回歸樹作為基學習器,隨著訓練的輪數更新殘差并使殘差減少,從而提高預測的精度。XGBoost算法是對GBDT算法的改進,具有很好的預測性能。集成算法模型GBDT的預測效果優于DT模型,而DT模型的預測結果要略好于XGBoost和Adaboost模型,這說明在某些條件下集成模型不一定比單個學習器預測效果好。DT算法利用樹狀結構將整個特征空間進行劃分,最終判斷出樣本類別,雖然原理簡單,但預測精度高。MLP-ANN算法是一種簡單的人工神經網絡,可以根據分類問題的難易程度添加隱含層數以及神經元的個數,也取得了較好的結果。LR模型是線性分類器,非線性表達能力不足,實驗效果相對比較差。NB算法假設屬性之間相互獨立,但是該文的特征屬性之間具有一定的相關性,所以NB算法模型的預測效果不佳。

表3 在B1數據下各種算法模型預測結果

圖6 在B1和B2數據下的FDR

圖7 在B1和B2數據下的FAR

由圖6和圖7可見,各種算法模型在B1數據集和B2數據集上的預測結果走勢一致。特別地,RF和GBDT具有很高的FDR和很低的FAR,且幾乎不受樣本數據集大小影響。XGB算法的FAR雖然在B1和B2數據集的變化非常小,但是FDR變化較大。其他的算法模型預測結果FDR和FAR變化較大,說明模型對樣本集規模適應性較弱。

結合RF和GBDT的特點可知以樹為基學習器的集成算法對數據的抗噪能力很強,然而以樹為基學習器并不是唯一決定因素,如XGBoost和Adaboost算法對數據適應能力并不強,這也與算法其他因素相關,如RF是以Bagging方式集成了決策樹的算法,而GBDT是以Boosting方式集成了回歸樹的算法,同時從上述在B2數據集的分析結果可知每個算法的運行原理不同,這也在一定程度上影響了算法對不同數據集的泛化能力。

5 結束語

通過建立比較系統,對八種算法模型的預測效果對比可知:RF和GBDT硬盤故障預測模型相比其他算法模型具有很好的預測效果,都能在0.05%的FAR下達到93%以上的FDR,另外這兩個算法模型對不同規模樣本數據集的適應性也很強。由于實驗只是針對同一公司的同一種型號硬盤進行測試,硬盤故障預測模型對于其他不同硬盤廠商的不同型號硬盤的預測效果尚不確定,下一步工作將會致力于研究預測精度高且具有更強泛化能力的硬盤故障預測模型。

猜你喜歡
故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
故障一點通
故障一點通
故障一點通
主站蜘蛛池模板: 亚洲侵犯无码网址在线观看| 亚洲av综合网| 亚洲一区二区精品无码久久久| 日本高清免费不卡视频| 伊人欧美在线| 欧美日韩导航| 免费午夜无码18禁无码影院| 国产精品亚洲欧美日韩久久| 欧美成人精品欧美一级乱黄| 欧洲亚洲欧美国产日本高清| 无码aⅴ精品一区二区三区| yy6080理论大片一级久久| 亚洲国产成人精品一二区| 国产精品亚洲αv天堂无码| 国产精品第一区在线观看| 国产成人精品亚洲日本对白优播| 亚洲AV无码乱码在线观看裸奔| 99ri国产在线| 亚洲另类第一页| 日a本亚洲中文在线观看| 欧美专区日韩专区| 99视频精品在线观看| 久久免费看片| 国产午夜福利在线小视频| 91在线激情在线观看| 91久久偷偷做嫩草影院| 热久久综合这里只有精品电影| 日韩AV无码免费一二三区| 国产区91| 亚洲成人一区二区三区| 久久国产亚洲欧美日韩精品| 国产精品丝袜视频| 亚洲第一页在线观看| 国产乱人免费视频| A级毛片高清免费视频就| 久久亚洲黄色视频| 日韩专区欧美| 女人18毛片一级毛片在线 | 久久国产黑丝袜视频| 国产日韩精品一区在线不卡| 国产在线观看人成激情视频| 国产性猛交XXXX免费看| 波多野结衣亚洲一区| 国产91丝袜在线播放动漫 | 中文无码毛片又爽又刺激| 免费在线看黄网址| 无码一区二区三区视频在线播放| 青青青草国产| 国产手机在线观看| 人妻无码中文字幕第一区| 午夜电影在线观看国产1区| 中文字幕免费在线视频| 国产精品专区第1页| 日本人妻一区二区三区不卡影院| 免费看a级毛片| 波多野结衣一二三| 中文字幕佐山爱一区二区免费| 无码电影在线观看| 国产一级毛片在线| 国产青青操| 亚洲一区毛片| 无码又爽又刺激的高潮视频| 国产视频一区二区在线观看| 久久 午夜福利 张柏芝| 色婷婷色丁香| 国模粉嫩小泬视频在线观看| 亚洲男人在线| 91在线精品免费免费播放| 久久国产精品无码hdav| 午夜啪啪福利| 九色91在线视频| 欧美在线三级| 九色在线观看视频| a级高清毛片| 伊人查蕉在线观看国产精品| 亚洲无码高清一区二区| 久久久久青草大香线综合精品| 国产极品粉嫩小泬免费看| 四虎影院国产| 欧美www在线观看| 伊人久久婷婷五月综合97色| 亚洲视频免费在线看|