任宇軒

摘要:飛機缺材是航材保障部門亟需解決的問題,基于缺材風險現狀,提出了一種基于隨機森林的分類器,其由多個決策樹組成,根據學習結果在之后的學習中選擇區分度更高的決策樹。最后通過實例驗證表明該方法具有一定的可信度。
關鍵字:隨機森林 缺材停飛 風險管理
1 引言
航材保障工作是為飛機提供維修、更換所需器材,而缺材停飛是指飛機因缺航材導致無法執行飛行任務的情況,是航材部門最需要避免的問題。在對缺材停飛進行風險管理中,合理的利用保障數據進行分析十分重要。而缺材停飛屬于小概率事件,對于保障數據而言缺材數據樣本規模極小,對其進行分析屬于處理不平衡數據樣本集,容易發生樣本集內正樣本與負樣本比例極不平衡,對這類樣本集進行數據分析會導致結果出現偏差,算法會使得分類結果偏向于樣本容量大的一類,如何解決不平衡樣本集對數據分析結果帶來的影響是當前的熱點研究方向。
2 基于隨機森林的分類器設計
代價敏感的隨機森林可以較好的處理不平衡數據同時能夠避開過擬合問題,但是代價函數構建的不準確,則達不到處理不平衡數據的目的。傳統代價函數的構造沒有考慮數據集的實際分布,且采用歐式距離計算樣本距離,而特征空間中所有特征的重要性不同,并且同一特征對不同類別的重要性也不同,僅僅計算歐式距離對重要特征不公平,構造的代價函數不準確,導致分類器的整體性能較差。由于隨機森林在選擇訓練樣本、特征子空間過程中引入了隨機性,導致了基分類器在處理不平衡數據時的性能差異,而傳統隨機森林算法在最終決策階段采取平等投票,平等投票會影響分類器的整體性能。
本文根據樣本實際分布構造代價因子,將權重距離引入代價函數的計算過程。詳細步驟如下:
一是分別計算每個特征列的平均值作為兩類數據的數據中心。
二是計算各類別中心到整個數據集中心的權重距離。在數據集中,重要特征相對較少,計算類別中心到整個數據集中心的歐式距離構造代價對重要特征不公平,本算法引入權重距離,利用信息增益衡量每個屬性在多數類與少數類中的重要性。
第三步,設多數類 ,少數類 ,其中樣本數分別為 ,能夠定義 系數如下:
3 實例驗證
利用某保障單位數據對隨機森林分類器,代價敏感隨機森林分類器與決策樹算法進行比較。將代價敏感的隨機森林算法與普通隨機森林算法結果相比較,0表示未發生缺材,1表示發生缺材。下表中1/0表示實際為1算法分類結果為0,以此類推,實驗結果如下表。
4 結語
類別分布不平衡的問題給現有算法的分類帶來了困難,這是由于現有算法基于類別平衡假設,導致少數類被正確分類的比重較低。基于代價敏感的隨機森林算法對于不平衡數據分析有較好的效果,在缺材風險管理中具有一定的現實意義。
參考文獻
[1]高聰. 基于隨機森林的不平衡大數據分類算法研究[D].東北電力大學,2018.
[2]曹鵬. 不均衡數據分類方法的研究[D].東北大學,2014.
[3]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價敏感的隨機森林不平衡數據分類算法[J].科學技術與工程,2018,18(06):285-290.