石昀 凱里學院 大數據工程學院
關于小樣本數據預測模型,前人在此之前進行過大量的研究,如Delphi 法、TOPISIS 法、AHP 法、BP 法、DEA 法、GRA 等[1,2,3]。上述方法存在著如下不足:一是過于依賴定量數據[4],如DEA、AHP等;二是主觀因素影響過大[4],如Delphi法、模糊評價法等[5][6]。三是容易出現收斂速度慢以及過擬合的情況,如BP 法、SVM 法[6]。
相關向量機(Relevance Vector Machine, RVM)是Tipping在SVM(支持向量機)的基礎上提出的一種新的機器學習算法,它具有以下優點:
(1).通過引入超參數α以及計算超參數的權重后驗分布迭代計算出最優權值,最終獲得稀疏化模型[3];
(2).顯著提升了核函數的運算效率,增強了解的稀疏性[8];
(3).整個訓練無需調整過多的參數;
(4).核函數不需要滿足正定條件。
算法執行過程可以概括為如下幾步:
1)選擇核函數,并設置相關參數,通過核函數創建核矩陣;
6)重復步驟4,5 直至所有訓練樣本均代入算法執行完畢。
為對比RVM、SVM 以及BP 三種算法的性能,使用公開數據集網站UCI(http://archive.ics.uci.edu/ml/datasets.html)中汽車油耗量數據集進行性能對比實驗。使用RVM、SVM、BP 三種算法來對汽車油耗量數據集進行模型訓練,通過運行時間以及測試結果誤差率來得出實驗結論。汽車油耗量數據集如表3-1 所示。
其中,數據一共392 條,mpg 為油耗量,數值范圍[9,46.4];cyl為氣缸數,數值范[3,8];dis為行駛距離,數值范圍[68,455];hor 為馬力,數值范圍[46,230];wei 為汽車自重,數值范圍[1613,5140];acc 為加速度,數值范圍[8,24.8];ye為制造廠年份,數值范圍[70,82];or為產地,數值范圍[1,3]。
首先,將表一數據通過min-max方法[9]進行歸一化處理。第二,歸一化處理完成后,將歸一化后的392 條數據分為兩個集合,前352條作為訓練集,后40 條作為測試集。第三,使用訓練集進行樣本訓練,使用數據集進行結果測試,計算出運行時間以及測試結果誤差率。其中,誤差率為平均相對誤差[10],同時,平均相對誤差不超過5%時為可接受誤差[11]。上述實驗結果如表2 所示。
實驗結果表明RVM 模型預測出的結果明顯優于BP,相比SVM 則大致相當。但是RVM 模型是用極少數相關向量即可得到最終評價結果,因此從效率上來說明顯優于SVM 算法,更適用于小樣本數據分析。
本本文將RVM 算法成功應用于小樣本數據預測分析中,實驗結果表明,相比于BP 算法以及SVM 算法,RVM 在精確性上優于BP。在運行效率上優于SVM,精度與SVM 大致相當。同時實例分析表明,RVM 算法動態地對各因素間權重參數進行調整,使得無需過多關注評價模型內各指標相互間的關系,從而驗證了該理論模型應用于小樣本數據預測分析領域的可行性。