萬媛媛


摘要:本文主要運用數據挖掘所學的各種模型對德國信貸評價數據集做了具體的分析,首先通過分析數據各變量之間的關系,運用R軟件,然后用主成分分析,回歸分析,BP神經網絡,支持向量機對數據進行預測,最后比較不同預測模型的準確性,通過幾種模型的對比可看出各種模型預測的好壞。
關鍵詞:主成分分析 回歸分析 BP神經網絡 支持向量機
一、數據分析
(一)主成份分析
主成分分析(Principal Component Analysis,PCA), 將多個變量通過線性變換以選出較少個數重要變量的一種多元統計分析方法。
前19個成分的累計貢獻率已經達到90%,另外其他的主成分可以舍去,達到降維的目的,觀察各成份的比例,會發現成份增加時,所占比例沒有明顯增加,各成份沒有明顯的主次之分。下面是碎石圖:
圖像下降得較為平滑,沒有明顯的“陡峭”。
同時也考慮了一下,相關系數矩陣進行分析,得到圖如下:
從以上分析,大致可知各變量所占比重較平均,沒有特別地偏重哪個變量。
(二)回歸分析
多元回歸分析:表現在線性回歸模型中的解釋變量有多個。一
般表現形式:
對訓練集進行多元回歸分析,并用測試集進行檢測,得到的準確率是0.742。
(三)逐步回歸分析
上面的多元回歸分析中涉及變量較多,為了簡化模型,進行逐步回歸分析,選取其中十一個變量。
得到結果如下:
對訓練集進行逐步回歸分析,并用測試集進行檢測,得到的準確率是逐步回歸分析的準確率為0.753。
1、BP神經網絡
算法。令1:good 2:bad先對數據進行處理,調用r.studio 中的AMORE包。
每一百次輸出一次,共顯示10次:
index.show: 1 LMS 0.672420016008633
index.show: 2 LMS 0.682084907905352
index.show: 3 LMS 0.699954664285038
index.show: 4 LMS 0.700077412246174
index.show: 5 LMS 0.700084847039235
index.show: 6 LMS 0.700079842363825
index.show: 7 LMS 0.700037627521291
index.show: 8 LMS 0.685135487222039
index.show: 9 LMS 0.682417548537964
index.show: 10 LMS 0.679170941744628
從結果可以看出準確率在0.68左右。
2、支持向量機
支持向量機(SVM)是一種線性和非線性數據的分類方法,它使用非線性映射將原始數據映射到高維空間,在該空間內搜索最佳分離超平面。
Parameters:
SVM-Type: eps-regression
SVM-Kernel: radial
cost: 1
gamma: 0.04166667
epsilon: 0.1
Number of Support Vectors: 414
得到的準確率是0.752。
二、結論以及建議
在主成份分析中,對每個變量間的關系進行了分析,發現25個變量的選取很好,彼此間相關性比較小,也從側面證明了,評價機構選取的評測依據是有代表性的。
用了四種方法對德國信貸評價進行了訓練預測,結果準確率由高到低為:逐步回歸的準確率0.753、支持向量機的準確率0,752、多元線性回歸的準確率0.742、BP神經網絡的準確率0.68。
如果希望盡量用少的變量對數據結果進行預測的話,可以做回歸分析,選取更具代表性的特征進行分析。
參考文獻:
[1]郭娟,基于BP神經網絡的中國鐵礦石需求量預測[J].國土資源情報,2009.1
[2]王磊,基于主成分分析的支持向量機回歸預測模型[J].信息技術,2008.12
[3]薛毅,陳立萍,R統計建模與R軟件[M].清華大學出版社,2009
[4]梁文光,廣東省GDP時間序列預測-基于神經網絡與ARIMA模型[J].技術與市場,2010