徐勇


摘 要:本文將集成式人工智能算法——梯度提升樹算法應用到了特征信息有缺失的帶標簽樣本的分類預測中,通過和其它分類算法比較看出集成式算法在準確度和ROC、AUC等分類性能指標上有著明顯的優勢。
關鍵詞:人工智能;集成式;分類預測
一、引言
近些年,人工智能技術因所依賴的硬件環境的改善得到了更為廣泛的應用。概括地說,人工智能技術是利用計算機軟硬件通過程序設計來實現人類智能的技術科學。從應用領域的角度來講,人工智能技術又可以大致分為模式識別、機器學習、智能算法和數據挖掘等方面。本文關注的就是利用數據挖掘中的集成式算法對樣本數據實現分類預測。
集成式的數據挖掘算法比較多。所謂集成是指將多個同類算法進行有機結合實現聯合決策的過程。比較經典隨機森林算法就是通過隨機組合將多課決策樹聯合通過投票的方式確定樣本的類別。以此為基礎發展得到一些諸如AdaBoost,GBDT(Gradient Boosting Decision Tree)等集成式算法,尤其是GBDT算法,作為一種迭代的決策樹算法,聯合多課決策樹通過迭代的過程對歷次預測產生的殘差進行擬合以達到較高的訓練精度。它和支持向量機都被認為是泛化能力較強的樣本分類算法。本文也將通過實例比較二者的分類性能。
二、基于集成式人工智能算法GBDT的分類預測
以一個確定的帶標簽的數據集為例。這里選取記錄了泰坦尼克號沉沒事件中的乘客身份信息以及最終幸存與否的數據表。根據歷史記錄,泰坦尼克號上共計1316位乘客。每位乘客均帶有年齡,性別,座號等信息。另外用標簽0標注乘客死亡,1標注乘客生還。這樣就個構成了一個包含1316條樣本的數據表。表一呈現了部分乘客的信息。可以注意到每位乘客包含座位等級,姓名,年齡,性別等十個特征信息。而“survived”則是幸存與否,用0和1區別。因年代原因不少信息都是殘缺的,只能用“NaN”來記錄,在實際數據分析中,我們采用該特征的其它記錄值的均值來代替這些缺失值。現在目的則是利用集成式的人工智能算法GBDT、隨機森林和公認分類學習能力比較出色的支持向量機(SVC)來學習這些樣本的信息,從而訓練出預測模型。
根據預測模型的構建原理,我們將1316條數據分為訓練集和測試集。訓練集顧名思義是用于讓算法學習數據訓練模型的,而測試集則是檢驗模型的性能。為比較公平,三種分類算法不指定參數,均采用默認設置以讓算法自動充分地學習訓練集數據。考慮到這些算法在學習數據時某些環節的隨機性,我們對每個算法均運行50次,通過平均性能,包括平均準確率、平均AUC等值反映三種算法的性能。
三、模型性能的比較
首先通過比較直觀的ROC曲線圖反映一次學習后三種算法的性能比較。ROC曲線圖的出現是為了解決僅通過模型對測試集樣本預測的準確率來反映模型性能不夠科學的問題,尤其是在不平衡的數據集中。例如若測試集由199個正類和1個負類樣本組成,則即使不用分類算法直接把所有樣本都預測為正類,準確率也非常高。所以準確率不足以反映模型的性能,這時需要正類樣本被正確歸類(真的正類)的比例tpr和正類樣本被錯誤歸類(假的正類)的比例fpr來綜合反映模型性能。ROC曲線正是反映了tpr和fpr隨著算法閾值變化的曲線圖。圖1是此次預測的ROC曲線圖。圖中按圖例表示的不同形狀的曲線是此次預測的三種算法的ROC曲線,它代表模型對正類樣本正確分類的比率(tpr)和對正類樣本錯分的比率(fpr)。在以fpr為橫軸tpr為縱軸的ROC曲線圖里,顯然曲線越靠近左上角表明性能越好。
從圖1可以看出整體而言,在不同的閾值下,GBDT算法的整體的性能更好,總體上其ROC曲線是位于其它兩種算法之上的。相對而言在閾值較小時,支持向量機SVC性能比擬于GBDT而優于隨機森林RF,在閾值較大時,三種算法的性能幾乎沒有差別。但這僅僅是對測試集一次預測的性能比較,考慮到切分數據集的隨機性,這還不夠全面。所以我們對每種算法實施50輪預測,對50次預測的準確率和ROC曲線的線下面積AUC都取均值來比較三種算法的預測性能。平均準確率具體結果隨機森林,GBDT和SVC分別為0.815,0.824和0.809。結果顯示就平均準確率而言,GBDT最優,隨機森林次之,SVC稍稍落后。ROC線下面積AUC的具體結果隨機森林,GBDT和SVC分別為0.816,0.838和0.822。結果顯示就平均AUC而言GBDT最優,SVC次之而隨機森林稍稍落后。考慮到數據表本身很多數據都是缺失的,這些算法的準確率和對正負類樣本分別正確判斷的能力都是令人滿意的。
參考文獻
[1] 結合隨機森林面向對象的森林資源分類 王猛等 測繪學報 2020 第49卷 第2期 P235-244
[2] 采用單類隨機森林的異常檢測方法及應用 張西寧等 西安交通大學學報 2020 第2期 P1-8
[3] 面向高維特征和多分類的分布式梯度提升樹 江佳偉等 軟件學報 2019 第30卷 第3期 P784-798
[4] 基于梯度提升樹的飛機機身對接狀態識別 蔡暢等 浙江大學學報(工學版)2019 第7期 P1274-1281
[5] 定點孿生支持向量機 劉嶠等 控制與決策 2020 第35卷 第2期 P272-284
[6] 基于支持向量機的線化簡方法 段佩祥等 武漢大學學報(信息科學版) 2020第5期 P744-752