999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成式人工智能算法的分類預測

2020-10-21 04:49:45徐勇
科學導報·學術 2020年26期
關鍵詞:人工智能

徐勇

摘 要:本文將集成式人工智能算法——梯度提升樹算法應用到了特征信息有缺失的帶標簽樣本的分類預測中,通過和其它分類算法比較看出集成式算法在準確度和ROC、AUC等分類性能指標上有著明顯的優勢。

關鍵詞:人工智能;集成式;分類預測

一、引言

近些年,人工智能技術因所依賴的硬件環境的改善得到了更為廣泛的應用。概括地說,人工智能技術是利用計算機軟硬件通過程序設計來實現人類智能的技術科學。從應用領域的角度來講,人工智能技術又可以大致分為模式識別、機器學習、智能算法和數據挖掘等方面。本文關注的就是利用數據挖掘中的集成式算法對樣本數據實現分類預測。

集成式的數據挖掘算法比較多。所謂集成是指將多個同類算法進行有機結合實現聯合決策的過程。比較經典隨機森林算法就是通過隨機組合將多課決策樹聯合通過投票的方式確定樣本的類別。以此為基礎發展得到一些諸如AdaBoost,GBDT(Gradient Boosting Decision Tree)等集成式算法,尤其是GBDT算法,作為一種迭代的決策樹算法,聯合多課決策樹通過迭代的過程對歷次預測產生的殘差進行擬合以達到較高的訓練精度。它和支持向量機都被認為是泛化能力較強的樣本分類算法。本文也將通過實例比較二者的分類性能。

二、基于集成式人工智能算法GBDT的分類預測

以一個確定的帶標簽的數據集為例。這里選取記錄了泰坦尼克號沉沒事件中的乘客身份信息以及最終幸存與否的數據表。根據歷史記錄,泰坦尼克號上共計1316位乘客。每位乘客均帶有年齡,性別,座號等信息。另外用標簽0標注乘客死亡,1標注乘客生還。這樣就個構成了一個包含1316條樣本的數據表。表一呈現了部分乘客的信息。可以注意到每位乘客包含座位等級,姓名,年齡,性別等十個特征信息。而“survived”則是幸存與否,用0和1區別。因年代原因不少信息都是殘缺的,只能用“NaN”來記錄,在實際數據分析中,我們采用該特征的其它記錄值的均值來代替這些缺失值。現在目的則是利用集成式的人工智能算法GBDT、隨機森林和公認分類學習能力比較出色的支持向量機(SVC)來學習這些樣本的信息,從而訓練出預測模型。

根據預測模型的構建原理,我們將1316條數據分為訓練集和測試集。訓練集顧名思義是用于讓算法學習數據訓練模型的,而測試集則是檢驗模型的性能。為比較公平,三種分類算法不指定參數,均采用默認設置以讓算法自動充分地學習訓練集數據。考慮到這些算法在學習數據時某些環節的隨機性,我們對每個算法均運行50次,通過平均性能,包括平均準確率、平均AUC等值反映三種算法的性能。

三、模型性能的比較

首先通過比較直觀的ROC曲線圖反映一次學習后三種算法的性能比較。ROC曲線圖的出現是為了解決僅通過模型對測試集樣本預測的準確率來反映模型性能不夠科學的問題,尤其是在不平衡的數據集中。例如若測試集由199個正類和1個負類樣本組成,則即使不用分類算法直接把所有樣本都預測為正類,準確率也非常高。所以準確率不足以反映模型的性能,這時需要正類樣本被正確歸類(真的正類)的比例tpr和正類樣本被錯誤歸類(假的正類)的比例fpr來綜合反映模型性能。ROC曲線正是反映了tpr和fpr隨著算法閾值變化的曲線圖。圖1是此次預測的ROC曲線圖。圖中按圖例表示的不同形狀的曲線是此次預測的三種算法的ROC曲線,它代表模型對正類樣本正確分類的比率(tpr)和對正類樣本錯分的比率(fpr)。在以fpr為橫軸tpr為縱軸的ROC曲線圖里,顯然曲線越靠近左上角表明性能越好。

從圖1可以看出整體而言,在不同的閾值下,GBDT算法的整體的性能更好,總體上其ROC曲線是位于其它兩種算法之上的。相對而言在閾值較小時,支持向量機SVC性能比擬于GBDT而優于隨機森林RF,在閾值較大時,三種算法的性能幾乎沒有差別。但這僅僅是對測試集一次預測的性能比較,考慮到切分數據集的隨機性,這還不夠全面。所以我們對每種算法實施50輪預測,對50次預測的準確率和ROC曲線的線下面積AUC都取均值來比較三種算法的預測性能。平均準確率具體結果隨機森林,GBDT和SVC分別為0.815,0.824和0.809。結果顯示就平均準確率而言,GBDT最優,隨機森林次之,SVC稍稍落后。ROC線下面積AUC的具體結果隨機森林,GBDT和SVC分別為0.816,0.838和0.822。結果顯示就平均AUC而言GBDT最優,SVC次之而隨機森林稍稍落后。考慮到數據表本身很多數據都是缺失的,這些算法的準確率和對正負類樣本分別正確判斷的能力都是令人滿意的。

參考文獻

[1] 結合隨機森林面向對象的森林資源分類 王猛等 測繪學報 2020 第49卷 第2期 P235-244

[2] 采用單類隨機森林的異常檢測方法及應用 張西寧等 西安交通大學學報 2020 第2期 P1-8

[3] 面向高維特征和多分類的分布式梯度提升樹 江佳偉等 軟件學報 2019 第30卷 第3期 P784-798

[4] 基于梯度提升樹的飛機機身對接狀態識別 蔡暢等 浙江大學學報(工學版)2019 第7期 P1274-1281

[5] 定點孿生支持向量機 劉嶠等 控制與決策 2020 第35卷 第2期 P272-284

[6] 基于支持向量機的線化簡方法 段佩祥等 武漢大學學報(信息科學版) 2020第5期 P744-752

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 国产办公室秘书无码精品| 无码综合天天久久综合网| 欧美成人怡春院在线激情| 无码国产伊人| 亚洲最新网址| 国产精品久久自在自线观看| 日韩欧美国产成人| a毛片在线| 国产色婷婷视频在线观看| 亚洲国产精品美女| 久久国产精品娇妻素人| 精品伊人久久久大香线蕉欧美 | 手机在线免费不卡一区二| 日韩无码视频专区| 亚洲毛片网站| 国产成人a在线观看视频| 国产原创第一页在线观看| 无遮挡国产高潮视频免费观看| 尤物特级无码毛片免费| 国产亚洲精品资源在线26u| 色一情一乱一伦一区二区三区小说| 91丨九色丨首页在线播放| 欧美综合激情| 国产91视频免费观看| 亚洲AV成人一区国产精品| 国产色伊人| 天天躁夜夜躁狠狠躁躁88| 强乱中文字幕在线播放不卡| 国产精品永久不卡免费视频| 全部无卡免费的毛片在线看| 亚洲男人天堂2020| 2019国产在线| 亚洲精品无码AV电影在线播放| 亚洲国产欧美国产综合久久| 国产午夜一级淫片| 国产成人高清精品免费| 久久国产拍爱| 亚洲一区网站| 亚亚洲乱码一二三四区| 青青极品在线| 国产精品女在线观看| 亚洲一级无毛片无码在线免费视频| 色婷婷狠狠干| 青青草a国产免费观看| 日日碰狠狠添天天爽| 999精品视频在线| 亚洲无码精彩视频在线观看| 国产成人精品18| 伊在人亞洲香蕉精品區| 日本www色视频| 亚洲AV永久无码精品古装片| 无码AV日韩一二三区| 狠狠色综合久久狠狠色综合| 免费在线成人网| 国产亚洲精品91| 中文无码伦av中文字幕| 中文字幕免费视频| 久久综合干| 久久久国产精品免费视频| 九色91在线视频| 国产三级a| 欧美一区二区自偷自拍视频| 亚洲天堂777| 超清无码熟妇人妻AV在线绿巨人| 欧美 亚洲 日韩 国产| 亚洲水蜜桃久久综合网站| 亚洲欧美另类视频| a毛片在线| 日本国产在线| 在线欧美国产| 91久久偷偷做嫩草影院| 亚洲欧美极品| 国产精品视频猛进猛出| 一级全免费视频播放| 亚洲欧美日韩中文字幕在线| 国产人前露出系列视频| 亚洲全网成人资源在线观看| 国产内射一区亚洲| 久久窝窝国产精品午夜看片| 日韩A∨精品日韩精品无码| 中文字幕佐山爱一区二区免费| 日韩免费成人|