999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BlSMOTE-RF模型融合的非均衡數據分類預測

2025-07-20 00:00:00焦陽劉文開
電腦知識與技術 2025年17期
關鍵詞:深度學習

摘要:針對分類樣本不均衡問題,提出一種基于BlSMOTE-RF的模型融合方法。首先,利用BlSMOTE平衡數據集;然后,基于隨機森林對特征重要性進行排序與特征選擇;最后,采用多項式擬合方法融合LSTM、邏輯回歸、LASSO、隨機森林和嶺回歸五種模型的預測結果,并在新的測試集上檢驗。實驗結果表明,該方法在準確率、精準率、召回率和F1分數上均優于單一模型。

關鍵詞:樣本不均衡;BlSMOTE;隨機森林;模型融合;深度學習

中圖分類號:TP301.6" " " 文獻標識碼:A

文章編號:1009-3044(2025)17-0063-03

開放科學(資源服務) 標識碼(OSID)

0 引言

分類預測在教育、金融和醫療等領域應用廣泛[1-3]。然而,樣本不均衡問題常常影響分類模型的性能[4]。為了解決這一問題,提出一種基于BlSMOTE-RF的模型融合方法,并通過實驗驗證其有效性。該方法首先對原數據進行重采樣以平衡數據分布,而重采樣又包括過采樣和欠采樣[5],從其中的6種方法擇優,最終使用BlSMOTE (Borderline Synthetic Minority Over-sampling Technique) 平衡數據集,然后利用隨機森林(Random Forest, RF) 進行特征選擇,最后融合多種分類模型的預測結果,并與各單一模型預測結果進行對比。

1 研究方法

1.1 分類樣本不均衡

樣本中不同類別的樣本數量差異非常大,稱為數據樣本分布不均衡。分類樣本的不均衡會導致樣本數量較少的分類包含的特征過少,建立的模型容易產生過擬合問題。將研究對象按成癮度類別分為0(對手機沒有上癮)和1(對手機上癮),兩種類別的樣本分布如圖1所示,可見類別為0的數量遠大于類別為1的數量,分類樣本嚴重不均衡。

處理分類樣本不均衡問題可采用的方法有過采樣、欠采樣、混合采樣和集成采樣。過采樣把較少類別的樣本復制多份,使之與較多類別的樣本數量相等或接近,缺點是容易造成模型過擬合;欠采樣通過刪除較多類別樣本中的部分樣本,使之與較少類別的樣本數量相等或接近,缺點是可能損失有用的信息,容易造成模型欠擬合。混合采樣和集成采樣較為復雜,選取了6種方法:過采樣的SMOTE、BlSMOTE、ADASYN方法[6-8]和欠采樣的RandomUnderSampler(imbalanced-learn庫函數之一), ClusterCentroids,NearMiss方法[9-11]。不同方法得到的分類樣本符合均衡的要求,建立對應的模型并對模型評估,根據評估指標的值來選擇最優的采樣方法。

SMOTE算法是Chawla等人[12]提出的一種智能型過采樣技術,但由于它是通過隨機選擇少數類樣本來生成新樣本,沒有考慮到所選少數類樣本周圍的情況,因此合成的新樣本質量較差,提供不了更多有用信息。Border-line SMOTE(BlSMOTE)算法在SMOTE算法上進行改進,通過少數類的邊界點來合成新樣本,因而 BlSMOTE只對那些靠近“邊界”的少數類樣本進行人工合成樣本,在一定程度上避免了新合成的少數類樣本與多數類樣本的重疊交叉。實驗結果表明,BlSMOTE算法分類效果優于SMOTE算法,并且在處理類別不平衡數據時表現出更好的性能。在后面的各種均衡方法的評估指標對比上,也可發現作為改進的SMOTE方法,BlSMOTE方法的各項指標都優于SMOTE方法。

1.2 基于隨機森林的特征重要性計算

特征選擇即篩選比較重要的特征以建立泛化能力強的模型,可以提高模型預測的準確率。隨機森林是以樹模型為基礎的集成學習算法,借助其自帶的函數評估特征重要性較為簡單,然后對數據集全部特征按重要性降序排序,最后依次選取前n個特征,比較模型評估的指標以確定最佳的n的值。

1.3 常用分類預測方法

分類預測的方法有很多,此處選擇了5種常見的方法,根據不同模型的評估指標觀察不同方法的優、缺點,再把不同預測結果融合。作為首選的分類方法,隨機森林RF是利用多棵決策樹(Tree)對樣本進行訓練并預測的一種分類器。它是一種特殊的bagging方法,將決策樹用作bagging中的模型。RF可以快速處理包含大量特征變量的數據,并在決定類別時評估全部特征的重要性。對于不均衡的分類樣本,它還可以平衡誤差。稀疏化模型LASSO(Least Absolute Shrinkage and Selection Operator)是一種用于估計稀疏線性模型的方法,由Robert Tibshirani在1996年首次提出。LASSO模型通過引入L1范數懲罰項,使得一些不重要的回歸系數收縮至零,從而實現特征選擇和模型簡化[13]。在處理復雜的數據的回歸問題時,普通的線性回歸會遇到預測精度和模型的解釋能力上的問題,而嶺回歸(Ridge Regression) 作為一種線性回歸的擴展,通過在損失函數中添加正則化項(L2范數)可解決線性回歸中可能存在的過擬合問題。韓浦城等采用嶺回歸方法建立5月華南氣溫的嶺回歸預測模型,擬合效果較好并對異常年份有較好的預測能力[14]。邏輯回歸(Logistic regression, LR)是一種重要的、有監督的分類算法,對線性回歸對異常數據敏感的不足進行了優化改進。然而,當面對高維、不確定性和線性不可分數據時,邏輯回歸的分類效果受到限制[15]。長短期記憶神經網絡(Long Short-Term Memory, LSTM) 的設計基于循環神經網絡的重復的鏈式形式,每一個單元看作一個block,每個block都具有輸入門、遺忘門和輸出門[16]。參考了前人制作的比較通俗易懂的LSTM結構圖[17],如圖2所示。

圖2中,A代表一個LSTM單元,在不同時序時候的狀態用C表示;X為輸入,h為輸出;t-1、t和t+1分別代表上一個時間,當前時間和下一個時間。G1、G2和G3分別代表忘記門、輸入門和輸出門。σ表示sigmod函數,tanh為激活函數[18]。

1.4 模型融合方法

目前單體預測模型存在模型不穩定和泛化能力不強等問題,而模型融合的方法可以一定程度上改善這種狀況[19]。模型融合就是訓練多個模型,根據每個模型的優點,按照一定的方法把這些模型組合起來,以加強模型的效果。模型融合常用方法有:對模型結果簡單平均、加權平均、sigmoid平均、bagging和blending等。這里提出一種多元線性擬合的方法,其本質就是多項式擬合[20]。多元擬合是指使用多個自變量來估計一個因變量的值。令因變量為y,自變量為x1、x2、x3、...、xn,則多元線性擬合公式如公式1所示:

[y=α1x1+α2x2+α3x3+...+αnxn+β] " (1)

公式中β代表截距,a代表回歸系數,n代表自變量個數。把各模型預測的結果作為自變量,建立多元線性回歸模型。模型參數的確定使用最小二乘法,通過最小化殘差平方和來找到參數估計。找到一組參數值,通過求解正規方程組,使得觀測值與擬合值之間的差異(即殘差) 的平方和達到最小。由此找到合適的參數,使得擬合值盡量接近真實值,然后應用于新的測試集上以檢測預測效果。

2 實驗與結果分析

2.1 數據預處理

1) 數據清洗。數據清洗是指發現并糾正數據文件中可識別的錯誤。大學生手機成癮調查問卷共918份,經人工初步檢查,對明顯有異常的值進行糾正,然后需要使用計算機清洗掉“臟數據”。實驗采用 Pandas 庫提供的功能來處理重復的行、缺失的數據、添加默認值、刪除不完整的行、刪除不完整的列、規范化數據類型、重命名列名等。例如,刪除含有缺失值的行,采用了DataFrame.Dropna()函數,設置參數inplace為True可以替換原來的數據集。限于篇幅,此處不再一一列出其他功能的實現內容。發現存在,剔除含有缺失值的資料、人工修改異常值后,得到一個900行、11列的二維數據集。其中11列的列名(特征變量名)分別是:學號、手機成癮總分、性別、所在年級、是否獨生子女、生源地、自身健康狀況、家庭和睦程度、社交焦慮總分、自我接納總分和領悟社會支持總分。

2) 分級。分類預測中,目標變量不能是連續型數值,只能是分類型變量,因此數據預處理階段還要對目標變量進行基于閾值的分級,即設定一個閾值,根據目標變量的值是否超過這個閾值來劃分等級。根據心理學經驗與技巧,以51為閾值,把手機成癮總分這列數據二分類,低于51的等級記為0,反之記為1。0表示為大學生對手機沒有成癮,1表示為有癮。二分類比較簡單,如果需要進一步研究,還可考慮多級分類、聚類分析和基于規則的分級。

3) 數據集拆分。建模前需要將數據集劃分為訓練集和測試集,然后訓練集會再分為訓練集與驗證集兩部分,訓練集負責訓練和學習,驗證集用于評價不同參數組合的效果,以確定最終模型。而測試集沒有參與模型的訓練過程,所以它可以對最終模型的泛化能力進行評價。從900條記錄中隨機抽取100條作為測試集,用來檢驗模型的預測效果。其余數據,再拆分為訓練集和驗證集,比例為8∶2,用來訓練模型。驗證集用來調節模型參數,可以在一定程度上避免過擬合訓練集。實驗中,數據集拆分采用了scikit-learn庫里的train_test_split函數來實現。

2.2 模型評估與選擇最優均衡樣本

采用多種方法令分類樣本均衡后,分別利用這些數據建立隨機森林模型并進行訓練。最后根據驗證集的預測結果對模型評估,評估的指標有交叉熵(cross-entropy error, CEE)、準確率(Accuracy)、精準率(Precision)、召回率(Recall)和F1分數。如表1所示,對比各項指標的值,選擇最優的BlSMOTE方法所得均衡樣本作為訓練集。

表1中,CEE是交叉熵損失,此指標在分類問題中應用更為廣泛,且不會出現梯度消失問題[21],其值越小越好。準確率是分類正確的樣本占總樣本個數,是分類問題中最簡單最直觀的評價指標。精確率指模型預測為正的樣本中,實際也為正的樣本占被預測為正的樣本的比例。召回率指實際為正的樣本中,預測也為正的樣本占實際為正的樣本的比例。F1分數是精確率和召回率的加權平均值。

2.3 特征重要性排序與特征選擇

特征選擇(Feature Subset Selection, FSS)是從原始特征中選擇出一些最有效特征以降低數據集維度的過程。特征選擇前需要對全部特征的重要性進行排序,對于數量不多的調查問卷應用研究上,選擇隨機森林回歸器(Random Forest Regressor)最好,因為隨機森林本身就自帶計算特征重要性的函數,特征重要性可以通過計算每個特征的平均不純度減少來衡量,再根據特征重要性進行降序排列。實驗對樣本的全部9個特征的重要性進行排序,結果以柱狀圖形式呈現,如圖3所示。

2.4 分類預測方案篩選和模型融合

分類預測模型按前面所述,選擇了5種,每種模型在訓練時又根據特征選擇的數量而出現9種情形,由此得到在測試集上的45種預測結果。受篇幅限制,表2僅列出部分情形的模型在測試機上的評估結果。然后綜合考慮多個評估指標,選擇較好的幾種方案。

從表2可見,評估指標值在總體上都不理想,因此需要每種模型選擇其誤差較小且準確率等較高的情形,然后對所選方案的測試集上的預測結果進行多元線性擬合,依據公式(1) 得到最終擬合公式的n為5,截距為0.098 216,回歸系數矩陣如表3所示。

2.5 模型融合法的檢驗

比較原測試集的真實值和擬合值,可以得到預測效果的各種評估指標值,如表3所示,并與表2對比,可見模型融合后,各指標值有顯著的提升。為檢驗模型融合方法的泛化性和有效性,引入最新獲取的18個調查問卷數據作為新測試集,把基于BlSMOTE-RF的模型融合方法應用在新測試集分類預測上,得到預測結果的評分與原測試集對比,仍然數值較高,證明了該方法的有效性,如表4所示。

3 結束語

實驗表明,對大學生手機是否成癮的調查中,問卷的社交焦慮總分、自我接納總分和領悟社會支持總分是最為重要的影響因素;BlSMOTE方法預處理的數據集用來訓練模型時,模型的分類預測能力最強;基于特征森林的特征選擇可優化模型;通過多項式擬合方法對多種模型結果進行融合,可以明顯提高測試集預測效果,評價指標達到80%以上。該方法應用于新的測試集,評價指標仍能保持80%左右,證明了所研究方法的準確性和穩定性。提出的 BlSMOTE-RF 模型融合方法有效提高了非均衡數據分類預測的準確性。未來研究可以探索其他采樣方法、特征選擇方法和模型融合方法,并將其應用于更復雜的數據集。

參考文獻:

[1] 孫瑜,李占利,李學文.特征融合和集成學習在大學生助學金預測中的應用[J].西安科技大學學報,2020,40(4):744-750.

[2] 吳成英,馬東方.基于改進XGBoost的金融客戶投資行為特征選擇方法[J].計算機應用,2024,44(S1):330-336.

[3] 高珊,李世杰,蔡志平.基于深度學習的中文文本分類綜述[J].計算機工程與科學,2024,46(4):684-692.

[4] 劉冬,翁海光,陳一民.一種處理嚴重不均衡數據的BERT-BiGRU-WCELoss短文本警情分類模型[J].計算機應用與軟件,2024,41(9):217-223,229.

[5] 陰愛英,吳運兵,楊曉花.面向制造業不平衡數據的混合采樣算法[J].計算機工程與設計,2018,39(4):1053-1058.

[6] 王曉霞,李雷孝,林浩.SMOTE類算法研究綜述[J].計算機科學與探索,2024,18(5):1135-1159.

[7] 馬賀,宋媚,祝義.改進邊界分類的Borderline-SMOTE過采樣方法[J].南京大學學報(自然科學),2023,59(6):1003-1012.

[8] 汪萬敏,智路平.基于ADASYN-SFS-RF的欺詐檢測模型泛化性能提升及可解釋性研究[J].計算機應用研究,2022,39(12):3605-3613.

[9] 凌燦城.基于Bagging+RUS+RF算法對營銷成敗的預測[J].數學的實踐與認識,2020,50(20):63-70.

[10] 吳正江,楊天,鄭愛玲,等.融合擬單層覆蓋粗集的集值數據平衡方法研究[J].計算機工程與應用,2022,58(19):166-173.

[11] 羅云松,黃慕宇,賈韜.重采樣在微博機器人識別中的應用研究[J].中文信息學報,2021,35(12):133-148.

[12] CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[13] 謝夢龍,葉新宇,張升,等.LASSO算法及其在邊坡穩定性分析中的應用[J].巖土工程學報,2021,43(9):1724-1729.

[14] 韓浦城,紀忠萍.5月華南氣溫的嶺回歸預測模型[J].應用氣象學報,2024,35(4):480-492.

[15] 申冰可,邵林芳.決策樹模型與logistic回歸探究大學生入黨意愿自身影響因素及結果預測[J].電腦知識與技術,2022,18(8):26-28.

[16] 陳晗頔,趙婷婷.基于長短期記憶神經網絡的車輛邊緣計算卸載策略[J].計算機應用與軟件,2021,38(7):53-59.

[17] JIAO F,HUANG T W.Analysis and forecast of college student canteen consumption based on TL-LSTM[J].Journal of Data,Information and Management,2024,6(2):173-184.

[18] 黃天文,焦飛,伍志方.一種基于遷移學習和長短期記憶神經網絡的降水預報方法[J].暴雨災害,2024,43(1):45-53.

[19] 孫朝云,杜耀輝,裴莉莉,等.基于逆方差多模型融合的空氣質量指數預測方法[J].環境工程,2023,41(2):197-204.

[20] 石磊,張冀,秦順友.多項式擬合技術在天線增益測量中的應用研究[J].現代電子技術,2024,47(11):22-25.

[21] 胡夢婷,羅晨.基于MCNN-LSTM和交叉熵損失函數的軸承故障診斷[J].制造技術與機床,2024(9):16-22.

【通聯編輯:王 力】

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 五月婷婷亚洲综合| 国产免费好大好硬视频| 国产色伊人| 久久青草热| 午夜啪啪福利| 中文字幕久久亚洲一区| 国产精品九九视频| 国产在线91在线电影| 中文字幕无线码一区| 国产亚洲成AⅤ人片在线观看| 永久天堂网Av| 国产精品女同一区三区五区| 国产91熟女高潮一区二区| 首页亚洲国产丝袜长腿综合| 色综合久久88色综合天天提莫| 欧美亚洲另类在线观看| 亚洲成a人片77777在线播放| 亚洲中文字幕久久精品无码一区 | 国产香蕉97碰碰视频VA碰碰看| 国产乱视频网站| 精品国产成人av免费| 亚洲精品国产成人7777| 美女国产在线| 免费国产高清精品一区在线| 中国毛片网| 欧美一区精品| 亚洲女同欧美在线| 亚洲精品国偷自产在线91正片| 免费国产小视频在线观看| 香蕉久人久人青草青草| 久青草网站| 国产精品亚欧美一区二区| 国产精品永久不卡免费视频| 午夜精品福利影院| 亚洲人成网7777777国产| 丁香五月婷婷激情基地| 亚洲av片在线免费观看| 日韩少妇激情一区二区| 中文字幕在线免费看| 久久综合九色综合97网| 国产91在线免费视频| 综合天天色| 人妻精品全国免费视频| 国产欧美成人不卡视频| 一本一本大道香蕉久在线播放| 色悠久久综合| 国产不卡一级毛片视频| 五月激激激综合网色播免费| 亚洲综合九九| 免费激情网站| 日韩小视频在线播放| 五月婷婷精品| 午夜天堂视频| 九色91在线视频| 91麻豆精品国产高清在线| 自拍偷拍欧美日韩| 亚洲妓女综合网995久久 | 中文字幕首页系列人妻| av一区二区三区在线观看| 亚洲日本韩在线观看| 性欧美久久| 91综合色区亚洲熟妇p| 毛片大全免费观看| 看国产一级毛片| 久久激情影院| 欧美a在线| 欧美激情,国产精品| 亚洲日韩精品无码专区| 亚洲高清中文字幕| 国产另类乱子伦精品免费女| 久视频免费精品6| 久久精品国产999大香线焦| 一区二区无码在线视频| 幺女国产一级毛片| 亚洲第一色网站| 久久综合色天堂av| 伊人网址在线| 国产精品丝袜在线| 久久久久国产一级毛片高清板| 国产精品福利导航| 免费高清自慰一区二区三区| 伊人精品视频免费在线|