摘要:針對分類樣本不均衡問題,提出一種基于BlSMOTE-RF的模型融合方法。首先,利用BlSMOTE平衡數據集;然后,基于隨機森林對特征重要性進行排序與特征選擇;最后,采用多項式擬合方法融合LSTM、邏輯回歸、LASSO、隨機森林和嶺回歸五種模型的預測結果,并在新的測試集上檢驗。實驗結果表明,該方法在準確率、精準率、召回率和F1分數上均優于單一模型。
關鍵詞:樣本不均衡;BlSMOTE;隨機森林;模型融合;深度學習
中圖分類號:TP301.6" " " 文獻標識碼:A
文章編號:1009-3044(2025)17-0063-03
開放科學(資源服務) 標識碼(OSID)
0 引言
分類預測在教育、金融和醫療等領域應用廣泛[1-3]。然而,樣本不均衡問題常常影響分類模型的性能[4]。為了解決這一問題,提出一種基于BlSMOTE-RF的模型融合方法,并通過實驗驗證其有效性。該方法首先對原數據進行重采樣以平衡數據分布,而重采樣又包括過采樣和欠采樣[5],從其中的6種方法擇優,最終使用BlSMOTE (Borderline Synthetic Minority Over-sampling Technique) 平衡數據集,然后利用隨機森林(Random Forest, RF) 進行特征選擇,最后融合多種分類模型的預測結果,并與各單一模型預測結果進行對比。
1 研究方法
1.1 分類樣本不均衡
樣本中不同類別的樣本數量差異非常大,稱為數據樣本分布不均衡。分類樣本的不均衡會導致樣本數量較少的分類包含的特征過少,建立的模型容易產生過擬合問題。將研究對象按成癮度類別分為0(對手機沒有上癮)和1(對手機上癮),兩種類別的樣本分布如圖1所示,可見類別為0的數量遠大于類別為1的數量,分類樣本嚴重不均衡。
處理分類樣本不均衡問題可采用的方法有過采樣、欠采樣、混合采樣和集成采樣。過采樣把較少類別的樣本復制多份,使之與較多類別的樣本數量相等或接近,缺點是容易造成模型過擬合;欠采樣通過刪除較多類別樣本中的部分樣本,使之與較少類別的樣本數量相等或接近,缺點是可能損失有用的信息,容易造成模型欠擬合。混合采樣和集成采樣較為復雜,選取了6種方法:過采樣的SMOTE、BlSMOTE、ADASYN方法[6-8]和欠采樣的RandomUnderSampler(imbalanced-learn庫函數之一), ClusterCentroids,NearMiss方法[9-11]。不同方法得到的分類樣本符合均衡的要求,建立對應的模型并對模型評估,根據評估指標的值來選擇最優的采樣方法。
SMOTE算法是Chawla等人[12]提出的一種智能型過采樣技術,但由于它是通過隨機選擇少數類樣本來生成新樣本,沒有考慮到所選少數類樣本周圍的情況,因此合成的新樣本質量較差,提供不了更多有用信息。Border-line SMOTE(BlSMOTE)算法在SMOTE算法上進行改進,通過少數類的邊界點來合成新樣本,因而 BlSMOTE只對那些靠近“邊界”的少數類樣本進行人工合成樣本,在一定程度上避免了新合成的少數類樣本與多數類樣本的重疊交叉。實驗結果表明,BlSMOTE算法分類效果優于SMOTE算法,并且在處理類別不平衡數據時表現出更好的性能。在后面的各種均衡方法的評估指標對比上,也可發現作為改進的SMOTE方法,BlSMOTE方法的各項指標都優于SMOTE方法。
1.2 基于隨機森林的特征重要性計算
特征選擇即篩選比較重要的特征以建立泛化能力強的模型,可以提高模型預測的準確率。隨機森林是以樹模型為基礎的集成學習算法,借助其自帶的函數評估特征重要性較為簡單,然后對數據集全部特征按重要性降序排序,最后依次選取前n個特征,比較模型評估的指標以確定最佳的n的值。
1.3 常用分類預測方法
分類預測的方法有很多,此處選擇了5種常見的方法,根據不同模型的評估指標觀察不同方法的優、缺點,再把不同預測結果融合。作為首選的分類方法,隨機森林RF是利用多棵決策樹(Tree)對樣本進行訓練并預測的一種分類器。它是一種特殊的bagging方法,將決策樹用作bagging中的模型。RF可以快速處理包含大量特征變量的數據,并在決定類別時評估全部特征的重要性。對于不均衡的分類樣本,它還可以平衡誤差。稀疏化模型LASSO(Least Absolute Shrinkage and Selection Operator)是一種用于估計稀疏線性模型的方法,由Robert Tibshirani在1996年首次提出。LASSO模型通過引入L1范數懲罰項,使得一些不重要的回歸系數收縮至零,從而實現特征選擇和模型簡化[13]。在處理復雜的數據的回歸問題時,普通的線性回歸會遇到預測精度和模型的解釋能力上的問題,而嶺回歸(Ridge Regression) 作為一種線性回歸的擴展,通過在損失函數中添加正則化項(L2范數)可解決線性回歸中可能存在的過擬合問題。韓浦城等采用嶺回歸方法建立5月華南氣溫的嶺回歸預測模型,擬合效果較好并對異常年份有較好的預測能力[14]。邏輯回歸(Logistic regression, LR)是一種重要的、有監督的分類算法,對線性回歸對異常數據敏感的不足進行了優化改進。然而,當面對高維、不確定性和線性不可分數據時,邏輯回歸的分類效果受到限制[15]。長短期記憶神經網絡(Long Short-Term Memory, LSTM) 的設計基于循環神經網絡的重復的鏈式形式,每一個單元看作一個block,每個block都具有輸入門、遺忘門和輸出門[16]。參考了前人制作的比較通俗易懂的LSTM結構圖[17],如圖2所示。
圖2中,A代表一個LSTM單元,在不同時序時候的狀態用C表示;X為輸入,h為輸出;t-1、t和t+1分別代表上一個時間,當前時間和下一個時間。G1、G2和G3分別代表忘記門、輸入門和輸出門。σ表示sigmod函數,tanh為激活函數[18]。
1.4 模型融合方法
目前單體預測模型存在模型不穩定和泛化能力不強等問題,而模型融合的方法可以一定程度上改善這種狀況[19]。模型融合就是訓練多個模型,根據每個模型的優點,按照一定的方法把這些模型組合起來,以加強模型的效果。模型融合常用方法有:對模型結果簡單平均、加權平均、sigmoid平均、bagging和blending等。這里提出一種多元線性擬合的方法,其本質就是多項式擬合[20]。多元擬合是指使用多個自變量來估計一個因變量的值。令因變量為y,自變量為x1、x2、x3、...、xn,則多元線性擬合公式如公式1所示:
[y=α1x1+α2x2+α3x3+...+αnxn+β] " (1)
公式中β代表截距,a代表回歸系數,n代表自變量個數。把各模型預測的結果作為自變量,建立多元線性回歸模型。模型參數的確定使用最小二乘法,通過最小化殘差平方和來找到參數估計。找到一組參數值,通過求解正規方程組,使得觀測值與擬合值之間的差異(即殘差) 的平方和達到最小。由此找到合適的參數,使得擬合值盡量接近真實值,然后應用于新的測試集上以檢測預測效果。
2 實驗與結果分析
2.1 數據預處理
1) 數據清洗。數據清洗是指發現并糾正數據文件中可識別的錯誤。大學生手機成癮調查問卷共918份,經人工初步檢查,對明顯有異常的值進行糾正,然后需要使用計算機清洗掉“臟數據”。實驗采用 Pandas 庫提供的功能來處理重復的行、缺失的數據、添加默認值、刪除不完整的行、刪除不完整的列、規范化數據類型、重命名列名等。例如,刪除含有缺失值的行,采用了DataFrame.Dropna()函數,設置參數inplace為True可以替換原來的數據集。限于篇幅,此處不再一一列出其他功能的實現內容。發現存在,剔除含有缺失值的資料、人工修改異常值后,得到一個900行、11列的二維數據集。其中11列的列名(特征變量名)分別是:學號、手機成癮總分、性別、所在年級、是否獨生子女、生源地、自身健康狀況、家庭和睦程度、社交焦慮總分、自我接納總分和領悟社會支持總分。
2) 分級。分類預測中,目標變量不能是連續型數值,只能是分類型變量,因此數據預處理階段還要對目標變量進行基于閾值的分級,即設定一個閾值,根據目標變量的值是否超過這個閾值來劃分等級。根據心理學經驗與技巧,以51為閾值,把手機成癮總分這列數據二分類,低于51的等級記為0,反之記為1。0表示為大學生對手機沒有成癮,1表示為有癮。二分類比較簡單,如果需要進一步研究,還可考慮多級分類、聚類分析和基于規則的分級。
3) 數據集拆分。建模前需要將數據集劃分為訓練集和測試集,然后訓練集會再分為訓練集與驗證集兩部分,訓練集負責訓練和學習,驗證集用于評價不同參數組合的效果,以確定最終模型。而測試集沒有參與模型的訓練過程,所以它可以對最終模型的泛化能力進行評價。從900條記錄中隨機抽取100條作為測試集,用來檢驗模型的預測效果。其余數據,再拆分為訓練集和驗證集,比例為8∶2,用來訓練模型。驗證集用來調節模型參數,可以在一定程度上避免過擬合訓練集。實驗中,數據集拆分采用了scikit-learn庫里的train_test_split函數來實現。
2.2 模型評估與選擇最優均衡樣本
采用多種方法令分類樣本均衡后,分別利用這些數據建立隨機森林模型并進行訓練。最后根據驗證集的預測結果對模型評估,評估的指標有交叉熵(cross-entropy error, CEE)、準確率(Accuracy)、精準率(Precision)、召回率(Recall)和F1分數。如表1所示,對比各項指標的值,選擇最優的BlSMOTE方法所得均衡樣本作為訓練集。
表1中,CEE是交叉熵損失,此指標在分類問題中應用更為廣泛,且不會出現梯度消失問題[21],其值越小越好。準確率是分類正確的樣本占總樣本個數,是分類問題中最簡單最直觀的評價指標。精確率指模型預測為正的樣本中,實際也為正的樣本占被預測為正的樣本的比例。召回率指實際為正的樣本中,預測也為正的樣本占實際為正的樣本的比例。F1分數是精確率和召回率的加權平均值。
2.3 特征重要性排序與特征選擇
特征選擇(Feature Subset Selection, FSS)是從原始特征中選擇出一些最有效特征以降低數據集維度的過程。特征選擇前需要對全部特征的重要性進行排序,對于數量不多的調查問卷應用研究上,選擇隨機森林回歸器(Random Forest Regressor)最好,因為隨機森林本身就自帶計算特征重要性的函數,特征重要性可以通過計算每個特征的平均不純度減少來衡量,再根據特征重要性進行降序排列。實驗對樣本的全部9個特征的重要性進行排序,結果以柱狀圖形式呈現,如圖3所示。
2.4 分類預測方案篩選和模型融合
分類預測模型按前面所述,選擇了5種,每種模型在訓練時又根據特征選擇的數量而出現9種情形,由此得到在測試集上的45種預測結果。受篇幅限制,表2僅列出部分情形的模型在測試機上的評估結果。然后綜合考慮多個評估指標,選擇較好的幾種方案。
從表2可見,評估指標值在總體上都不理想,因此需要每種模型選擇其誤差較小且準確率等較高的情形,然后對所選方案的測試集上的預測結果進行多元線性擬合,依據公式(1) 得到最終擬合公式的n為5,截距為0.098 216,回歸系數矩陣如表3所示。
2.5 模型融合法的檢驗
比較原測試集的真實值和擬合值,可以得到預測效果的各種評估指標值,如表3所示,并與表2對比,可見模型融合后,各指標值有顯著的提升。為檢驗模型融合方法的泛化性和有效性,引入最新獲取的18個調查問卷數據作為新測試集,把基于BlSMOTE-RF的模型融合方法應用在新測試集分類預測上,得到預測結果的評分與原測試集對比,仍然數值較高,證明了該方法的有效性,如表4所示。
3 結束語
實驗表明,對大學生手機是否成癮的調查中,問卷的社交焦慮總分、自我接納總分和領悟社會支持總分是最為重要的影響因素;BlSMOTE方法預處理的數據集用來訓練模型時,模型的分類預測能力最強;基于特征森林的特征選擇可優化模型;通過多項式擬合方法對多種模型結果進行融合,可以明顯提高測試集預測效果,評價指標達到80%以上。該方法應用于新的測試集,評價指標仍能保持80%左右,證明了所研究方法的準確性和穩定性。提出的 BlSMOTE-RF 模型融合方法有效提高了非均衡數據分類預測的準確性。未來研究可以探索其他采樣方法、特征選擇方法和模型融合方法,并將其應用于更復雜的數據集。
參考文獻:
[1] 孫瑜,李占利,李學文.特征融合和集成學習在大學生助學金預測中的應用[J].西安科技大學學報,2020,40(4):744-750.
[2] 吳成英,馬東方.基于改進XGBoost的金融客戶投資行為特征選擇方法[J].計算機應用,2024,44(S1):330-336.
[3] 高珊,李世杰,蔡志平.基于深度學習的中文文本分類綜述[J].計算機工程與科學,2024,46(4):684-692.
[4] 劉冬,翁海光,陳一民.一種處理嚴重不均衡數據的BERT-BiGRU-WCELoss短文本警情分類模型[J].計算機應用與軟件,2024,41(9):217-223,229.
[5] 陰愛英,吳運兵,楊曉花.面向制造業不平衡數據的混合采樣算法[J].計算機工程與設計,2018,39(4):1053-1058.
[6] 王曉霞,李雷孝,林浩.SMOTE類算法研究綜述[J].計算機科學與探索,2024,18(5):1135-1159.
[7] 馬賀,宋媚,祝義.改進邊界分類的Borderline-SMOTE過采樣方法[J].南京大學學報(自然科學),2023,59(6):1003-1012.
[8] 汪萬敏,智路平.基于ADASYN-SFS-RF的欺詐檢測模型泛化性能提升及可解釋性研究[J].計算機應用研究,2022,39(12):3605-3613.
[9] 凌燦城.基于Bagging+RUS+RF算法對營銷成敗的預測[J].數學的實踐與認識,2020,50(20):63-70.
[10] 吳正江,楊天,鄭愛玲,等.融合擬單層覆蓋粗集的集值數據平衡方法研究[J].計算機工程與應用,2022,58(19):166-173.
[11] 羅云松,黃慕宇,賈韜.重采樣在微博機器人識別中的應用研究[J].中文信息學報,2021,35(12):133-148.
[12] CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[13] 謝夢龍,葉新宇,張升,等.LASSO算法及其在邊坡穩定性分析中的應用[J].巖土工程學報,2021,43(9):1724-1729.
[14] 韓浦城,紀忠萍.5月華南氣溫的嶺回歸預測模型[J].應用氣象學報,2024,35(4):480-492.
[15] 申冰可,邵林芳.決策樹模型與logistic回歸探究大學生入黨意愿自身影響因素及結果預測[J].電腦知識與技術,2022,18(8):26-28.
[16] 陳晗頔,趙婷婷.基于長短期記憶神經網絡的車輛邊緣計算卸載策略[J].計算機應用與軟件,2021,38(7):53-59.
[17] JIAO F,HUANG T W.Analysis and forecast of college student canteen consumption based on TL-LSTM[J].Journal of Data,Information and Management,2024,6(2):173-184.
[18] 黃天文,焦飛,伍志方.一種基于遷移學習和長短期記憶神經網絡的降水預報方法[J].暴雨災害,2024,43(1):45-53.
[19] 孫朝云,杜耀輝,裴莉莉,等.基于逆方差多模型融合的空氣質量指數預測方法[J].環境工程,2023,41(2):197-204.
[20] 石磊,張冀,秦順友.多項式擬合技術在天線增益測量中的應用研究[J].現代電子技術,2024,47(11):22-25.
[21] 胡夢婷,羅晨.基于MCNN-LSTM和交叉熵損失函數的軸承故障診斷[J].制造技術與機床,2024(9):16-22.
【通聯編輯:王 力】