基于BlSMOTE-RF模型融合的非均衡數據分類預測

2025-07-20 00:00:00焦陽劉文開

電腦知識與技術 2025年17期

摘要：針對分類樣本不均衡問題，提出一種基于BlSMOTE-RF的模型融合方法。首先，利用BlSMOTE平衡數據集；然后，基于隨機森林對特征重要性進行排序與特征選擇；最后，采用多項式擬合方法融合LSTM、邏輯回歸、LASSO、隨機森林和嶺回歸五種模型的預測結果，并在新的測試集上檢驗。實驗結果表明，該方法在準確率、精準率、召回率和F1分數上均優于單一模型。

關鍵詞：樣本不均衡；BlSMOTE；隨機森林；模型融合；深度學習

中圖分類號：TP301.6" " " 文獻標識碼：A

文章編號：1009-3044（2025）17-0063-03

開放科學（資源服務）標識碼（OSID）

0 引言

分類預測在教育、金融和醫療等領域應用廣泛[1-3]。然而，樣本不均衡問題常常影響分類模型的性能[4]。為了解決這一問題，提出一種基于BlSMOTE-RF的模型融合方法，并通過實驗驗證其有效性。該方法首先對原數據進行重采樣以平衡數據分布，而重采樣又包括過采樣和欠采樣[5]，從其中的6種方法擇優，最終使用BlSMOTE （Borderline Synthetic Minority Over-sampling Technique）平衡數據集，然后利用隨機森林（Random Forest， RF）進行特征選擇，最后融合多種分類模型的預測結果，并與各單一模型預測結果進行對比。

1 研究方法

1.1 分類樣本不均衡

樣本中不同類別的樣本數量差異非常大，稱為數據樣本分布不均衡。分類樣本的不均衡會導致樣本數量較少的分類包含的特征過少，建立的模型容易產生過擬合問題。將研究對象按成癮度類別分為0（對手機沒有上癮）和1（對手機上癮），兩種類別的樣本分布如圖1所示，可見類別為0的數量遠大于類別為1的數量，分類樣本嚴重不均衡。

處理分類樣本不均衡問題可采用的方法有過采樣、欠采樣、混合采樣和集成采樣。過采樣把較少類別的樣本復制多份，使之與較多類別的樣本數量相等或接近，缺點是容易造成模型過擬合；欠采樣通過刪除較多類別樣本中的部分樣本，使之與較少類別的樣本數量相等或接近，缺點是可能損失有用的信息，容易造成模型欠擬合。混合采樣和集成采樣較為復雜，選取了6種方法：過采樣的SMOTE、BlSMOTE、ADASYN方法[6-8]和欠采樣的RandomUnderSampler（imbalanced-learn庫函數之一）， ClusterCentroids，NearMiss方法[9-11]。不同方法得到的分類樣本符合均衡的要求，建立對應的模型并對模型評估，根據評估指標的值來選擇最優的采樣方法。

SMOTE算法是Chawla等人[12]提出的一種智能型過采樣技術，但由于它是通過隨機選擇少數類樣本來生成新樣本，沒有考慮到所選少數類樣本周圍的情況，因此合成的新樣本質量較差，提供不了更多有用信息。Border-line SMOTE（BlSMOTE）算法在SMOTE算法上進行改進，通過少數類的邊界點來合成新樣本，因而 BlSMOTE只對那些靠近“邊界”的少數類樣本進行人工合成樣本，在一定程度上避免了新合成的少數類樣本與多數類樣本的重疊交叉。實驗結果表明，BlSMOTE算法分類效果優于SMOTE算法，并且在處理類別不平衡數據時表現出更好的性能。在后面的各種均衡方法的評估指標對比上，也可發現作為改進的SMOTE方法，BlSMOTE方法的各項指標都優于SMOTE方法。

1.2 基于隨機森林的特征重要性計算

特征選擇即篩選比較重要的特征以建立泛化能力強的模型，可以提高模型預測的準確率。隨機森林是以樹模型為基礎的集成學習算法，借助其自帶的函數評估特征重要性較為簡單，然后對數據集全部特征按重要性降序排序，最后依次選取前n個特征，比較模型評估的指標以確定最佳的n的值。

1.3 常用分類預測方法

分類預測的方法有很多，此處選擇了5種常見的方法，根據不同模型的評估指標觀察不同方法的優、缺點，再把不同預測結果融合。作為首選的分類方法，隨機森林RF是利用多棵決策樹（Tree）對樣本進行訓練并預測的一種分類器。它是一種特殊的bagging方法，將決策樹用作bagging中的模型。RF可以快速處理包含大量特征變量的數據，并在決定類別時評估全部特征的重要性。對于不均衡的分類樣本，它還可以平衡誤差。稀疏化模型LASSO（Least Absolute Shrinkage and Selection Operator）是一種用于估計稀疏線性模型的方法，由Robert Tibshirani在1996年首次提出。LASSO模型通過引入L1范數懲罰項，使得一些不重要的回歸系數收縮至零，從而實現特征選擇和模型簡化[13]。在處理復雜的數據的回歸問題時，普通的線性回歸會遇到預測精度和模型的解釋能力上的問題，而嶺回歸（Ridge Regression）作為一種線性回歸的擴展，通過在損失函數中添加正則化項（L2范數）可解決線性回歸中可能存在的過擬合問題。韓浦城等采用嶺回歸方法建立5月華南氣溫的嶺回歸預測模型，擬合效果較好并對異常年份有較好的預測能力[14]。邏輯回歸（Logistic regression， LR）是一種重要的、有監督的分類算法，對線性回歸對異常數據敏感的不足進行了優化改進。然而，當面對高維、不確定性和線性不可分數據時，邏輯回歸的分類效果受到限制[15]。長短期記憶神經網絡（Long Short-Term Memory， LSTM）的設計基于循環神經網絡的重復的鏈式形式，每一個單元看作一個block，每個block都具有輸入門、遺忘門和輸出門[16]。參考了前人制作的比較通俗易懂的LSTM結構圖[17]，如圖2所示。

圖2中，A代表一個LSTM單元，在不同時序時候的狀態用C表示；X為輸入，h為輸出；t-1、t和t+1分別代表上一個時間，當前時間和下一個時間。G1、G2和G3分別代表忘記門、輸入門和輸出門。σ表示sigmod函數，tanh為激活函數[18]。

1.4 模型融合方法

目前單體預測模型存在模型不穩定和泛化能力不強等問題，而模型融合的方法可以一定程度上改善這種狀況[19]。模型融合就是訓練多個模型，根據每個模型的優點，按照一定的方法把這些模型組合起來，以加強模型的效果。模型融合常用方法有：對模型結果簡單平均、加權平均、sigmoid平均、bagging和blending等。這里提出一種多元線性擬合的方法，其本質就是多項式擬合[20]。多元擬合是指使用多個自變量來估計一個因變量的值。令因變量為y，自變量為x1、x2、x3、...、xn，則多元線性擬合公式如公式1所示：

[y=α1x1+α2x2+α3x3+...+αnxn+β] " （1）

公式中β代表截距，a代表回歸系數，n代表自變量個數。把各模型預測的結果作為自變量，建立多元線性回歸模型。模型參數的確定使用最小二乘法，通過最小化殘差平方和來找到參數估計。找到一組參數值，通過求解正規方程組，使得觀測值與擬合值之間的差異（即殘差）的平方和達到最小。由此找到合適的參數，使得擬合值盡量接近真實值，然后應用于新的測試集上以檢測預測效果。

2 實驗與結果分析

2.1 數據預處理

1）數據清洗。數據清洗是指發現并糾正數據文件中可識別的錯誤。大學生手機成癮調查問卷共918份，經人工初步檢查，對明顯有異常的值進行糾正，然后需要使用計算機清洗掉“臟數據”。實驗采用 Pandas 庫提供的功能來處理重復的行、缺失的數據、添加默認值、刪除不完整的行、刪除不完整的列、規范化數據類型、重命名列名等。例如，刪除含有缺失值的行，采用了DataFrame.Dropna（）函數，設置參數inplace為True可以替換原來的數據集。限于篇幅，此處不再一一列出其他功能的實現內容。發現存在，剔除含有缺失值的資料、人工修改異常值后，得到一個900行、11列的二維數據集。其中11列的列名（特征變量名）分別是：學號、手機成癮總分、性別、所在年級、是否獨生子女、生源地、自身健康狀況、家庭和睦程度、社交焦慮總分、自我接納總分和領悟社會支持總分。

2）分級。分類預測中，目標變量不能是連續型數值，只能是分類型變量，因此數據預處理階段還要對目標變量進行基于閾值的分級，即設定一個閾值，根據目標變量的值是否超過這個閾值來劃分等級。根據心理學經驗與技巧，以51為閾值，把手機成癮總分這列數據二分類，低于51的等級記為0，反之記為1。0表示為大學生對手機沒有成癮，1表示為有癮。二分類比較簡單，如果需要進一步研究，還可考慮多級分類、聚類分析和基于規則的分級。

3）數據集拆分。建模前需要將數據集劃分為訓練集和測試集，然后訓練集會再分為訓練集與驗證集兩部分，訓練集負責訓練和學習，驗證集用于評價不同參數組合的效果，以確定最終模型。而測試集沒有參與模型的訓練過程，所以它可以對最終模型的泛化能力進行評價。從900條記錄中隨機抽取100條作為測試集，用來檢驗模型的預測效果。其余數據，再拆分為訓練集和驗證集，比例為8∶2，用來訓練模型。驗證集用來調節模型參數，可以在一定程度上避免過擬合訓練集。實驗中，數據集拆分采用了scikit-learn庫里的train_test_split函數來實現。

2.2 模型評估與選擇最優均衡樣本

采用多種方法令分類樣本均衡后，分別利用這些數據建立隨機森林模型并進行訓練。最后根據驗證集的預測結果對模型評估，評估的指標有交叉熵（cross-entropy error， CEE）、準確率（Accuracy）、精準率（Precision）、召回率（Recall）和F1分數。如表1所示，對比各項指標的值，選擇最優的BlSMOTE方法所得均衡樣本作為訓練集。

表1中，CEE是交叉熵損失，此指標在分類問題中應用更為廣泛，且不會出現梯度消失問題[21]，其值越小越好。準確率是分類正確的樣本占總樣本個數，是分類問題中最簡單最直觀的評價指標。精確率指模型預測為正的樣本中，實際也為正的樣本占被預測為正的樣本的比例。召回率指實際為正的樣本中，預測也為正的樣本占實際為正的樣本的比例。F1分數是精確率和召回率的加權平均值。

2.3 特征重要性排序與特征選擇

特征選擇（Feature Subset Selection， FSS）是從原始特征中選擇出一些最有效特征以降低數據集維度的過程。特征選擇前需要對全部特征的重要性進行排序，對于數量不多的調查問卷應用研究上，選擇隨機森林回歸器（Random Forest Regressor）最好，因為隨機森林本身就自帶計算特征重要性的函數，特征重要性可以通過計算每個特征的平均不純度減少來衡量，再根據特征重要性進行降序排列。實驗對樣本的全部9個特征的重要性進行排序，結果以柱狀圖形式呈現，如圖3所示。

2.4 分類預測方案篩選和模型融合

分類預測模型按前面所述，選擇了5種，每種模型在訓練時又根據特征選擇的數量而出現9種情形，由此得到在測試集上的45種預測結果。受篇幅限制，表2僅列出部分情形的模型在測試機上的評估結果。然后綜合考慮多個評估指標，選擇較好的幾種方案。

從表2可見，評估指標值在總體上都不理想，因此需要每種模型選擇其誤差較小且準確率等較高的情形，然后對所選方案的測試集上的預測結果進行多元線性擬合，依據公式（1）得到最終擬合公式的n為5，截距為0.098 216，回歸系數矩陣如表3所示。

2.5 模型融合法的檢驗

比較原測試集的真實值和擬合值，可以得到預測效果的各種評估指標值，如表3所示，并與表2對比，可見模型融合后，各指標值有顯著的提升。為檢驗模型融合方法的泛化性和有效性，引入最新獲取的18個調查問卷數據作為新測試集，把基于BlSMOTE-RF的模型融合方法應用在新測試集分類預測上，得到預測結果的評分與原測試集對比，仍然數值較高，證明了該方法的有效性，如表4所示。

3 結束語

實驗表明，對大學生手機是否成癮的調查中，問卷的社交焦慮總分、自我接納總分和領悟社會支持總分是最為重要的影響因素；BlSMOTE方法預處理的數據集用來訓練模型時，模型的分類預測能力最強；基于特征森林的特征選擇可優化模型；通過多項式擬合方法對多種模型結果進行融合，可以明顯提高測試集預測效果，評價指標達到80%以上。該方法應用于新的測試集，評價指標仍能保持80%左右，證明了所研究方法的準確性和穩定性。提出的 BlSMOTE-RF 模型融合方法有效提高了非均衡數據分類預測的準確性。未來研究可以探索其他采樣方法、特征選擇方法和模型融合方法，并將其應用于更復雜的數據集。

參考文獻：

[1] 孫瑜，李占利，李學文.特征融合和集成學習在大學生助學金預測中的應用[J].西安科技大學學報，2020，40（4）：744-750.

[2] 吳成英，馬東方.基于改進XGBoost的金融客戶投資行為特征選擇方法[J].計算機應用，2024，44（S1）：330-336.

[3] 高珊，李世杰，蔡志平.基于深度學習的中文文本分類綜述[J].計算機工程與科學，2024，46（4）：684-692.

[4] 劉冬，翁海光，陳一民.一種處理嚴重不均衡數據的BERT-BiGRU-WCELoss短文本警情分類模型[J].計算機應用與軟件，2024，41（9）：217-223，229.

[5] 陰愛英，吳運兵，楊曉花.面向制造業不平衡數據的混合采樣算法[J].計算機工程與設計，2018，39（4）：1053-1058.

[6] 王曉霞，李雷孝，林浩.SMOTE類算法研究綜述[J].計算機科學與探索，2024，18（5）：1135-1159.

[7] 馬賀，宋媚，祝義.改進邊界分類的Borderline-SMOTE過采樣方法[J].南京大學學報（自然科學），2023，59（6）：1003-1012.

[8] 汪萬敏，智路平.基于ADASYN-SFS-RF的欺詐檢測模型泛化性能提升及可解釋性研究[J].計算機應用研究，2022，39（12）：3605-3613.

[9] 凌燦城.基于Bagging+RUS+RF算法對營銷成敗的預測[J].數學的實踐與認識，2020，50（20）：63-70.

[10] 吳正江，楊天，鄭愛玲，等.融合擬單層覆蓋粗集的集值數據平衡方法研究[J].計算機工程與應用，2022，58（19）：166-173.

[11] 羅云松，黃慕宇，賈韜.重采樣在微博機器人識別中的應用研究[J].中文信息學報，2021，35（12）：133-148.

[12] CHAWLA N V，BOWYER K W，HALL L O，et al.SMOTE：synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research，2002，16：321-357.

[13] 謝夢龍，葉新宇，張升，等.LASSO算法及其在邊坡穩定性分析中的應用[J].巖土工程學報，2021，43（9）：1724-1729.

[14] 韓浦城，紀忠萍.5月華南氣溫的嶺回歸預測模型[J].應用氣象學報，2024，35（4）：480-492.

[15] 申冰可，邵林芳.決策樹模型與logistic回歸探究大學生入黨意愿自身影響因素及結果預測[J].電腦知識與技術，2022，18（8）：26-28.

[16] 陳晗頔，趙婷婷.基于長短期記憶神經網絡的車輛邊緣計算卸載策略[J].計算機應用與軟件，2021，38（7）：53-59.

[17] JIAO F，HUANG T W.Analysis and forecast of college student canteen consumption based on TL-LSTM[J].Journal of Data，Information and Management，2024，6（2）：173-184.

[18] 黃天文，焦飛，伍志方.一種基于遷移學習和長短期記憶神經網絡的降水預報方法[J].暴雨災害，2024，43（1）：45-53.

[19] 孫朝云，杜耀輝，裴莉莉，等.基于逆方差多模型融合的空氣質量指數預測方法[J].環境工程，2023，41（2）：197-204.

[20] 石磊，張冀，秦順友.多項式擬合技術在天線增益測量中的應用研究[J].現代電子技術，2024，47（11）：22-25.

[21] 胡夢婷，羅晨.基于MCNN-LSTM和交叉熵損失函數的軸承故障診斷[J].制造技術與機床，2024（9）：16-22.

【通聯編輯：王力】