融合條件熵和TF-IDF的過采樣方法

2023-06-15 19:00:09胡宏章邱云飛郭蕾

計算機時代 2023年6期

胡宏章邱云飛郭蕾

摘? 要：針對非均衡數據帶來的分類器對少數類樣本學習不充分的問題，提出融合條件熵和TF-IDF的過采樣方法。該方法首先指定參數，組合數據特征，然后計算每種組合方式下的條件熵，判斷每種組合條件下類的不確定性，同時為了避免低詞頻帶來的噪音數據，將條件熵結果乘上1/TF-IDF因子，再將結果按升序排序，最后結合參數選定過采樣依據的特征組合，用以構造新數據，使正負樣本平衡。將所提方法在7個不均衡數據集上進行實驗仿真，結果表明，所提方法比其他方法在F-measure、G-mean和AUC等評價指標上均有一定提高。

關鍵詞：非均衡數據；條件熵； TF-IDF；過采樣

中圖分類號：TP301.6? ? ? ? ? 文獻標識碼：A? ? ?文章編號：1006-8228（2023）06-48-06

Oversampling method combining conditional entropy and TF-IDF

Hu Hongzhang， Qiu Yunfei， Guo Lei

（College of Software， Liaoning Technical University， Huludao， Liaoning 125105， China）

Abstract： In order to solve the problem that the classifier does not learn enough from a small number of samples caused by unbalanced data， an oversampling technology combining conditional entropy and TF-IDF is proposed. Firstly， parameters are specified to combine data features. Then the conditional entropy under each combination mode is calculated to judge the uncertainty of classes under each combination condition. At the same time， the conditional entropy results are multiplied by factor in order to avoid noisy data caused by low word frequency， and then the results are sorted in ascending order. Finally， the feature combination based on oversampling is selected combined with parameters to construct new data， which balances the positive and negative samples. The proposed method is simulated on seven unbalanced data sets， and the results show that it has certain improvement compared with other methods in F-measure， G-mean， AUC and other evaluation indicators.

Key words： unbalanced data; conditional entropy; TF-IDF; oversampling

0 引言

非均衡數據指各類別標簽數量相差懸殊的數據，由此帶來的問題被稱為非均衡問題。以SVM（支持向量機）為例，由于數據不平衡特性而導致的大規模協方差矩陣和有偏支持向量的計算已被證實是一個棘手問題[1] 。忽視樣本的不均衡分布或犧牲少數類樣本都是不可取的。

目前解決非均衡問題的方向主要有：采樣方法的研究、集成算法的改進、降維方案的選擇和選擇合適的評價指標等。采樣方法會改變原始樣本分布，該方法的關鍵是既要保留原始數據特點，又要避免增加噪聲數據。集成算法則是均衡不同模型的優缺點，結合多個模型的處理方案使正負樣本具有較高的分類精度，其模型的優化以及參數的選擇具有一定難度。

針對不平衡的文本數據，G.Sun[2] 等提出了一種非平衡文本數據流的集成分類算法。首先，采用改進的重采樣方法建立平衡數據子集；其次，利用主題模型對平衡數據子集進行主題建模，建立文檔主題訓練子集；最后，利用集成分類模型構造集成分類器。而對于高維不平衡數據，W.Pei[3] 等提出一種新的遺傳規劃方法，但是該方法更適合于具有輕微不平衡數據的分類。另外在采樣方式上更多優化的是過采樣方法。如C.Tian[4] 等提出了一種基于NC-Link的層次聚類方法，從少量樣本中合成不同的樣本，從而優化聚類效果。

目前過采樣算法中使用更為廣泛的是SMOTE，它通過對原始實例的插值來人工生成新的實例。張忠林[5] 等提出了BSL采樣對其改進，將少數類樣本分為安全樣本、噪聲樣本、邊界樣本，只對邊界樣本進行SMOTE插值，再利用Tomek link清洗數據，使數據集基本達到均衡的同時減少噪聲樣本的數量。X.Li[6]等提出了一種改進的抽樣算法TDSMOTE，將少量樣本分為三個區域：稠密區域、邊界區域和稀疏區域。不同地區的樣品采用不同的采樣方法，BSL采樣和TDSMOTE算法能顯著提高非平衡數據的分類指標，但其劃分區域需要達到一定的數據量。

本文針對現有方法的不足，同時考慮樣本數量和不平衡數據比例，提出一種依據統計學的過采樣方法，基于條件熵和IFIDF來生成新的人工實例，可以避免產生較多的偽樣本。最后將本文提出的方法與SMOTE、ADASYN、SCF-ADASYN、BSMOTE、SMOTE+ENN和SVMOM算法在7個數據集上進行實驗對比，結果表明所提方法在F-measure、G-mean和AUC上均有一定提高。

1 相關研究

1.1 條件熵

信息熵的提出解決了對信息的量化度量問題。假設現有兩個獨立不相關的事件x和y，則x和y同時發生所攜帶的信息I（x，y）為各自攜帶信息的和，即：

[Ix，y=Ix+Iy]? ⑴

x和y同時發生的概率P（x，y）為各自概率的乘積，即：

[Px，y=PxPy] ⑵

由式⑴和式⑵可以得出：I（x）與P（x）的對數有關，因此事件x其概率分布P（x）的自信息為：

[Ix=-logPx] ⑶

假設有隨機變量X（X=x1，x2，x3，...，xn），其信息熵H（X）是對隨機變量X不確定的度量，是對所有可能發生的事件產生信息量的期望，即I（X）關于概率分布P（x）的期望：

[HX=-PxilogPxi] ⑷

信息熵表示隨機變量的不確定度，條件熵則表示在某一個條件下，隨機變量的不確定度。條件熵H（Y|X）表示在已知隨機變量X的條件下隨機變量Y的不確定性，由式⑷可得條件熵H（Y|X）的計算方式為X在給定條件下Y的條件概率分布的熵對X的數學期望，即：

[HY|X=x∈XPxHY|x]

[=-x∈XPx（y∈YPy|xlogP（y|x））]

[=-x∈Xy∈YP（x，y）logP（y|x）]? ⑸

此時先按一個新變量的每個值x對原變量進行分類，然后在每一個小類y里都計算一個小熵，每一個小熵乘以各個類別的概率，再求和。每個y的小熵越小，說明在x的這種取值下，y的值越收斂，不確定性越小，條件熵越小，說明在X的各種取值下，Y的值都非常收斂，整體不確定性小。在不均衡樣本中過采樣生成的少數類樣本要盡可能的準確，這時就可以計算特征組合的情況下標簽的不確定性，因此，在過采樣時融入條件熵，以提升新增少數類樣本的準確率。

1.2 TF-IDF技術

TF-IDF（term frequency-inverse document frequen-cy）是一種用于信息檢索與數據挖掘的常用加權技術。TF（Term Frequency）是詞頻，表示詞條在文檔中出現的頻率，IDF（Inverse Document Frequency）是逆文本頻率指數，是一個詞語普遍重要性的度量。TF-IDF是一種統計方法，用以評估一字詞對于一個文件集或一個語料庫中一份文件的重要程度，對于在某一特定文件里的詞語來說，它的重要性可表示為：

[TF-IDF=TF×IDF] ⑹

[TF=某個詞在文章中出現的次數文章的總詞數] ⑺

[IDF=log語料庫的文檔總數包含該詞的文檔數+1] ⑻

TF-IDF的主要思想是如果某個詞或短語在一篇文章中出現的頻率TF高且在其他文章中很少出現，則認為該詞或短語具有很好的類別區分能力，適合用來分類。TF-IDF傾向于過濾掉常見的詞語，保留重要的詞語。因此，在過采樣時需要考慮TF-IDF的值，保留數據特點，使采樣生成的數據更符合真實特征。

2 基于條件熵和TF-IDF的非均衡數據集過采樣算法

2.1 算法的思想

過采樣的目標是從不均衡數據集中模仿少數類樣本特征，制造新的樣本集。一個可行方案是，采用信息論的方法，計算每種隨機變量X情況下Y的條件熵，再融合TF-IDF值，保留數據特點的同時得到信息量的大小，再根據得到的值創建新的樣本集。

為了解決正負樣本不均衡分布造成的分類邊界偏移，訓練模型對少數類樣本學習不充分的問題，本文提出了融合條件熵和TF-IDF的過采樣方法-HTTE（Oversampling technology based on heat function and TF-IDF）。HTTE算法首先指定數據屬性的區間大小，劃分區間段，對每一區間段計算信息熵H（X），再計算已知隨機變量X條件下隨機變量Y的不確定性，即X給定條件下，Y的條件概率分布的熵對X的數學期望。由于低詞頻對于信息的影響很多，一個詞如果頻次不夠多，又主要出現在某個類別里，那么就會出現較低的條件熵，從而給篩選帶來噪音。為了避免出現這種情況，可先用條件熵的結果乘上1/TF-IDF因子，從而將特征頻率與特征分布考慮進去；然后再按照結果值大小進行排序。本文提出的HTTE算法可以讓特征更明顯，計算復雜，適用于小規模數據集。

2.2 算法的構建

構建HTTE算法需先指定參數，接著將連續型數據列劃分為區域塊，取區域塊中值替換原數據，再統計替換后的數據組合種類，計算其條件熵，最后判斷該組合條件下結果類的不確定性。

其中取多數類數量為0的特征組合，即該特征為少數類的特征，要將條件熵乘上1/TF-IDF因子，結果按升序排序，再根據參數取排序后的數量，隨機取一個安全樣本，將連續數據恢復區間塊，取區間塊內的任意值，構成新樣本。具體步驟如下。

Step1 對數據的每個特征進行預處理。需要將連續型數據離散化，對離散數據進行獨熱編碼，進行分段標記處理。

連續型數據分段標記的描述如下：

Step2 拼接數據樣本中多維特征，得到組合方式X，計算每種組合方式的數量sumi，標簽類別Y。

Step3 按照式⑸計算條件熵。

計算條件熵的描述如下：

[方法：計算條件熵輸入：組合方式X，數量SUM，標簽類別Y 輸出：H（Y/X）（1） for X do （2）? ? for Y do （3） [H（yj|xi）=-P（yj|xi）×logP（Yj|xi）] （4）? ? ?end for （5） end for （6）得到每種特征組合條件下的信息熵 ]

Step4 對于每種組合對應的標簽僅為少數類標簽的組合，按照式⑹⑺⑻計算其TF-IDF值，融合條件熵值和TF-IDF值，得到篩選后的組合方式X_new和新的數據選擇指標value=條件熵/TF-IDF。

計算數據選擇指標value的描述如下：

[方法：計算數據選擇指標value 輸入：組合方式X，標簽類別Y，條件熵H_Y_X 輸出：組合方式X_new和value值（1） for X do （2）? ?計算X下每種標簽Y的數量（3）? ?if 多數類標簽的數量 == 0 （4）? ? ? ?TF = ∑xi在少數類出現/∑少數類（5）? ? ? ?IDF = log（∑X/∑（xi+1））（6）? ? ? ?value=xi條件下的信息熵/（TF×IDF）（7）? ? ? ?X_new = X （8） end for （9）得到新的數據選擇指標：組合方式X_new和value值 ]

Step5 對value值進行升序排序，根據輸入的參數split_num和多數類樣本與少數類樣本的數量差diff進行計算，如果經過Step4得到的組合方式X_new的數量[X_newdiff/split_num]，并且[diff/split_num>1]，則取前[diff/split_num]行為安全樣本；如果[X_new>diff/split_num]，并且[diff/split_num≤1]，則取前五行為安全樣本。

Step6 創建少數類樣本。隨機取一個安全樣本，將連續數據恢復區間塊，取區間塊內的任意值，生成新少數類樣本。

3 實驗結果與分析

3.1 數據集描述

從國際機器學習標準庫UCI中選取七個不均衡數據集ThoraricSurgery、Pima、Haberman、Transfusion、credit、German、Ionosphere進行對比實驗，各數據集的屬性和類別信息見表1。

3.2 數據集劃分和評價指標

本實驗將在上述7個數據集上進行對比實驗。將正負樣本進行分層采樣，按7：3的比例劃分訓練集和測試集，表2為劃分后的數據量情況。

由于少數類數據的分類評價在不均衡數據分類評價中十分重要，本文使用F-measure、G-mean、AUC作為評價指標，來衡量分類結果，式⑼為F-measure的計算公式，式⑽為總體性能指標G-Mean的計算公式。

[F-measure=（β2+1）×Precision×Recallβ2×Precision+Recall] ⑼

其中，Precision為精確率，Recall為召回率；β為調和參數值。在數據集分布不均勻的二分類問題中，一般取β=1，當精確率和召回率同時上升時，F-measure才會提升。

[G-mean=Precision×Recall] ⑽

G-Mean數值越大說明精確率和召回率越高，效果越好。ROC曲線以假正率為橫坐標，以真正率為縱坐標，在數據極其不均衡的情況下，ROC曲線下面積具有很好的魯棒性，故以其曲線下的AUC值作為評價指標。

此外由于提出的算法需要調參，當著重少數樣本的正確率時，PR曲線會因為Precision的存在而不斷地將FP的影響顯現出來，因此本文以F-measure、G-mean和AUC（ROC曲線）來評價分類器的性能，以AUC（PR曲線）來選擇參數。

3.3 算法性能比較

在實驗環境上，選擇Windows 10操作系統，編程語言使用Python 3.6，深度學習框架選擇Pytorch 1.0。但由于計算資源有限，結合使用的糖尿病數據集的數據量，BERT的模型參數選擇使用基準模型參數。分類階段均采用集成算法中準確率和時間效率相對較好的RF算法，數據處理階段采用SMOTE算法[7] 、ADASYN算法[8] 、SCF-ADASYN算法[9] 、SMOTE結合不同的降維方法（BSMOTE[10] 、SMOTE_ENN[11] 、SVMOM[12] ），分別與數據預處理階段算法HTTE進行對比。使用F-measure、G-mean、AUC作為評價指標，取5次結果的平均值作為最終結果。表3為幾種方法得到的實驗結果，為了可以清楚地對比各方法得到的結果，以數據預處理階段采用的算法為橫坐標，評價指標值為縱坐標，不同顏色表示使用的不同數據集，得到實驗結果對比如圖1所示。

綜合圖1中的三個評價指標圖可以看出本文提出的采樣方法HTTE在數據集D1和D3上均明顯優于其他算法，在D4、D5、D6和D7上優于其他算法，在D2數據集上僅次于SCF-ADASYN。因此，HTTE算法在不同比例的不均衡數據集上均具有較好的分類效果。

以ThoraricSurgery數據集為例，該數據集共三個連續型數值的屬性，需要給出四個參數，自定義每個參數的取值范圍為[1，10]，得到參數組合共104種，每個參數從取值范圍的最大值開始遞減取值，為避免產生過擬合，以PR曲線的AUC值作為評價指標，當每種參數組合大于當前最大的AUC值時，則記錄到表4中。

由表4可以發現選擇不同的參數得到的AUC（PR）在[0.4735，0.9002]范圍之間，相差較大，所以算法對于參數的選擇很關鍵，實驗中各數據集的最優參數配置如表5所示。

另外為了對比各算法的時間性能，表6記錄了各算法采樣的時間，從表6中可以發現HTTE所耗費的時間略優于SMOTE、ADASYN和SCF-ADASYN，優于BSMOTE、SMOTE+ENN和SVMOM，所以HTTE在時間上具有一定的優勢。

4 結束語

本文針對非均衡數據帶來的分類器對少數類樣本學習不充分問題，提出了一種基于條件熵和TF-IDF的過采樣方法（HTTE）。HTTE首先指定參數組合數據特征，然后計算每種組合的條件熵，判斷每種組合條件下類的不確定性，為了避免低詞頻帶來的噪音，再將條件熵結果乘上1/TF-IDF因子，結果按升序排序，最后結合參數選定過采樣依據的特征組合，用以構造新數據，使正負樣本平衡。對比實驗表明提出的方法適用于大多數不均衡數據集，可以盡可能多地保留原數據特征，從F-measure、G-mean和AUC評價方式出發，該算法在不同比例的數據集上都可以取得很好的效果，但是，此算法比較依賴于參數的選擇，連續型屬性越多的數據需要配置的參數越多，因此優化參數是后續研究的重點。

參考文獻（References）：

[1] C. Wang， J. Zhou， H. Huang and H. Shen， "Classification

Algorithms for Unbalanced High-Dimensional Data with Hyperbox Vertex Over-Sampling Iterative Support Vector Machine Approach，" 2020 Chinese Control And Decision Conference （CCDC）， Hefei， China，2020：2294-2299

[2] G. Sun， J. Liu， W. Mengxue， W. Zhongxin， Z. Jia and G.

Xiaowen， "An Ensemble Classification Algorithm for Imbalanced Text Data Streams，"2020 IEEE International Conference on Artificial Intelligence and Computer Applications （ICAICA）， Dalian， China，2020：1073-1076

[3] W. Pei， B. Xue， L. Shang and M. Zhang， "A Threshold-

free Classification Mechanism in Genetic Programming for High-dimensional Unbalanced Classification，" 2020 IEEE Congress on Evolutionary Computation （CEC）， Glasgow， United Kingdom，2020：1-8

[4] C. Tian， L. Zhou， S. Zhang and Y. Zhao， "A New Majority

Weighted Minority Oversampling Technique for Classification of Imbalanced Datasets，" 2020 International Conference on Big Data， Artificial Intelligence and Internet of Things Engineering （ICBAIE）， Fuzhou， China，2020：154-157

[5] 張忠林，曹婷婷.基于重采樣與特征選擇的不均衡數據分類

算法[J].小型微型計算機系統，2020，41（6）：1327-1333

[6] X. Li and Q. Zhou， "Research on Improving SMOTE

Algorithms for Unbalanced Data Set Classification，" 2019 International Conference on Electronic Engineering and Informatics （EEI）， Nanjing， China，2019：476-480

[7] Chawla N V， Bowyer K W， Hall L O， et al. SMOTE：

synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research，2002，16（1）：321-357

[8] He H， Bai Y， Garcia E A， et al. ADASYN： Adaptive

synthetic sampling approach for imbalanced learning [C]. International Joint Conference on Neural Network，2008：1322-1328

[9] 劉金平，周嘉銘，賀俊賓，等.面向不均衡數據的融合譜聚類的

自適應過采樣法[J].智能系統學報，2020：1-8

[10] BunkhumpornpatC，SinapiromsaranK，LursinsapC，etal.

DBSMOTE：Density-BasedSynthetic Minority Over-sampling TEchnique[J]. Applied Intelligence， 2012，36（3）：664-684

[11] Batista G E， Prati R C， Monard M C， et al. A study of the

behavior of several methods for balancing machine learning training data[J]. Sigkdd Explorations，2004，6（1）：20-29

[12] 張忠林，馮宜邦，趙中愷.一種基于SVM的非均衡數據集過

采樣方法[J].計算機工程與應用，2020：1-10

計算機時代2023年6期

計算機時代的其它文章: 基于改進YOLOv5的安全帽檢測算法研究; 基于高分辨率網絡的輕量型人體姿態估計方法; 一個Unity3D開發教學項目的設計與實現; 基于方面級情感分類的語義挖掘模型; 一種改進的沙丘貓優化算法求解裝箱問題; 基于PSO_WT與改進的CAGA_CNN算法的心音識別研究