














摘要: 為了解決數據的長尾分布容易造成網絡模型識別準確度下降的問題,提出了一種基于因果推斷的兩階段長尾分類模型。首先采用重加權的方法去除特征和標簽之間可能存在的虛假關聯;其次通過平衡微調進一步提升模型在少樣本尾部類別識別的準確率。模型可分為兩個階段:第一階段設計了具有迭代優化效果的去相關樣本重加權算法以去除虛假相關,達到穩定預測的效果;第二階段設計了基于CAM的類平衡采樣算法進行平衡微調訓練,使來自不平衡數據集的學習特征在所有類別之間轉移和重新平衡,以提高模型在尾部類別的分類性能。實驗結果證明了模型具有較優的性能,同時,無論從理論層面還是數據層面都具有較好的可解釋性。
關鍵詞: 長尾分布; 因果推斷; 去相關; 類平衡采樣; 可解釋性
中圖分類號: TP391
文獻標志碼: A
文章編號: 1671-6841(2024)05-0031-08
DOI: 10.13705/j.issn.1671-6841.2023122
A Study of Two-stage Long-tail Classification Based on Causal Inference
CAO Xiaomin, LIU Jinfeng
(College of Information Engineering, Ningxia University, Yinchuan 750021,China)
Abstract: In order to solve the problem caused by long-tail distribution of data, which might decrease network model recognition accuracy to decrease, a two-stage long-tail classification model based on causal inference was proposed. Firstly, a re-weighting approach in the model was used to remove possible spurious associations between features and labels, and secondly the recognition accuracy of the model in tail categories with fewer samples was improved by balancing fine-tuning. The model was divided into two stages. In the first stage, a de-correlated sample reweighting algorithm with iterative optimization effect was designed to remove spurious correlation and achieve stable prediction; in the second stage, a CAM-based class balancing sampling algorithm was designed for balancing fine-tuning training, so that the learned features from unbalanced datasets were transferred and rebalanced among all classes to improve the classification performance of the model in the tail category. The experiments proved that the model had superior performance. Meanwhile, compared with other model, this model had better interpretability from the theoretical level as well as the data level.
Key words: long-tail distribution; causal inference; removal related; class balance sampling; interpretable
0 引言
近年來,隨著大規模圖像數據集在深度神經網絡(deeps neural networks,DNN)上的廣泛應用,使得計算機在識別、監控和跟蹤目標方面超越人類成為可能[1]。在計算機視覺研究中,通常假設數據集的分布是均衡的,例如ImageNet-2012[2]、MS COCO[3]和Places Dataset[4]。而在實際應用中,數據集通常呈長尾分布,即少數類別(又稱頭類)包含大量樣本,而大多數類別(又稱尾類)只有非常少量的樣本。許多標準高效的DNN在這種分布下訓練時,呈現在頭類中表現良好,而在尾類中表現不佳,從而導致整體識別精度顯著下降。緩解此類問題的主要方法為非平衡學習策略,主要包含數據級策略和算法級策略兩類。數據級策略主要包括各種類型的重采樣方法;算法級策略著重調整各個類別的權重,引導網絡對尾類給予更多的關注。除此之外,將頭類數據中學習到的知識轉移到尾類中也是一種行之有效的方法。
因果推斷是用于解釋分析的強大建模工具,可以幫助恢復數據中的因果關聯,實現可解釋的穩定預測,且因果關系也能為模型提供較強的可解釋性。因此,本文結合因果推斷理論緩解長尾分布數據分類問題。因果推斷中的去相關樣本重加權方法能夠去除樣本標簽和特征之間的虛假相關,使模型更注重樣本標簽與特征之間的真正聯系,避免混雜因素對模型的影響,這樣不僅提升了模型的識別準確率,加強模型預測時的穩定性,同時具有較好的可解釋性。
本文提出了一種基于因果推斷的兩階段長尾分類模型,該模型第一階段采用改進后的去相關樣本加權的方法進行不平衡訓練,以去除樣本標簽和特征之間的虛假相關;第二階段針對第一階段不平衡訓練在尾類上識別精度較差的缺點,采用重采樣方法進行平衡微調訓練。
1 相關工作
1.1 傳統方法
解決長尾分布數據的傳統方法主要有重采樣和重加權兩類。重采樣即重新采樣數據集以實現更均衡的數據分布,這類方法包括對少數類進行過采樣[5](通過添加數據副本)、對多數類進行欠采樣[6](通過移除數據),以及基于每類樣本數量的類平衡抽樣[7-8]。有學者對重采樣的方法進行改進或與其他方法相結合,獲得了優于單一重采樣方法的性能,比如Zhou等[9]提出了一個統一的雙邊分支網絡(bilateral branch network, BBN),該網絡同時負責表征學習(此分支利用原始數據學習)和分類學習(此分支利用重采樣學習),以全面提高長尾任務的識別性能。Kang等[10]將實例平衡采樣與分類器相結合,發現使用最簡單的實例平衡采樣學習到的表示,可以通過調整分類器來實現較強的長尾識別能力。
重加權方法的主要思想是給不同類別分配不同的權重,引導網絡對少數類別給予更多的關注,實際上是調整了每個類別的損失在總損失中的占比,緩解了因長尾分布導致的梯度占比失衡。Gui等[11]設計了一個重新加權方案,其利用每個類別的有效樣本數來重新平衡損失,從而產生類別平衡損失。Cao等[12]設計了一種兩步訓練方法,第一步只用基于理論原則的標簽分布感知邊際損失(label-distribution-aware margin loss, LDAM)進行訓練,取代訓練過程中標準的交叉熵損失;第二步加上了傳統重加權操作。這種方法將重新加權置于初始階段之后,允許模型學習初始表示,同時避免與重新加權、重新抽樣相關的一些并發問題。
傳統方法有較優的分類性能,但其可解釋性較差,這限制了深度學習方法的應用領域。
1.2 因果推斷方法
因果推斷是研究如何更加科學地識別變量之間的因果關系。因果推斷要求原因先于結果,原因與結果同時變化或者相關,結果不存在其他可能的解釋,強調原因的唯一性。Pearl等[13]提出了“因果之梯”的概念,自下而上將問題劃分為關聯、干預和反事實,分別對應于觀察、行動和想象。對于這三個層次,因果推斷的方法主要包括重加權方法、分層方法、基于匹配方法、基于樹方法、基于表示方法、基于多任務學習方法以及元學習方法[14]。
在平衡分布數據分類任務中,基于因果推斷的方法展示了其優勢。Kuang等[15]提出了一種去相關加權回歸DWR算法,該算法聯合了優化變量去相關正則化模型和加權回歸模型。Shen等[16]提出了一種新的因果正則化邏輯回歸CRLR算法,全局混雜因子平衡有助于識別因果特征,在不同域之間,這些因果特征對結果的影響具有穩定性,然后對這些因果特征進行邏輯回歸,構建一個針對不可知性的魯棒預測模型,其可解釋性可以通過特征可視化得到充分描述。Li等[17]將因果分類用于一組個性化決策問題,并將其與分類進行區分,討論了通過增強型因果異質性建模方法解決因果分類的條件,同時還提出了一個因果分類的一般框架,使用現有的監督方法進行靈活運用。
雖然在平衡分布數據分類任務中,因果推斷方法優勢明顯,但將其應用于長尾分布數據分類任務中會存在尾部類別分類精度較差的問題,從而影響整體分類精度。
2 基于因果推斷的兩階段長尾分類模型
2.1 去相關樣本重加權算法及改進
在實際應用中,不能保證未知測試數據與訓練數據具有相同的分布。如果利用訓練數據中存在的特征之間的偏差關系來改進預測,就會導致參數估計的不準確性以及與不同分布數據集之間預測的不穩定性。因此導致模型精度下降的主要原因是不相關特征和類別標簽之間的虛假相關。去相關樣本重加權方法[15]的目標是去除特征之間的虛假相關,本質是通過對樣本進行全局加權,直接對每個輸入樣本的所有特征進行去相關以解決分布偏移問題,去相關樣本加權方法首先利用卷積神經網絡(convolutional neural network,CNN)進行特征提取,然后開始去相關的樣本重加權,以此來消除特征之間的線性、非線性依賴關系,再利用最終損失對分類網絡進行優化并進行圖片分類。所用公式為
wb=argminw∑pj=1‖E[XTj∑wX-j]-E[XTjw]E[XT-jw]‖22,(1)
其中:w為樣本權重;wb表示最終學習到的樣本權重;∑w=diag(w1,w2,…,wn)和∑ni=1wi=n是權重對應的對角矩陣,n表示樣本量;X表示變量集合(為n維行矩陣),X-j=X\{Xj}表示通過刪除變量集合X中第j個變量所得到的所有剩余變量;p表示變量的位數。
通過樣本重加權使X中的變量互不相干,從而減少訓練環境中協變量之間的相關性,從而提高參數估計的準確性。當∑ni=1wi=n時,公式(1)中的損失可以表示為
Loss=∑pj=1‖XTj∑wX-j/n-(XTjw/n)·(XT-jw/n)‖22,(2)
其中w為wi。
由于在重加權過程中會產生大量的額外空間,為解決這一問題,本文在上述方法的尾端采用了迭代優化機制,只保存最優權重參數。對于每個批次,用于優化樣本權重的特征生成為
ZO=Concat(ZG1,ZG2,…,ZGk,ZL),
wO=Concat(wG1,wG2,…,wGk,wL)。(3)
其中:ZO和wO分別表示優化樣本特征和權重;ZG1,ZG2,…,ZGk,wG1,wG2,…,wGk表示整個訓練集的全局信息,在每個批次結束時更新;ZL和wL是當前批次中的特征和權重。例如批量大小為x時,ZO是大小為((k+1)x)×mZ的矩陣,wO是(k+1)x維向量。通過這種方式將儲存成本從O(N)降到了O(kx)。在對每一批進行訓練時,保持wGi不變,只有wL在本批次進行特征學習,在每次訓練迭代結束時,將全局信息(ZGi,wGi)和局部信息(ZL,wL)融合,所用公式為
Z′Gi=αiZ+(1-αi)ZL,
w′Gi=αiwGi+(1-αi)wL。(4)
對于每組全局信息(ZGi,wGi),使用k個不同的平滑參數αi來約束全局信息的長期記憶(αi較大)和短期記憶(αi較?。?,最后將(ZGi,wGi)替換為(Z′Gi,w′Gi)。
在訓練過程中,引入Mixup[18]數據增強方法可進一步提高模型性能。Mixup數據增強方法簡單來說就是構造虛擬訓練樣本執行數據增強,并且在數據處理過程中引入較少的參數量來節約計算資源。
本階段網絡模型采用Resnet_34作為主干網絡,并將輸出的特征圖譜進行去相關的樣本重加權操作,并利用最終損失對分類網絡進行迭代優化,從而實現圖片分類任務,其主要流程如圖1所示。
2.2 基于CAM的類平衡采樣
第一階段模型在不均衡數據集上訓練,能夠學習到好的特征表示,但是尾部類別中識別準確率較差。為了得到更均衡的數據分布,第二階段用重采樣方法進行平衡微調,使獲取的不平衡數據集特征值在所有類別之間實現特征共享與特征重平衡。最終本文選擇基于類激活映射(class activation mapping,CAM)[19]的類平衡采樣方法作為平衡微調實驗的模型。
2.2.1 類平衡采樣
對于不同的采樣方式,概率pj的公式為
pj=nqj/(∑Ci=1nqi),(5)
其中:q∈[0,1],對于不同的q值,會出現不同的采樣策略;C是類的數量。
本文所用的采樣方法為類平衡采樣[10],每個類被選中的樣本概率相等。q=0時,概率pCBj公式為
pCBj=1/C。(6)
2.2.2 類激活映射(CAM)
為了產生鑒別性的信息,本文受類激活映射的啟發,將CAM與類平衡采樣相結合構成第二階段實驗,使模型從數據層面具有可解釋性。
類激活映射(CAM)[19]是將輸出層的權重投射回卷積特征圖,以識別圖像關注區域的重要性技術。通過全局平均池化輸出卷積層中每個單元特征圖的空間平均值,這些值的加權和生成最終輸出。類似地,通過計算最后一個卷積層的特征圖的加權和獲得類激活圖,生成類激活圖的過程如圖2所示。
對于給定的圖像,設fk(x,y)表示在空間位置(x,y)處最后卷積層中單元k的激活。然后對單元k執行全局平均池化,Fk=∑x,yfk(x,y),因此,對于給定的c類,softmax的輸入是Sc,Sc=∑kwckFk,其中wck是對應單元k的c類的權重。最后,c類softmax輸出為公式(7),通過將Fk=∑x,yfk(x,y)代入到Sc中,得到公式(8)。
Pc=exp(Sc)∑cexp(Sc),(7)
Sc=∑kwck∑x,yfk(x,y)=∑x,y∑kwckfk(x,y)。(8)
Mc被定義為c類的類激活映射,其中每個元素空間的公式為
Mc(x,y)=∑kwckfk(x,y),(9)
因此,Sc=∑x,yMc(x,y),Mc直接指示了網絡空間(x,y)處激活的重要性,從而圖像分類為c類。
2.2.3 基于CAM的類平衡采樣
第二階段微調過程如圖3所示,首先應用重新采樣來獲得平衡的采樣圖像,通過第一訓練階段的參數化模型得到特征圖,再通過全連接層得到圖像的類別標簽。對于每個采樣的圖像,基于標簽c的特征圖和第一階段訓練得到的權重生成CAM。前景和背景根據CAM的平均值分開,其中前景包含大于平均值的像素,背景包含其余的像素。最后,在背景保持不變的情況下對前景進行預處理,包括水平翻轉、縮放、旋轉和平移變換,對每張圖片隨機選擇一個變換,最終生成有信息的采樣數據,并將生成的采樣數據增加到數據集,使用第一訓練階段的參數化模型進行訓練。
2.3 去相關樣本重加權算法和CAM的可解釋
2.3.1 去相關樣本重加權算法的可解釋
雖然許多深度學習模型在其目標任務上能夠取得良好的性能,但深度學習模型一直以來都被認為是“黑箱”模型。近年來,有學者嘗試使用因果推斷的方法去探究深度學習網絡的可解釋性。Pearl等[13]闡述了因果關系階梯中不同層級的可解釋性,因果關系階梯大致可以分為以下三層。
1) 統計相關的解釋,該層級旨在利用相關性來解釋人類是如何進行判斷的。
2) 因果干預的解釋,該層級旨在對相關行動進行人為干預,從而得到干預后的結果,并通過這些結果進行解釋。
3) 基于反事實的解釋,該層級是三個層級中最高的,旨在利用一些反事實來進行想象,并基于這些想象進行解釋。
當前的機器學習主要利用數據中的統計相關性進行建模,相關性的來源主要有因果、混淆以及樣本選擇偏差三種,分別對應圖4中的三種結構。圖4中T表示原因,Y表示結果,X表示混淆變量,S表示選擇偏差,實心箭頭表示因果關系,虛線箭頭表示假性相關關系?;煜侵复嬖谝粋€變量X,該變量構成了T和Y的共同原因,如果忽略了X的影響,那么T和Y之間存在假性相關關系,即T并非產生Y的直接原因。樣本選擇偏差也會產生相關性,當兩個相互獨立的變量T和Y產生了一個共同結果S,引入S則為T和Y之間打開了一條通路,從而誤以為T和Y之間存在關聯關系。上述兩種相關通常被稱為虛假相關,只有由因果產生的相關是一種穩定的機制,不會受非標簽特征影響,也只有這種穩定的結構是可解釋的。
傳統的可解釋技術多數會依賴于特征和結果之間的相關性,有可能會檢測出一些相反甚至病態的解釋關系。同時,這些技術難以回答“如果某個干預改變了,模型的決策或判斷是什么?”這樣的反事實相關的問題。而屬于可解釋性技術的因果推斷技術是專門研究干預結果效應的方法。因果關系與其他關系相比受到的干擾較少,由因果產生的相關是一種穩定的機制,不會受非標簽特征所影響。
當進行因果推斷時,需要考慮可能存在的混淆因素,這些因素可能導致因果關系被低估或高估。為了得出準確的因果推斷結果,可采用去相關樣本重加權的方法消除混淆因素。
去相關樣本重加權方法通過重新加權樣本來減少某些特征對研究結果的影響,從而更準確地確定因果關系。
2.3.2 CAM的可解釋
CAM是一種用于深度學習模型可視化和解釋的方法,可以幫助我們理解模型對不同類別的判斷基于哪些特征。CAM通過對CNN模型的最后一層卷積層進行修改,使其能夠輸出給定輸入圖像在特定類別上的激活熱力圖。CAM將CNN最后一層卷積層的特征圖和全局平均池化層的特征權重相乘,得到每個類別的特征映射,這些特征映射會被送入一個可視化工具中,并將它們轉換為彩色的熱力圖,這些熱力圖可以讓人們更直觀地理解模型的判斷過程,識別出模型可能出現的錯誤,還可以用于優化模型的訓練和設計,通過觀察熱力圖發現哪些區域對于分類有用,進而調整模型參數,以提高模型的準確性和可解釋性。
3 實驗結果與分析
3.1 數據集設置
本文使用的CIFAR-10/100_LT[11]是CIFAR-10/100的長尾版本。CIFAR-10和CIFAR-100都包含60 000張圖像,50 000張用于訓練,10 000張用于驗證,類別分別為10和100。
本次實驗根據數據不平衡率設計了CIFAR-10/100的長尾版本,數據不平衡率控制了訓練集的分布。不平衡率被廣泛用作長尾性的度量,也是本文主要使用的長尾性度量標準。Cui等[11]將數據集的不平衡率μ定義為最大類中的訓練樣本數除以最小樣本數,其中N是每個類別中的樣本數量,則
μ=Nmax/Nmin。(10)
對于長尾CIFAR-10數據集,不平衡率分別設置為10、20、50、100時圖像數量如表1所示。同時,也對CIFAR-100數據集做了類似的處理。
3.2 實驗設置
本文模型的特征提取器選用Resnet_34,第二階段的實驗采用了第一階段不平衡訓練得到的最優參數化模型。其中第一階段實驗參數設置如下:次數epoch=200;學習率lr=0.01;動量momentum=0.9;
批量大小batch_size=128;權重衰減wd=1e-4。第二階段的實驗參數除epoch設置為40以外,其他與第一階段實驗參數設置相同。在進行采樣方式的對比實驗以及消融實驗時,參數設置均與上述參數設置相同。
本文所涉及的實驗均在Windows 11操作系統以及NVIDIA GeForce RTX 3050 4 GB GPU上實現,本文采用的深度學習的開源框架為Pytorchcuda 1.13.0。
3.3 實驗結果
3.3.1 對比實驗
將本文所提出的模型與CIFAR10/100_LT數據集上的其他方法進行評估,不平衡率分別設置為10、20、50及100。同時為了去除不同實驗環境帶來的數據差異,采用的所有對比方法均在本文模型相同的實驗環境下進行。分類精度結果如表2所示,其中黑體數據為最優結果。
CIFAR10_LT數據集:當不平衡率分別設置為10、20、50及100時,相比于其他方法,本文模型取得了最優分類精度,分別為91.22%、86.01%、82.76%和79.28%。
CIFAR100_LT數據集:當不平衡率設置為10和20時,本文模型取得了最優精度,分別為62.41%和55.44%。當不平衡率設置為50和100時,最優分類精度為BKD模型的47.25%和44.21%,本文模型的分類精度為47.43%和43.39%。
本文模型在CIFAR10_LT數據集上有最優的表現,在CIFAR100_LT數據集相關實驗中與最優模型BKD表現基本持平,精度相差不足1%。
不相關特征和類別標簽之間的虛假相關是導致模型預測準確率下降的主要原因,同時會導致模型預測的不穩定性。本文模型通過去除變量之間的虛假相關,提高模型的預測穩定性以及準確率。其次,通過增加平衡微調實驗,解決了不平衡數據導致模型在樣本數量較少的尾部類別中識別精度較差的問題,進一步提高了模型性能。
為了證明選擇類平衡采樣方法的優越性,對不同采樣進行了對比實驗,不平衡率取100和50,分類精度結果如表3所示。
從表3中可以看出,基于CAM的類平衡采樣方法優于其他基于CAM的采樣方法。
3.3.2 消融實驗
為了判斷各方法的有效性,本文進行了消融實驗來評價本文所提出兩階段模型的性能。消融實驗只在不平衡率為100的CIFAR10_LT上進行,其主干網絡均采用Resnet_34。具體實驗結果如表4所示。
在Resnet_34網絡的基礎上增加去相關重加權方法之后,分類精度增長8.69%,以此可以證明因果推斷原理在長尾分類任務中的有效性。在②的基礎上,增加Mixup數據增強方法之后,分類精度提升1.88%。添加第二階段微調實驗(類平衡采樣)之后,分類精度比③增長2.69%,但將類平衡采樣更改為基于CAM的類平衡采樣方法之后,分類精度比③提升6.34%??梢娛褂昧薈AM的方法進行類平衡采樣,不僅能夠提升模型性能,還能夠使模型從數據層面具有可解釋性。
4 結束語
本文的主要貢獻如下:1) 本文提出的基于因果推斷的兩階段長尾分類模型在CIFAR10/100_LT數據集上取得了不錯的分類效果,并且通過對比實驗以及消融實驗,證明了該方法的有效性;2) 本文所提出的方法不僅在整體模型上具有可解釋性,并且在微調訓練階段采用了基于CAM的類平衡采樣方法,CAM方法能夠顯示出特征的具體位置,使模型在數據層面也具有可解釋性;3) 本文將因果推斷理論應用于長尾分類任務中,再次證明因果推斷理論在長尾分類任務中的有效性。
解決長尾分布問題在計算機視覺領域不僅非常重要,而且也是一項巨大的挑戰。我們認為因果推斷是一個很好的發展方向,在未來的研究中,將深入研究因果推斷理論在長尾分類任務中的應用。
參考文獻:
[1] 王陽, 袁國武, 瞿睿, 等. 基于改進YOLOv3的機場停機坪目標檢測方法[J]. 鄭州大學學報(理學版), 2022, 54(5): 22-28.
WANG Y, YUAN G W, QU R, et al. Target detection method of airport apron based on improved YOLOv3[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(5): 22-28.
[2] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2009: 248-255.
[3] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]. Cham: Springer International Publishing, 2014.
[4] ZHOU B L, LAPEDRIZA A, KHOSLA A, et al. Places: a 10 million image database for scene recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(6): 1452-1464.
[5] JUNSOMBOON N, PHIENTHRAKUL T. Combining over-sampling and under-sampling techniques for imbalance dataset[C]∥Proceedings of the 9th International Conference on Machine Learning and Computing. New York: ACM Press, 2017: 243-247.
[6] MOHAMMED R, RAWASHDEH J, ABDULLAH M. Machine learning with oversampling and undersampling techniques: overview study and experimental results[C]∥2020 11th International Conference on Information and Communication Systems. Piscataway:IEEE Press, 2020: 243-248.
[7] SHEN L, LIN Z C, HUANG Q M. Relay backpropagation for effective learning of deep convolutional neural networks[M]. Cham: Springer International Publishing, 2016.
[8] MAHAJAN D, GIRSHICK R, RAMANATHAN V, et al. Exploring the limits of weakly supervised pretraining[C]∥Computer Vision-ECCV 2018: 15th European Conference. New York: ACM Press, 2018: 185-201.
[9] ZHOU B Y, CUI Q, WEI X S, et al. BBN: bilateral-branch network with cumulative learning for long-tailed visual recognition[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2020: 9716-9725.
[10]KANG B Y, XIE S N, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition[EB/OL].(2019-10-21)[2023-02-21]. https:∥arxiv.org/abs/1910.09217.
[11]CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2020: 9260-9269.
[12]CAO K D, WEI C, GAIDON A, et al. Learning imbalanced datasets with label-distribution-aware margin loss[EB/OL]. (2019-07-18)[2023-02-21].https:∥arxiv.org/abs/1906.07413.
[13]PEARL J, MACKENZIE D. The book of why: the new science of cause and effect[M].New York: Basic Books Publishing, 2018.
[14]YAO L Y, CHU Z X, LI S, et al. A survey on causal inference[J]. ACM transactions on knowledge discovery from data, 2021, 15(5): 1-46.
[15]KUANG K, XIONG R X, CUI P, et al. Stable prediction with model misspecification and agnostic distribution shift[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(4): 4485-4492.
[16]SHEN Z Y, CUI P, KUANG K, et al. Causally regularized learning with agnostic data selection bias[C]∥Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 411-419.
[17]LI J Y, ZHANG W J, LIU L, et al. A general framework for causal classification[J]. International journal of data science and analytics, 2021, 11(2): 127-139.
[18]ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[EB/OL].(2017-10-25)[2023-02-21].https:∥arxiv.org/abs/1710.09412.
[19]ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 2921-2929.
[20]YANG Y Z, XU Z. Rethinking the value of labels for improving class-imbalanced learning[EB/OL]. (2020-07-13)[2023-02-21]. https:∥arxiv.org/abs/2006.07529.
[21]CHOU H P, CHANG S C, PAN J Y, et al. Remix: rebalanced mixup[M]. Cham: Springer International Publishing, 2020.
[22]ZHANG S Y, CHEN C, HU X Y, et al. Balanced knowledge distillation for long-tailed learning[J]. Neurocomputing, 2023, 527: 36-46.