基于可重疊混淆樹的卷積神經網絡

2022-01-01 00:00:00劉運韜李淵劉遜韻

計算機應用研究 2022年3期

摘要：卷積神經網絡（convolutional neural network，CNN）被廣泛用于圖像分類任務中。大多數現有的CNN模型都按照N路分類器的形式訓練。然而，不同類別之間總存在差異性限制了N路分類器的分類能力。為了解決上述問題，提出的神經網絡模型將混淆樹結構（confusion tree，CT）和CNN模型結合，設計了性能更強的基于混淆樹的卷積神經網絡模型（confusion tree CNN，CT-CNN）。該模型首先建立一個混淆樹來對類別之間的混淆性進行建模；然后，將混淆樹的分層結構嵌入到CNN模型中，通過這種方式可以引導CNN的訓練過程更加關注混淆性強的類別集合。該模型在公共數據集上進行了評估，實驗結果證明，CT-CNN能克服大規模數據類別間的分類難度分布不均勻的局限，在復雜大規模的分類任務中取得穩定的優秀表現。

關鍵詞：深度學習；社區發現；圖像分類；混淆圖

中圖分類號：TP183 文獻標志碼：A

文章編號：1001-3695（2022）03-051-0938-05

doi：10.19734/j.issn.1001-3695.2021.07.0308

基金項目：國家自然科學基金資助項目

作者簡介：劉運韜（1994-），男，陜西西安人，博士研究生，主要研究方向為人工智能；李淵（1987-），男，山西永濟人，助理研究員，博士，主要研究方向為人工智能；劉遜韻（1989-），男（通信作者），湖南婁底人，助理研究員，博士，主要研究方向為分布式計算（xunyunliu@outlook.com）．

CT-CNN：overlapping confusion tree based convolutional neural network

Liu Yuntao¹^，2，Li Yuan²，Liu Xunyun²^?

（1.Dept.of Computer Science，National University of Defense Technology，Changsha 410073，China；2.Institute of War，Academy of Military Science，Beijing 100097，China）

Abstract：CNN（convolutional neural network） is widely used in image classification tasks.Most existing CNN-based classification models are trained as flat N-way classifiers.However，the difference among different image categories limits the capacity of the classifier.To solve the problem，this paper proposed CT-CNN（confusion tree convolutional neural network） model which combined the CT with CNN.CT-CNN first established a CT to identify the confused categories.Then it embedded the hierarchical structure of CT into CNN model，which leaded the CNN training procedure to pay more attention on strongly confused categories.Experiments on public datasets prove that CT-CNN can overcome the limitation of uneven distribution of classification difficulty between categories of large-scale datasets and achieve better performance on complex large-scale image classification tasks.

Key words：deep learning；community detection；image classification；confusion graph

0 引言

深度卷積神經網絡（convolutional neural network，CNN）模型非常適用于大規模的圖像分類任務，其性能優于其他任何傳統方法^[1^，2]。

隨著分類技術的進步，用于分類的數據集構建技術取得了極大的發展，這使得數據集規模變得越來越大，用于分類的類別數量也越來越多，因此數據集上的分類任務也變得越來越難^[3]。這其中一個困難是如何區分具有高視覺相似度的類別^[^4]。圖像數據集是真實世界中物體的子集，因此，視覺相似性，也就是本文說的“混淆性”，是指人類所看到的某些物體在外觀、特征等方面有共同點，是類似的。因此，視覺相似性，即本文所關注的“混淆性”，既存在于數據集中，也存在于現實世界中，文獻[5]也是如此。

現有的深度卷積神經網絡（CNN）都按照N路分類器的形式訓練^[^6]，這意味著深度卷積神經網絡對弱混淆的類別集合的分類任務和強混淆的類別結合的分類任務一視同仁。然而，很顯然，強混淆的類別集合上的分類任務的難度要比弱混淆的類別結合大^[^7]。因此，強混淆和弱混淆的兩種類別集合上的分類任務的難度分布不平衡與分類模型對這些不同難度任務的一視同仁的方式產生了不匹配，從而使普通的卷積神經網絡模型的分類性能遇到了瓶頸。

一些傳統的方法^[7^，8]被提出來解決分類模型面對不同混淆程度的類別集合的分類任務所帶來的問題。這些傳統的方法將混淆程度較弱的類別集合放在樹狀結構的低層，將混淆程度較強的類別集合放在高層。這樣做的好處是，一方面弱混淆的類別集合之間很容易被區分，所以樹狀分類器可以快速有效地完成這種分類任務；另一方面，樹狀分類器就可以花更多的精力關注大規模分類任務中最困難的部分——強混淆類別集合的分類任務^[9]。

考慮到樹狀結構分類器的特點和卷積神經網絡的強勁性能，本文將卷積神經網絡模型與樹狀結構分類器相結合，以處理不同混淆程度類別結合上的分類任務分布不平衡的問題。本文提出的想法是通過在普通卷積神經網絡模型中嵌入根據數據集中的類別集合的混淆程度的層次粒度所構建的混淆樹結構來構建新的卷積神經網絡模型。這些卷積神經網絡模型模仿了混淆樹的層次結構，當對某個樣本進行分類時，該模型可以在其對應的真實類別所屬的混淆類別集合中進行精確分類。上述的混淆類別集合是整個數據集類別集合的子集，而不是數據集中的所有類別。但是與樹狀分類器不同之處是本文的卷積神經網絡模型應該輸出一個數據集中的所有類別。因此，本文提出的基于混淆樹結構的卷積神經網絡模型專注于一個樣本的真實類別所屬的混淆類別集合的分類，同時抑制其他非混淆類別集合的分類概率。為了在數據集中區分這些不同粒度的混淆類別集合，本文提出的基于混淆樹結構的卷積神經網絡模型要從混淆樹的樹狀結構中獲得先驗信息（不同類別集合的不同粒度的混淆信息），這與樹狀分類器中低層結構的功能相似。

基于此，本文提出了一種新的卷積神經網絡模型，稱為基于混淆樹結構的卷積神經網絡模型（confusion tree convolutional neural network，CT-CNN），模型的結構如圖1所示。構建CT-CNN模型包含兩個主要步驟：a）在數據集上建立一個混淆樹，受文獻[10]中視覺混淆標簽樹的啟發，本文將非重疊社區檢測算法改編為可重疊社區檢測算法，通過這種方式，可以生成更合適的樹狀結構，稱為基于可重疊社區的混淆樹（confusion tree，CT）；b）再將混淆樹嵌入到卷積神經網絡模型中，最終得到本文的基于混淆樹結構的卷積神經網絡模型。本文將CT-CNN模型的結構分為主干層和分支層兩部分，所有分支層共享主干層的網絡層，每個分支層代表某一個混淆粒度的類別集合的分類問題。此外，本文還提出了一個新的損失函數，使負責弱混淆粒度類別結合分類任務的分支層比負責強混淆粒度類別集合分類任務的分支層更早接受訓練，并且加強了這些分支層之間的結合程度。

1 基于可重疊混淆樹的神經網絡算法

1.1 混淆樹基本結構

1.2 混淆樹構建算法

混淆樹需要由從數據集類別生成的混淆社區來引導樹狀結構中分支的構建。本節首先引入構建混淆樹樹狀結構依賴的混淆社區的基礎算法，即社區發現算法，然后基于混淆社區介紹混淆樹的構建算法。

1.2.1 基于Louvain的可重疊社區發現算法

為了構建混淆樹結構，按照混淆社區對類別集合進行劃分是必要的^[10]。通常利用效率很高的Louvain社區發現算法^[11]生成混淆社區，然而，Louvain算法總是產生非重疊的社區，而不是重疊的社區，本文希望能消除上述的可分離性約束。因此，本文在此擴展Louvain算法，以實現重疊社區的檢測。

算法1描述了基于Louvain算法擴展的重疊社區發現算法。給定一個圖G和一個閾值θ，該算法有三個主要步驟：a）使用基礎的社區發現算法來發掘輸入圖中的社區劃分；b）計算并記錄G中每個節點對于第一步所發掘得到的每個社區的放入和取出前后的模塊度變化值；c）在步驟b）記錄的模塊度變化值結果按照閾值θ篩選符合將節點加入到社區的節點集合，并將它們加入到所對應的社區中，最后本文得到重疊的社區劃分結果。

具體來分析算法1，其第3行的“CommunityDetection”函數是基于社區發現算法Louvain的第一次迭代過程實現，返回非重疊社區劃分的結果，包括社區的數量N，從社區到社區內包含的點的映射集P和每個社區的標簽L；第5行的函數“GetCommunity”根據輸入頂點返回其所屬的社區的標簽；第8行的函數“CalcModularity”使用來自文獻[12]的模塊度計算公式（式（2））來計算節點v對于已挖掘的每個社區的放入和取出前后的模塊度變化值。其他需要注意的點是，算法1中的第12行按第三維（模塊度值所載的維度）的降序排序；第9～11，13行中的“{…}”表示元組，這些元組在本文算法中都是有3個元素的元組；另外“'M”和“M_all”都代表元組列表。

1.2.2 混淆樹構建算法

混淆樹的建立算法由三部分組成：a）利用混淆圖生成算法^[13]，從CNN模型的輸出建立數據集類別混淆圖；b）利用算法1的多層次檢測版本算法挖掘混淆圖中不同混淆粒度的社區劃分；c）利用步驟b）的層次結構社區劃分結果建立可重疊混淆樹。

本文以在CIFAR-10數據集上構建可重疊混淆樹的具體過程來形象闡述混淆樹的構建算法。如圖1所示，圖左邊是不同混淆粒度的混淆圖及其內部社區，右邊是可重疊混淆樹?；煜龢錁嫿ㄋ惴ㄊ紫葢没煜龍D生成算法^[13]從CIFAR-10數據集的CNN模型中獲得一個混淆圖；緊接著用Louvain算法^[11]的可迭代層次化版本來發掘混淆圖上的非重疊社區，得到了四種不同混淆粒度的混淆圖結果，在圖中分別被標記為“Initial”“Iter.1”“Iter.2”和“Iter.3”；然后在被標記為“Initial”的混淆圖上應用算法1來挖掘重疊社區劃分，結果用來替換“Iter.1”中的混淆圖社區劃分結果；最后根據在每個層次中，為每個社區在混淆樹中的對應層級上設置相應的節點，并根據每相鄰兩層的社區之間的從屬關系來連接混淆樹中兩個層級的相應節點，最終完成重疊混淆樹的構建過程。以圖1右圖混淆樹的部分構建過程為例，左邊“Iter.1”層級混淆圖中存在五個社區，此時可以在右圖混淆樹相應層級上設置五個節點，被標記為“node11～15：level3”，而該層級的社區中的每個成員代指一個類別，因此可以將葉子節點連接到上一層的“level3”的節點，例如，“node4：cat”和“node6：dog”可以被連接到“node14：level3”；重復這個過程，直到“node16～17：level2”中的節點被連接到根節點“node18：level1”，此時完成可重疊混淆樹的構建過程。

1.3 基于可重疊混淆樹的神經網絡架構

本節首先介紹將會使用的公式符號，一個圖像數據集由{xi，yi}的圖像組成，xi和yi分別表示圖像數據和標簽，混淆樹有N個層級，第j層級有Kj個標簽。

如圖2所示，基于可重疊混淆樹的神經網絡模型被設計成模仿可重疊混淆樹的分層結構。CT-CNN由四個部分組成，分別是主干層、多個粗粒度的分支層、一個細粒度的分支層和一個全局集成層。主干層的具體結構與原始CNN模型中的前幾層相同，接收原始圖像作為輸入，并提取低層次的圖像特征。當CT有N個層級時，CT-CNN有N-2個粗粒度分支，每個粗粒度分支中的層的配置與原始CNN模型中后幾層的配置相似，其中第i個粗粒度分支為{C^cij}^Kij，它對圖像xi產生粗粒度社區劃分的預測。粗粒度的分支層的設立有兩個目的：a）主干層可以從這些分支中學習圖像數據集中的粗粒度特征信息表達；b）粗粒度分支層對細粒度分支層的分類準確性有影響。CT-CNN模型的右下方有一個細粒度分支層{F^j}^KN^-1j，由KN-1個細粒度分類器組成，每個細粒度分類器都進行細粒度的分類預測任務。細粒度分支中的層配置都是從原始CNN模型的最末端的層結構復制過來的。最后的全局集成層將所有來自細粒度分支的分類預測整合，并歸一化為分數向量，作為最后的分類結果輸出。

所有的粗粒度的分支和細粒度的分支與主干層進行參數共享，原因有兩個方面：a）CNN模型中的前部分層可以學習低層次的圖像特征，如角和邊緣，這些特征適用于所有分支；b）無論哪個分支被訓練，主干層的參數都可以被微調，這意味著主干層可以從粗粒度和細粒度的分類中學習有用的特征。

1.4 基于可重疊混淆樹的神經網絡訓練方法

CT-CNN遵循端到端的訓練模式，接下來主要介紹CT-CNN訓練時的損失函數設計和總體訓練過程。

1.4.1 損失函數

其中：i表示小批量中的第i個樣本；K是CT-CNN模型中所有分支的數量；Wl是對損失函數有貢獻的第l個分支的損失權重；plc（x）j表示類分數向量plc（x）中的第j個元素。該損失函數LC計算這些分支上的softmax交叉熵，并把它們加在一起。

細粒度分支{Fj}KN-1j的損失函數被定義為

其中：pf是所有細粒度分類器的分數向量的全局整合。

為了使粗粒度和細粒度的分支結合得更緊密，本文在CT-CNN模型的損失函數中加入了一個相關項。相關項的目的是保證圖像在粗粒度的對于某一類別的分類得分大于其在細粒度中的分類得分。這意味著細粒度分支可以繼承粗粒度分支的學習成果，并且前者應該對于圖像樣本生成最可信的分類結果，因為這個分數是CT-CNN整體模型的輸出。

綜上所述，CT-CNN模型的總體損失函數被定義為

1.4.2 訓練方式

在CT-CNN模型的設計原理中，粗粒度的分支用于學習粗粒度的圖像特征，而細粒度的分支則學習比前者更復雜的細粒度圖像特征。因此，CT-CNN模型應該先訓練粗粒度的分支，然后訓練細粒度的分支。

在訓練過程中，通過改變權重Wk來控制哪個分支將被訓練。假設CT-CNN一共有K個分支，首先要訓練粗粒度的分支，則首先設置∑K-1l=1Wl=1，WK=0；然后逐漸增加WK的權重值，同時設置∑^K-1l=1Wl+WK=1；最后訓練細粒度分支，權重被設置為∑K-1l=1Wl=0，WK=1，直至訓練完成。

2 實驗與分析

2.1 實驗數據

本文在實驗中使用了兩個圖像數據集，CIFAR-100^[14]和ImageNet-12^[15]來評估本文提出的方法的性能。CIFAR-100數據集有60 000張圖像，分為100個類別，每個類別有600張圖片，其中500張用于訓練，100張用于測試。ImageNet-12數據集被分為訓練集、測試集和驗證集，有超過120萬張圖片，包含1 000個類別，通常用于評估大規模的圖片分類算法，本文使用訓練集進行訓練，使用驗證集進行測試。

2.2 實驗設置

top-N平均準確率（%）被用來評估每種方法的性能，本文使用Intel Core I7型號CPU、32 GB內存和兩張NVIDIA TITAN Xp顯卡的電腦來完成所有實驗。

深度卷積神經網絡模型訓練的時候非常容易發生梯度消失或者爆炸以及模型過擬合的問題。對于梯度消失問題，本文首先使用正確的損失函數，即交叉熵函數來訓練本文的網絡模型，同時在每一個卷積層后使用ReLU非線性激活函數，使梯度經過該激活函數計算后導數為1，避免了梯度消失問題；對于梯度爆炸問題，本文主要采取了梯度裁剪技術，即設置一個閾值，在更新梯度時如果梯度超過該閾值則將其強制限制在一個范圍內，避免了梯度爆炸問題；針對模型欠擬合問題，本文對數據集進行了數據增廣，采用的數據增廣方法包括隨機亮度變換、隨機尺寸裁剪和隨機翻轉三種方式，有效地緩解了模型欠擬合問題，提升其泛化性。網絡退化則是大型深度卷積神經網絡會遇到的問題，在本文的實驗中，以ResNet-56和HRNet-32為基礎模型拓展來的CT-CNN模型參數量很大，存在網絡退化的可能性，所以為這兩種模型，本文利用卷積層的殘差連接方法將輸入直接與輸出結合，使梯度信息可以非常暢通地在高層和低層之間相互傳導，避免了大型網絡模型訓練會面臨的網絡退化問題。

本文提出的CT-CNN模型的構建過程中，需要調優的超參數只有在1.2.1節重疊社區發現算法1中提到的輸入閾值θ，而根據生成的重疊混淆樹構建的CT-CNN模型的過程是以每個基礎卷積神經網絡模型拓展構建的，例如基于ResNet-56模型構建的CT-CNN模型的超參數就與ResNet-56模型的相應網絡結構的超參數相同，即主干網和分支網都是由卷積核大小分別為1、3、1的三層卷積層組成的殘差塊構成，CT-CNN模型中殘差塊的個數也與ResNet-56中殘差塊的個數相同。超參數θ與每個重疊社區中包含類別的種類和數目息息相關，θ的取值范圍為0～1，當θgt;0.5，算法1輸出的結果與所有社區完全重合，即每個社區均包含所有的類別，這種社區發現是沒有意義的，因此θ的調優范圍就是0～0.5。經過多次實驗本文發現，在CIFAR-100數據集上，θ=0.2時，社區發現結果中每個社區包含的類別種類和數目比較均衡和合理，而在ImageNet-12數據集上，達到同樣效果的θ取值為0.25。

2.3 實驗結果與分析

2.3.1 CIFAR-100數據集實驗結果與分析

本文選擇NIN（network in network）^[16]、VGG16^[17]、ResNet^[18]和HRNet^[19]作為基準模型。為了在這三個模型上建立混淆視覺樹，本文利用數據增強算法^[^20]從訓練集生成10 000張增廣圖像，并使用預訓練的模型來生成混淆圖。然后本文使用1.2節中的可重疊混淆樹構建算法來建立重疊混淆樹。在NIN、VGG-16、ResNet-56和HRNet-32基準模型上建立的CT分別有3、4、4和4層級。CT-CNN模型的訓練輪數設置為500輪，數據批次大小是128張。為實現對細粒度和粗粒度分支的全面訓練，調整損失權重，在前400輪訓練中對粗粒度和細粒度的分支進行充分訓練。

本文將CT-CNN模型與不同的模型進行比較，這些模型包含基準模型、相近模型（如專家網絡NofE（network of expert）^[1]、HD-CNN^[21]和HCNN^[22]）以及CT-CNN模型的變種模型（消融實驗）。表1包含了所有實驗結果，其中變種模型一欄里，OL指依賴可重疊混淆樹構建的模型，CL指確保粗粒度和細粒度分支之間分類結果緊密相關的損失函數相關項，而這里的CT-CNN是指不包含OL和CL兩個模塊的最基礎模型。

從表1的實驗結果可看出：CT-CNN模型與基準模型的對比實驗中，本文的CT-CNN模型“+OL+CL”在CIFAR-100數據集上達到了69.57%、73.33%和77.67%的最高準確率，遠高于基準模型的64.73%、69.98%和73.52%的準確率；CT-CNN模型與相關模型的對比實驗中，對于HD-CNN（這里直接使用其論文中的結果），HD-CNN僅在基于NIN的基準模型上達到65.27%的準確率，而CT-CNN完全模型比HD-CNN高4.3%；對于NofE（本文同樣采用其論文中的結果），同時以NofE為基礎模型結構構建CT-CNN完全模型并進行訓練，實驗結果表明，CT-CNN完全模型比NofE基礎模型在NIN、VGG-16、ResNet-56和HRNet-32三種基準模型的對比實驗中分別高1.61%、2.54%、1.43%和2.14%。接下來對CT-CNN展開了消融實驗，這里涉及到對兩個模塊三個變種模型的實驗。第一個模塊是CT-CNN的可重疊混淆樹結構，首先訓練無可重疊混淆樹和無損失函數相關性的CT-CNN模型，在表1中標記為“CT-CNN”，然后訓練基于可重疊混淆樹的CVT-CNN，標記為“+OL”，實驗結果表明“+OL”基于三種基準模型的實驗中分別取得了69.07%、73.07%、77.53%和85.63%的準確率，比“CT-CNN”高出0.88%、1.52%、0.72%和0.44%；第二個模塊涉及到損失函數中粗粒度分支與細粒度分支的相關項，首先訓練帶相關項的CT-CNN模型，標記為“+CL”，與“CT-CNN”相比較，以驗證在CVT-CNN的損失函數中粗粒度和細粒度的分支相關項的有效性，最終發現“+CL”比“CT-CNN”取得了更高的top-1準確率，分別高0.45%、1.78%、0.36%和0.16%。

2.3.2 ImageNet-12數據集實驗結果與分析

在ImageNet-12數據集上的實驗中，本文選取了性能較好的ResNet-56作為基準模型。至于CT-CNN模型，首先在ImageNet-12數據集的隨機10萬張圖像上應用數據增廣技術得到增廣后的圖像，并使用預訓練的基準模型ResNet-56和HRNet-32從這些圖像中構建可重疊混淆樹，這兩種CT均有四個層級，ResNet-32模型構建的CT的每個層級分支數量分別為329、29和3，而HRNet-32的CT的每個層級分支數量分別為351、24和5；然后基于已建立的CT上構建CT-CNN模型并訓練，訓練過程中的批次大小被設定為512張，訓練迭代次數設置為100，并在前60輪完成損失權重的調整。

本節完成了兩個實驗，即CT-CNN模型與基準模型的性能對比實驗，將CT-CNN模型與基準模型進行比較，實驗結果如表2所示。相比于ResNet-56模型，CT-CNN模型分別取得了77.39%的準確率，比基準模型高出1.37%，而相比于HRNet-32模型，CT-CNN模型分別取得了79.64%的準確率，比基準模型高出1.14%；基于可重疊混淆樹的神經網絡模型與基于不同樹結構的神經網絡之間性能對比實驗，這些樹型結構是標簽樹（label tree）^[7]、增強的視覺樹（enhanced visual tree）^[23]、HD-CNN結構中的層次樹（hierarchical tree）^[21]和ACNet結構中的二元層次樹（ACNet binary tree）^[24]，實驗結果如表3所示，可以發現基于傳統方法建立的樹結構的神經網絡，如標簽樹和增強型視覺樹，分類性能是最差的，而層次樹是在訓練CNN模型的過程中建立的，性能會高一些，而重疊混淆樹是根據完全訓練好的CNN模型中蘊涵的混淆信息來構建的樹結構，因此與基礎神經網絡模型嵌合得更緊密，相比于增強視覺樹、層次樹和二元層次樹結構取得了非常高的性能提升，分別為8.12%、1.06%和0.67%。

2.3.3 分類測試

本節實驗利用ImageNet-12數據集中五個案例對CT-CNN模型進行分類測試，該實驗CT-CNN模型的基礎模型是目前性能很好的HTNet-32，具體測試結果如圖3所示。圖3（a）是五個測試案例，它們的圖像類別分別是“水母”“凱旋門”“博美拉尼亞犬”“防撞頭盔”和“雛鳥”；圖3（b）～（d）分別是CT-CNN模型分類過程中粗粒度分支分值最高的五個分支結果、HRNet模型的測試分值最高的五個分類結果以及CT-CNN模型細粒度分支分值最高的五個結果。以第一個測試案例“凱旋門”圖片為例，可以觀察到（b）第一個測試案例的五個結果分別是3、5、43、28和24號粗粒度分支（“CB”）；而（c）是HRNet-32模型的最后分類結果，其中“凱旋門”類別的分值排到了第二，而其他四個類別分別是“宮殿”“王座”“方尖紀念碑”和“斷頭臺”；（d）是CT-CNN模型細粒度分支的最后分類結果，可以觀察到“凱旋門”類別分值排名第一，且其他四類別分別是“宮殿”“寺廟”“三腳架”和“方尖紀念碑”，“凱旋門”類別一定被包含在（b）列中出現的3號粗粒度分支的類別集合中。從該實驗結果中本文可以得出以下結論，粗粒度分支首先為圖像案例作了一次分類，將其按大類分開，粗粒度分類信息又可為后續細粒度分支的分類利用，也可使整個模型更加聚焦于比較困難的混淆程度高的類別之間的分類過程。與HRNet-32模型相比，本文提出的CT-CNN模型在五個測試案例中，真實類別的分值都是排名第一，說明本文模型的實際分類性能更加出色。

3 結束語

本文提出了可重疊混淆樹的構建算法以及嵌入了可重疊混淆樹結構的基于混淆樹的神經網絡模型混淆視覺樹（CT-CNN）。與原來的CNN模型相比，CT-CNN從粗粒度的分支中學習圖像間的重要混淆信息，并同時專注于細粒度分支的分類，從而大大提高了性能。在CIFAR-100和ImageNet-12數據集上的實驗結果證實了CT-CNN相對于原始CNN模型例如VGG-16、ResNet-56和HRNet-32以及其他相關模型的優勢。

下一步的研究方向主要集中于混淆樹的自動學習方面，目前的模型在訓練環節中，必須先構建混淆圖，再將混淆圖的結構嵌入到CT-CNN模型中，才能展開對CT-CNN模型的訓練，這使得混淆樹的結構不能根據CT-CNN模型的訓練進行實時調優，這就限制了CT-CNN的最終性能。因此，對混淆樹結構與CT-CNN模型的結合的端到端訓練的研究就很有必要，這將是本文下一步研究關注的重點。

參考文獻：

[1]Ahmed K，Baig M H，Torresani L.Network of experts for large-scale image categorization[C]//Proc of European Conference on Computer Vision.Cham：Springer，2016：516-532.

[2]蔣夢瑩，林小竹，柯巖，等.基于權值分布的多模型分類算法研究[J].計算機應用研究，2020，37（1）：313-316.（ Jiang Mengying，Lin Xiaozhu，Ke Yan，et al.Research on multi-model classification algorithm based on weight distribution[J].Application Research of Computers，2020，37（1）：313-316.）

[3]Li Wen，Wang Limin，Li Wei，et al.Webvision database：visual lear-ning and understanding from Web data[EB/OL].[2017-08-09].https：//arxiv.org/abs/1708.02862.

[4]Khosla A，Jayadevaprakash N，Yao Bangpeng，et al.Novel dataset for fine-grained image categorization：Stanford dogs[C]//Proc of CVPR Workshop on Fine-Grained Visual Categorization.2011.

[5]Deng Jia，Berg A C，Li Kai，et al.What does classifying more than 10 000 image categories tell us？[C]//Proc of European Conference on Computer Vision.Berlin：Springer，2010：71-84.

[6]LeCun Y，Bengio Y，Hinton G.Deep learning[J].Nature，2015，521（7553）：436-444.

[7]Bengio S，Weston J，Grangier D.Label embedding trees for large multi-class tasks[C]//Proc of the 23rd International Conference on Neural Information Processing Systems.2010：163-171 .

[8]Fan Jianping，Zhou Ning，Peng Jinye，et al.Hierarchical learning of tree classifiers for large-scale plant species identification[J].IEEE Trans on Image Processing.2015，24（11）：4172-4184.

[9]胡偉，高博川，黃振航，等.樹型結構卷積神經網絡優化的城區遙感圖像語義分割[J].中國圖象圖形學報，2020，25（5）：1043-1052.（Hu Wei，Gao Bochuan，Huang Zhenhang，et al.Semantic segmentation of urban remote sensing image optimized by tree structure convolution neural network[J].Journal of Image amp; Graphics，2020，25（5）：1043-1052）.

[10]Liu Yuntao，Dou Yong，Jin Ruochun，et al.Visual confusion label tree for image classification[C]//Proc of International Conference on Multimedia and Expo.Piscataway，NJ：IEEE Press，2018：1-6.

[11]Blondel V D，Guillaume J L，Lambiotte R，et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics：Theory and Experiment，2008，2008（10）：P10008.

[12]Newman M E.Modularity and community structure in networks[J].Proceedings of the National Academy of Sciences.2006，103（23）：8577-8582.

[13]Jin Ruochun，Dou Yong，Wang Yueqing，et al.Confusion graph：detecting confusion communities in large scale image classification[C]//Proc of IJCAI.2017：1980-1986.

[14]Krizhevsky A.Learning multiple layers of features from tiny images[D].Toronto：University of Toronto，2009.

[15]Deng Jia，Dong Wei，Socher R，et al.ImageNet：a large-scale hierarchical image database[C]//Proc of Conference on Computer Vision and Pattern Recognition.2009：248-255.

[16]Lin Min，Chen Qiang，Yan Shuicheng.Network in network[EB/OL].[2013-12-16].https：//arxiv.org/abs/1312.4400.

[17]Simonyan K，Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2014-09-04] https：//arxiv.org/abs/1409.1556.

[18]He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：770-778.

[19]Wang Jingdong，Sun Ke，Cheng Tianheng，et al.Deep high-resolution representation learning for visual recognition[EB/OL].（2019-08-20）.https：//arxiv.org/abs/1908.07919v2.

[20]Wu Ren，Yan Shuicheng，Shan Yi，et al.Deep image：scaling up image recognition[EB/OL].[2015-01-13].https：//arxiv.org/abs/1501.02876.

[21]Yan Zhicheng，Zhang Hao，Piramuthu R，et al.HD-CNN：hierarchical deep convolutional neural networks for large scale visual recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2015：2740-2748.

[22]Zheng Yu，Chen Qinyu，Fan Jianping，et al.Hierarchical convolutional neural network via hierarchical cluster validity based visual tree learning[J].Neurocomputing，2020，409（10）：408-419.

[23]Zheng Yu，Fan Jianping，Zhang Ji，et al.Hierarchical learning of multi-task sparse metrics for large-scale image classification[J].Pattern Recognition，2017，67（7）：97-109.

[24]Ji Ruyi，Wen Longyin，Zhang Libo，et al.Attention convolutional binary neural tree for fine-grained visual categorization[C]//Proc of Conference on Computer Vision and Pattern Recognition.2020：10468-10477.

計算機應用研究2022年3期

計算機應用研究的其它文章: 下期要目; 點線融合雙目定位與建圖多維提升方法; 基于QBFM矩和三維結構的圖像哈希算法; 基于語義分割不確定性的特征點選擇算法; 基于多級深度網絡架構的群體行為分析模型研究; 基于三級神經網絡的魯棒3D手姿估計