黃 浩,葛洪偉+
1.江蘇省模式識別與計(jì)算智能工程實(shí)驗(yàn)室(江南大學(xué)),江蘇 無錫214122
2.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122
面部表情是人類情緒的最直接外部表現(xiàn)之一,同樣的信息配合不同的表情可能有完全不同的涵義。要達(dá)到高效的人機(jī)交互,機(jī)器準(zhǔn)確理解人類表情至關(guān)重要。除了追求未來科技上的進(jìn)步,在各種現(xiàn)實(shí)問題上,表情識別也有廣泛的應(yīng)用前景。在心理學(xué)研究、疲勞駕駛檢測、自閉癥行為研究等現(xiàn)實(shí)問題上已經(jīng)有了部分應(yīng)用。其分支微表情識別也具備成為公共安防和刑偵審訊的重要工具的潛力。
在實(shí)際的課題研究中,數(shù)據(jù)是表情識別任務(wù)中的關(guān)鍵。根據(jù)數(shù)據(jù)的來源,可以將數(shù)據(jù)分為室內(nèi)(lab-controlled)數(shù)據(jù)和野外(in-the-wild)數(shù)據(jù)。前者是邀請志愿者拍攝給定的表情,后者多是網(wǎng)絡(luò)上收集數(shù)據(jù)交由專業(yè)人士標(biāo)注。一般而言,網(wǎng)絡(luò)數(shù)據(jù)要比實(shí)驗(yàn)室擺拍更貼近真實(shí)生活中的場景,人的表情更加自然。同時(shí),網(wǎng)絡(luò)數(shù)據(jù)也更能涵蓋不同國家、不同種族、不同膚色、不同信仰的人物數(shù)據(jù),因而近年來的多數(shù)研究都集中在野外表情識別上。野外數(shù)據(jù)集擁有海量的數(shù)據(jù),數(shù)據(jù)的量級和復(fù)雜程度導(dǎo)致傳統(tǒng)方法表現(xiàn)不佳,基于深度學(xué)習(xí)的表情識別已是現(xiàn)階段表情識別研究的最熱門也是最有效的方法。
如圖1 所示,深度人臉表情識別系統(tǒng)一般由三個部分組成:數(shù)據(jù)預(yù)處理、深度特征學(xué)習(xí)、深度特征分類。數(shù)據(jù)預(yù)處理包括人臉對齊、數(shù)據(jù)增強(qiáng)、數(shù)據(jù)清洗等方面。受益于人臉識別的多年發(fā)展,數(shù)據(jù)預(yù)處理階段的多數(shù)問題有了成熟的解決方案。多數(shù)的研究都是在后兩個主題上做修改,通過修改網(wǎng)絡(luò)結(jié)構(gòu)或者損失函數(shù)來學(xué)習(xí)到更準(zhǔn)確的數(shù)據(jù)模型。

圖1 深度表情識別通用流程Fig.1 General pipeline of deep facial expression recognition system
將表情視為動態(tài)過程更契合事實(shí),這一方面也有了很多研究工作。然而,無論是處理成圖像序列還是視頻數(shù)據(jù)庫,都存在著計(jì)算量大、標(biāo)簽成本高等實(shí)際問題。靜態(tài)的圖片用于情感識別雖有不合理之處,但由于其數(shù)據(jù)較易獲得、較易標(biāo)記、便于研究等特點(diǎn),是現(xiàn)階段表情識別的重點(diǎn)。同時(shí),從靜態(tài)圖像中研究出來的成果也可以較為方便地移植到圖片序列的識別任務(wù)中。
不同于其他的模式識別任務(wù),人臉表情識別數(shù)據(jù)中的有用信息相對較少。具體而言,識別表情主要依靠分辨五官和整體面部的幾何特性,人臉的毛發(fā)、紋理、裝飾物往往起到的是負(fù)面作用。大量的冗余信息使得表情識別問題的精度嚴(yán)重受限,即使是深度學(xué)習(xí)方法也需要引入部分先驗(yàn)知識作為輔助。2016 年,Barsoum 等提出使用眾包算法可以提高人臉表情數(shù)據(jù)庫的標(biāo)簽可靠性,同時(shí)達(dá)到節(jié)約成本的目的。通過重標(biāo)簽引入了更多信息,提供了Ferplus數(shù)據(jù)庫;2019 年,Barros 等提出了一種基于傳統(tǒng)對抗性自編碼器的神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)如何表示和編輯一般的情緒表達(dá),通過一個PK(prior-knowledge)模塊引入喚起/效價(jià)(arousal/valence)表征和面部分布信息。2020 年,Takalkar 等提出了一種集成多種特征進(jìn)行微表情識別的方法,引入了LBP-TOP 手工特征信息,結(jié)合CNN(convolutional neural network)深度特征,在大規(guī)模數(shù)據(jù)上取得了良好效果。
目前,國內(nèi)在這一方向上的研究也已經(jīng)走到了世界前沿。其中,北京郵電大學(xué)的鄧偉洪教授小組發(fā)表了多篇高水平論文,鄧教授小組主要研究了野外(相對以前長期的實(shí)驗(yàn)室研究)表情識別問題,更貼切現(xiàn)實(shí)世界的情況,對于表情識別技術(shù)走向成熟和實(shí)際應(yīng)用有重要意義,提出了DLP-CNN(deep locality-preserving CNN)模型,引入了深層特征的K近鄰聚類損失;中國科學(xué)院計(jì)算技術(shù)研究所的山世光研究員所領(lǐng)導(dǎo)的小組在有遮蓋的人臉表情識別方面取得了目前最好的結(jié)果,提供了有部分遮蓋的人臉數(shù)據(jù)集,提出了pACNN(convolution neural network with attention mechanism)方法,引入了人臉特征點(diǎn)局部信息。
為了解決人臉表情識別精度較低的問題,本文引入了類間關(guān)聯(lián)信息,提出了一種強(qiáng)化類間區(qū)分的深度殘差表情識別網(wǎng)絡(luò)RMRnet(recall matrix distinguished residual net),通過歸一化召回矩陣的分析,得出類間聯(lián)系,融合類間聯(lián)系到殘差網(wǎng)絡(luò)的設(shè)計(jì)中,通過強(qiáng)化強(qiáng)聯(lián)系類別的區(qū)分和適度平衡弱聯(lián)系類別的區(qū)分為網(wǎng)絡(luò)引入類間關(guān)聯(lián)信息。在多個大型數(shù)據(jù)庫上的實(shí)驗(yàn)表明,本文模型性能卓越,在精度上優(yōu)于基礎(chǔ)模型,在與先進(jìn)方法的比較中也有良好的表現(xiàn)。
殘差網(wǎng)絡(luò)(residual net,Resnet)由何凱明等提出,引入殘差塊概念來代替重復(fù)的卷積層,將一層卷積層的特征提取能力描述為(),那么對應(yīng)的殘差塊為()=()-。由于采用了下采樣跳層,一個殘差塊在反向傳播時(shí)梯度遞減的幅度僅相當(dāng)于一層卷積。殘差網(wǎng)絡(luò)用來處理網(wǎng)絡(luò)退化問題,有著強(qiáng)大的特征提取能力,并且有相對較少的參數(shù)。圖2 展示了一個[[3×3,64],[3×3,64]]×2 殘差塊的結(jié)構(gòu)(即Resnet18 中的第一個殘差塊),本文使用Resnet18 作為深度特征分析工具,也用作本文的骨干網(wǎng)絡(luò)。

圖2 一個[[3×3,64],[3×3,64]]×2 殘差塊Fig.2 A[[3×3,64],[3×3,64]]×2 residual block
通常來說,評價(jià)一個表情識別模型的優(yōu)劣主要依據(jù)總體分類精度(overall sample accuracy)。如果探究類間關(guān)系,利用CM(confusion matrix)。直接使用CM 矩陣,各次實(shí)驗(yàn)的數(shù)據(jù)之間會出現(xiàn)數(shù)值波動,也不夠直觀。為了下一步進(jìn)行定量分析,對CM 矩陣做以下歸一化:

其中,c表示未歸一化混淆矩陣(CM)的第行、第列的值,表示真實(shí)分類為第類卻被劃分為第類的樣本數(shù)量,進(jìn)一步可以求得CM 對應(yīng)的RM(recall matrix)矩陣,RM 矩陣中的元素表示為:

用RM 來對各類表情做定量分析,探究類間聯(lián)系,如果各類數(shù)據(jù)之間確實(shí)關(guān)聯(lián)程度不盡相同,那么聯(lián)系更為緊密的類之間應(yīng)該更難區(qū)分。本文在RAFDB 數(shù)據(jù)庫上做了如下先驗(yàn)實(shí)驗(yàn)。
本文使用Resnet18 作為先驗(yàn)實(shí)驗(yàn)的網(wǎng)絡(luò)模型,為了減少數(shù)據(jù)的長尾問題帶來的影響,對RAF-DB 數(shù)據(jù)庫做隨機(jī)欠采樣實(shí)現(xiàn)數(shù)據(jù)平衡:以最短類的數(shù)量為基準(zhǔn),在其他類中隨機(jī)選擇相同數(shù)量的圖片(以后簡稱為平衡集)。圖3 展示了在平衡集上的實(shí)驗(yàn)結(jié)果。由于平衡數(shù)據(jù)庫的數(shù)據(jù)量較少,為了避免數(shù)據(jù)量的影響,還取了與此平衡數(shù)據(jù)集數(shù)量相等的符合原數(shù)據(jù)庫分布的圖片數(shù)據(jù)作為對照組(以后簡稱同分布集),對照實(shí)驗(yàn)結(jié)果如圖4 所示。

圖3 平衡數(shù)據(jù)集的Resnet18 實(shí)驗(yàn)(精度為58.6%)Fig.3 Resnet18 experiment of balanced dataset(accuracy is 58.6%)

圖4 原數(shù)據(jù)集同分布的Resnet18 實(shí)驗(yàn)(精度為65.6%)Fig.4 Resnet18 experiment with codistribution of original dataset(accuracy is 65.6%)
由于數(shù)據(jù)的長尾效應(yīng),在數(shù)據(jù)模型中的各類數(shù)據(jù)有著不同的權(quán)重,表現(xiàn)在對照組中就是如圖4 所示的各類數(shù)據(jù)精確度的極度不平衡。例如圖中的恐懼(fear)和快樂(happiness),恐懼(有26%的精確度)是原數(shù)據(jù)庫中數(shù)量最少的類,僅僅有281 張圖片,而快樂(有86%的精確度)作為原數(shù)據(jù)中最多的類,包含了4 772 張圖片。
在經(jīng)過數(shù)據(jù)平衡之后,由于數(shù)據(jù)的長尾效應(yīng)引起的各類權(quán)重不一致被消除了。但由于測試集也有著和訓(xùn)練集類似的數(shù)據(jù)分布,就整體精度而言,Resnet18 在同分布集上的表現(xiàn)優(yōu)于平衡集上的表現(xiàn)。通常情況下,并不希望一個網(wǎng)絡(luò)模型對兩個類識別精度有較大的差異,本文的網(wǎng)絡(luò)模型設(shè)計(jì)也是基于平衡集給出的信息。并且,同分布集的數(shù)據(jù)被識別為大樣本類的概率更大,從它的實(shí)驗(yàn)結(jié)果中也不可能得到公平的類間關(guān)系。使用以下的公式得到兩個類之間的關(guān)聯(lián)程度:

其中,(,)為true 時(shí)表示類和類相關(guān)度高,構(gòu)建強(qiáng)關(guān)聯(lián)集{,},反之,相關(guān)度低;R表示RM 矩陣中類被錯誤識別為類的概率,表示相關(guān)系數(shù)閾值,依經(jīng)驗(yàn)設(shè)定。對于類,本文只考慮它的最大強(qiáng)關(guān)聯(lián)集。例如:∈{,}且∈{,,}時(shí),為了避免類的分類權(quán)值被高估,也為了避免設(shè)定過小時(shí)類間關(guān)系過于復(fù)雜,本文將只考慮包含類的最大強(qiáng)關(guān)聯(lián)集{,,},舍棄強(qiáng)關(guān)聯(lián)集{,}。最后將不屬于任何一個強(qiáng)關(guān)聯(lián)集的類別劃分到弱關(guān)聯(lián)集中。應(yīng)用這樣的方法,可以得到兩個強(qiáng)關(guān)聯(lián)集{fear,anger},{disgust,sadness,neutral}以及一個弱關(guān)聯(lián)集{surprise,happiness}。
融合上文中獲取到的類間關(guān)聯(lián)信息,本文的網(wǎng)絡(luò)模型如圖5所示。RMRnet模型接受RGB圖片信息作為輸入預(yù)測圖中人物表情,網(wǎng)絡(luò)由三部分組成:骨干網(wǎng)絡(luò)Resnet18,強(qiáng)聯(lián)系分支branch1、branch2和補(bǔ)充分支cp-branch。最后得到兩個輸出主干輸出out和類間區(qū)分匯總信息b_out。對目標(biāo)圖片的預(yù)測值表示為:

圖5 RMRnet整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Pipeline of RMRnet network

其中,表示類間信息參數(shù),一般取0.1。對于骨干網(wǎng)絡(luò)輸出,選擇交叉熵函數(shù)作為損失函數(shù):


相較于弱關(guān)聯(lián)類,強(qiáng)關(guān)聯(lián)類更難區(qū)分,需要更深層網(wǎng)絡(luò)提取差異信息。出于對特征層次的考慮,本文將強(qiáng)聯(lián)系分支branch1、branch2 放置在Resnet18 的第三個殘差塊與第四個殘差塊之間,將弱聯(lián)系分支cp-branch 放置在Resnet18 的第二個殘差塊和第三個殘差塊之間。
每一個強(qiáng)化支路設(shè)計(jì)為一個殘差塊和兩層全連接層的組合,分支的目的是為了進(jìn)一步區(qū)分關(guān)聯(lián)集中的類別組合。如果經(jīng)過第個殘差塊得到的特征向量記為x,自然可以得到:

例如:要設(shè)計(jì)7 分類表情中{fear,anger}類別組合的分支(即第二和第六類),該支路將會輸出一個二維而非七維的特征向量y,該向量只包含第二和第六類的高維特征。但為了實(shí)現(xiàn)的便利,在其他位對應(yīng)的位置填充零值,依然將它處理為一個七維特征向量,以便進(jìn)行后續(xù)的向量加法運(yùn)算。
補(bǔ)充支路與分支支路設(shè)計(jì)的模式基本相同,都是一個殘差塊與兩個全連接層的組合,唯一不同的是,將除去有關(guān)類別的剩余類別作為該支路的目標(biāo)輸出。這樣的考量是基于以下推斷,對于分類支路所得的特征向量y做加權(quán)后,該分支所涉及的類別對最終的高維特征有了影響,如果不設(shè)計(jì)補(bǔ)充支路,相當(dāng)于其余維度的額外影響置零,在復(fù)雜的現(xiàn)實(shí)情況中,可能會帶來誤差。
補(bǔ)充支路與分類強(qiáng)化支路的輸出匯總表示為:

其中,y表示第個分支的特征向量,y表示補(bǔ)充支路得到的特征向量,表示各自的權(quán)重。同樣使用交叉熵函數(shù)作為損失函數(shù),支路誤差表示為:



圖6 數(shù)據(jù)流圖Fig.6 Data flow diagram
數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)得到支路匯總輸出y和骨干網(wǎng)絡(luò)輸出,兩者都有分類能力,但是信息的側(cè)重點(diǎn)不同。要利用支路信息輔助骨干網(wǎng)絡(luò)進(jìn)行分類,兩者之間在數(shù)量級上不能有太大的差異。同時(shí),要保證支路信息的完整性,兩者也不能完全相同。為此,定義了差值約束損失如下:

其中,表示約束參數(shù),用于約束雙方差異;為抑制參數(shù),用于抑制梯度爆炸。整體網(wǎng)絡(luò)模型的損失函數(shù)為:

由差值約束損失的定義可得,的三個構(gòu)成部分有一定的聯(lián)系,不能獨(dú)立存在。作為本文結(jié)構(gòu)中的關(guān)鍵部分,進(jìn)一步消融是受限制的,也沒有必要性。
實(shí)驗(yàn)部分,本文將簡單地介紹用到的幾個大型數(shù)據(jù)庫,詳盡地描述本文的實(shí)驗(yàn)環(huán)境,展示本文的模型與基準(zhǔn)方法的對照,最后展示本文與現(xiàn)存的先進(jìn)深度學(xué)習(xí)方法在各個數(shù)據(jù)集上的對比。由于各個數(shù)據(jù)庫制作標(biāo)準(zhǔn)的客觀差異,在不同數(shù)據(jù)集上的預(yù)處理方法各有不同。數(shù)據(jù)結(jié)果方面,除去基準(zhǔn)方法Resnet18和本文模型的精度,其余提到的文章精度均取信于各自的論文精度。
文中選用的野外(in-the-wild)數(shù)據(jù)庫是RAF-DB數(shù)據(jù)庫、AffectNet 數(shù)據(jù)庫和Ferplus 數(shù)據(jù)庫。RAF-DB 數(shù)據(jù)庫包括了29 672 張圖片,每張圖片由40 人標(biāo)注。用到其中經(jīng)過Face++定位過人臉的單標(biāo)簽類,包含12 271 張圖片的訓(xùn)練集和包含3 068 張圖片的測試集;AffectNet 是目前最大的公開表情識別數(shù)據(jù)庫。它包含了超過100 萬張圖片,圖片數(shù)據(jù)從互聯(lián)網(wǎng)上收集。本文使用其中的已經(jīng)人工標(biāo)注過的圖片,包括414 801 張圖片的訓(xùn)練集和5 501 張圖片的驗(yàn)證集,相較于RAF-DB,AffectNet 的標(biāo)簽要模糊許多。Ferplus 數(shù)據(jù)庫是在Fer2013 數(shù)據(jù)庫上重標(biāo)簽而來,一張圖片有10 個標(biāo)注者,圖片為48×48 的灰度圖,采用最大投票法,將十維標(biāo)簽轉(zhuǎn)化為單標(biāo)簽。
本文實(shí)驗(yàn)設(shè)定如下參數(shù):網(wǎng)絡(luò)模型接受224×224尺寸的RGB 三通道圖片作為輸入,批處理大小設(shè)定為16,動量設(shè)定為0.5,學(xué)習(xí)率設(shè)定為0.01,迭代次數(shù)為40。采用權(quán)重衰減和學(xué)習(xí)率衰減策略,權(quán)重衰減系數(shù)為10,學(xué)習(xí)率衰減方法為指數(shù)衰減。網(wǎng)絡(luò)模型部署在單張Nvidia 2080Ti 顯卡上,使用pytorch 深度學(xué)習(xí)框架。模型的骨干網(wǎng)絡(luò)Resnet18 在ImageNet 數(shù)據(jù)庫上做預(yù)訓(xùn)練。文中提到的各個參數(shù)設(shè)定如下:相關(guān)系數(shù)閾值∈(0,0.33),根據(jù)實(shí)際情況取值;類間信息參數(shù)一般取0.1;、、λ均取1;約束參數(shù)取值0.25;抑制參數(shù)視實(shí)際情況將×(-y)整體控制在(0,10)量級即可,實(shí)驗(yàn)中取10。
正如前文提到的,本文用到的各類數(shù)據(jù)庫有不同的制作標(biāo)準(zhǔn),實(shí)際上,幾乎所有的表情數(shù)據(jù)庫制定標(biāo)準(zhǔn)都不盡相同。RAF-DB 數(shù)據(jù)庫為研究者提供了一個裁剪好的人臉圖像,而AffectNet 數(shù)據(jù)庫提供的圖片甚至尺寸、格式也不統(tǒng)一,F(xiàn)erplus 則僅僅提供了48×48 的灰度值矩陣。本文使用dlib 開源工具裁剪AffectNet 數(shù)據(jù)庫中的原始圖像。對于所有圖片采用最鄰近插值法,將圖像尺寸調(diào)整為224×224。對于單通道圖片,通過復(fù)制法將其轉(zhuǎn)化為三通道圖片。
與基準(zhǔn)方法Resnet18 進(jìn)行對比,如果本文方法有效,各類數(shù)據(jù)被錯誤分類的情況不會再出現(xiàn)在某些類上較多,其他類上較少,應(yīng)當(dāng)是均勻的,表示本文方法中類間聯(lián)系信息起到了作用。圖7 和圖8 展示了本文模型和基準(zhǔn)模型在RAF-DB 數(shù)據(jù)庫上預(yù)測結(jié)果的混淆矩陣,可以看出除happiness 類型以外的各類數(shù)據(jù)識別率,相較于基準(zhǔn)模型,本文方法都取得了更好的效果。本文方法不僅僅在整體精度上超過了基準(zhǔn)方法,類平均精度上也高于基準(zhǔn)方法(圖7 對應(yīng)的實(shí)驗(yàn)類平均精度為80.55%,圖8 對應(yīng)的實(shí)驗(yàn)類平均精度為76.80%)。也如預(yù)期的,各類數(shù)據(jù)的誤識別率相對均勻,被本文處理為強(qiáng)關(guān)聯(lián)類的{fear,anger}和{disgust,sadness,neutral}沒有再出現(xiàn)10%以上的誤分類情況。

圖7 RMRnet在RAF-DB 上的預(yù)測值Fig.7 Predicted value of RMRnet on RAF-DB

圖8 Resnet18 在RAF-DB 上的預(yù)測值Fig.8 Predicted value of Resnet18 on RAF-DB
本實(shí)驗(yàn)結(jié)果與多個近年表現(xiàn)優(yōu)異的網(wǎng)絡(luò)模型在多個大型數(shù)據(jù)庫上進(jìn)行了對比。相比較基準(zhǔn)方法Resnet18,在平均精度上,本模型在RAF-DB 上提高了3.26 個百分點(diǎn),在AffectNet 上領(lǐng)先了3.91 個百分點(diǎn),在Ferplus 上領(lǐng)先了4.16 個百分點(diǎn)。如表1 所示:在AffectNet 上,本文與DLP-CNN、EAU-Net、pACNN、IPA2LT 等方法進(jìn)行了對比,本文的整體效果僅次于EAU-Net,對AffectNet 數(shù)據(jù)庫做隨機(jī)欠采樣之后,網(wǎng)絡(luò)的預(yù)測精度最高達(dá)到了59.29%,平均精度達(dá)到了58.43%。如表1 所示:在RAF-DB 上,本文與DLPCNN、EAU-Net、pACNN、DeepExp3D 等方法進(jìn)行了對比,在一眾先進(jìn)方法中本文效果達(dá)到了最優(yōu),甚至最高精度達(dá)到了86.66%。如表1 所示:在Ferplus 上,本文與SHCNN、TFE-JL、VGG13-PLD、ESR-9 等方法進(jìn)行了對比,取得了最優(yōu)效果,在Ferplus 上的最高精度可達(dá)87.45%。

表1 在AffectNet、RAF-DB、Ferplus上的對比實(shí)驗(yàn)Table 1 Comparative experiment on AffectNet,RAF-DB,Ferplus
顯然,各種網(wǎng)絡(luò)模型在各個數(shù)據(jù)庫上的表現(xiàn)有較大差異。AffectNet 上極低的精確度是由于表情標(biāo)簽的主觀性,而RAF-DB 和Ferplus 兩個數(shù)據(jù)庫都由多人標(biāo)記,標(biāo)簽的置信度高。Ferplus 是谷歌公司團(tuán)隊(duì)對Fer2013 數(shù)據(jù)集再標(biāo)記得到。目前,在Fer2013上的模型精度一般也較低,遠(yuǎn)遠(yuǎn)達(dá)不到80%的精度。或許,從再標(biāo)記上解決數(shù)據(jù)問題也是表情識別進(jìn)一步提升精度的重要手段。
本文提出了一種研究表情識別的新角度,從各類表情的類間關(guān)系出發(fā),通過觀察分類之后的RM 矩陣結(jié)合本文的篩選算法來構(gòu)建分類支路。通過分析類間關(guān)系,可以獲取各類表情之間的關(guān)聯(lián)程度,相當(dāng)于獲取了表情識別問題理論情況下的客觀規(guī)律。將這樣的規(guī)律設(shè)計(jì)到網(wǎng)絡(luò)模型之中,模型就獲取到了特定的先驗(yàn)知識,而這樣的先驗(yàn)知識在一般的深層神經(jīng)網(wǎng)絡(luò)中能否被學(xué)習(xí)到有著不確定性。本文方法在神經(jīng)網(wǎng)絡(luò)的深層上固定了參數(shù),實(shí)驗(yàn)表明,這樣的方法效果顯著。
本文方法存在著一定的缺陷,本意是通過客觀的類間關(guān)系引入類間信息,然而由于數(shù)據(jù)處理和人工分類上的模糊性,本該清晰的類間關(guān)系并非總是不變的。可以通過多次分析來得到不同的網(wǎng)絡(luò)結(jié)構(gòu),針對數(shù)據(jù)差異應(yīng)用本文的分析方法可以達(dá)成這樣的目的,但是這樣的設(shè)計(jì)不夠智能,下一步研究方向是讓網(wǎng)絡(luò)自己學(xué)習(xí)到這樣的類間關(guān)系。