深度EM 膠囊網絡全重疊手寫數字識別與分離

2022-12-31 02:56:28姚紅革董澤浩喻鈞白小軍

自動化學報 2022年12期

姚紅革董澤浩喻鈞白小軍, 2

識別并分離高度重合數字對象的問題由Hinton等[1]于2002 年提出,多年來也有其他研究者在該領域進行了研究,如Goodfellow等[2]使用深度卷積網絡,Ba等[3]使用視覺注意力機制和Greff等[4]使用深度無監督分組進行嘗試.他們均是利用對象形狀的先驗知識進行分離.在性能最好的Ba等[3]的研究中雖然實現了95%的識別率,但圖片也只是4%的重疊率.

直到Sabour等[5]所研究的膠囊網絡CapsNet面世,重疊手寫體識別成功率才有了大幅提高,當重疊率80%時識別率可達95%.膠囊網絡的主要特征是,使用膠囊神經元代替了普通神經元,使用向量代替了在網絡中流通的標量.膠囊神經元除了承載著網絡權值的聯系之外,其向量內部也存在著維度上的聯系,豐富了圖像特征的表達與提取能力.在CapsNet 中使用了迭代路由算法,該算法用向量內積來表示向量方向的同向程度,動態路由通過迭代來實現.CapsNet 將最突出的向量作為分類結果輸出,向量的突出程度跟膠囊內與輸出向量方向相近的向量數目和模長正相關.為避免在使用內積作為衡量手段出現無上界的情況,對向量進行了輸出前的壓縮.

CapsNet 的優勢是簡單易實現,但在使用它進行全重疊數字圖片識別時發現,由于網絡深度寬度不足,中間向量的規模太小,同時內積路由算法效率低.這些因素降低了網絡的速度,影響了網絡的聚類效果,從而使網絡對圖像特征提取不夠充分,在分類時表現不佳,導致重構出來的分離圖片不夠準確和清晰.為了提高對全重疊手寫數字的識別精度,基于CapsNet,本文提出以下改進方法:

1)首先對膠囊網絡CapNet 進行加深.在它的Conv1 層之后加入一層卷積層 “卷積層2”,提高目標特征提取能力;另外在CapNet 的DigitCap 之后,對應本文 “初級膠囊層(膠囊部分)”之后加入一層全連接膠囊層 “聚類膠囊層1”,增加聚類能力以增強網絡識別能力,參見圖1(a).

圖1 深度膠囊網絡結構圖Fig.1 Deep capsule network structure diagram

2)提高膠囊維度為16 維.這樣使各個膠囊層膠囊統一維度為16 維,既提高了膠囊對圖片特征表達能力,減少維度轉換時系統消耗和信息的丟失和變異,也便于各層間信息的傳輸.

3)用EM (Expectation-maximization)向量聚類取代原路由聚類,提高聚類效果.膠囊網絡中向量神經元將低級特征預測為高級特征,輸出向量的分布符合以不同高級特征為期望的混合高斯模型[5].混合高斯模型是有限混合概率分布模型,其可用EM 算法找到最大似然估計[6?7].通過假設隱變量的存在,簡化似然函數方程的求解[6?8].基于此特點,本文將EM 聚類改為EM 向量聚類,并用它取代膠囊網絡中的迭代路由,提高了聚類效果.也減少中間變量的產生,降低顯存以及空間消耗,總體提高系統的運行效率.

4)設計了一個并行重構網絡.因為要分離兩個重疊的數字,需要取兩個模數最長的向量來進行重構,因此數字重構網絡必須要設計成并行的兩個網絡結構,才能對模數最長的兩個向量分別并行重構.依據這一想法,本文設計了一個雙并行重構網絡結構,實現了對兩個全重疊手寫數字的分離重構,參見圖1(b).

1 相關工作

膠囊網絡的思想最早出現于Hinton等[7]提出的分組神經元.基于此,Sabour等[5]進一步提出膠囊間的動態路由算法,該算法使膠囊進入了初級應用階段.盡管是初級應用,但它實現了目標屬性間的 “等變性” (Equivariance),“等變性”保留有圖像各部分信息間的關聯.而在此之前的神經網絡只是實現空間不變性,空間不變性實現的一般方法是卷積神經網絡(Convolutional neural network,CNN)的池操作,空間不變性與 “等變性”比較丟失了圖像各部分間的關聯信息.它的實現要歸因于網絡內的動態路由算法,但動態路由算法優化能力較弱,于是 Wang等[9]通過引入耦合分布KL (Kullback-Leibler)散度來優化動態路由,使膠囊網絡性能獲得一定的提升.膠囊網絡的又一應用是CapsGan[10]網絡,它使用膠囊網絡作為生成式對抗網絡(Generative adversarial network,GAN)中的甄別器,比CNN 的GAN 獲得更好的生成效果.以上方法均是對膠囊網絡優化和新領域的應用,在網絡構造上基本沒有改變.

LaLonde等[11]和 Rajasegaran等[12]對膠囊網絡結構進行了加深.LaLonde 等通過卷積,讓所有膠囊沿深度方向作為輸入進行轉換,包含在較高層的膠囊里.加深膠囊層必定增加動態路由量,引起計算復雜度的增加.為了降低計算復雜度,Rajasegaran等[12]采用了如下措施: 在初始階段減少路由迭代次數;在路由中間層使用三維卷積,采用參數共享而減少參數的數目;同時提出本地化路由代替完全連接的路由.新加深的膠囊網絡具有捕獲更細致信息的能力,增強了它的實際應用能力,可以處理比MNIST 數據集更復雜的數據集.本文對膠囊網絡的加深主要體現在前端的特征提取和后端的分離方面,目的是增強對重疊手寫體的識別能力和分離能力.

將EM 算法應用于膠囊路由也起源于Hinton等[13]的研究之作,底層膠囊的姿態矩陣通過與轉換矩陣相乘而得到高層膠囊的姿態矩陣,這個過程可以看作是每一個底層膠囊對高層膠囊所表達圖像特征的投票.投票通過分配一個權重系數來實現.這個系數是由EM 算法進行循環更新的,通過EM算法系統將底層膠囊的輸出路由給高層膠囊.底層膠囊與高層膠囊的這種聯系反應的是圖像中實體的整體與部分間關系,它使膠囊網絡具有了對所關注實體的視角不變性.EM 算法在文獻[13]中是直接應用,并未改動.本文依據輸入向量的獨立性對EM算法的E (Expectation)步進行了改進,并依信息熵重新定義了混合度,優化了膠囊間的迭代,加速其收斂,并將其用于手寫體數字分離中,相較于文獻[13]分離效果有了明顯提高.

Mixup[14]和Between-Class learning[15]是兩個對類別不同的樣本進行重疊的算法,可以是兩個圖片按不同混合比的重疊.其目的是通過豐富訓練樣本的狀態來提高所訓練模型的泛化能力.Mixup和Between-Class learning 算法說明將不同類別的圖片重疊來訓練模型能提高模型的分類能力.這一點與本文方法相同.但這兩種方法目的是分類,不能將混合的像素按圖像本來分離.本文方法是基于細致識別下的重疊圖片的重構分離.

2 DCN 網絡

基于膠囊網絡CapsNet,本文構建了一個以EM為向量聚類的深度膠囊網絡(Deep capsule network,DCN),其網絡結構如圖1 所示,由分類網絡(參見圖1(a))和重構網絡(參見圖1(b))組成.

因為卷積層在神經網絡中具有提取多級特征的能力,而且可以通過卷積核的共享降低運算量.因此在DCN 中,使用了兩個卷積層對輸入圖像的特征進行提取,其中卷積層1 使用512 個 9×9 的卷積核對圖像進行卷積在卷積層2 中使用256 個5×5 卷積核進行卷積,最終得到 256×16×16 的特征圖.

然后構建一個初級膠囊層,其前半部分通過多重卷積獲得一組 32×16×6×6 的標量,由其后半部分的膠囊生成一組由16 維向量組成的1152 個向量神經元,每個神經元輸出一個16 維的向量.在每個 6×6 的網格中,設定權重共享給每一個膠囊,然后對每個輸出向量進行輸出.

接下來使用兩個聚類膠囊層進行最終的分類,增加的聚類膠囊層1 是對初級膠囊中的向量,通過EM 向量聚類進行初步篩選,形成較為高級的有明顯傾向性的高級向量給聚類膠囊層2,然后再由聚類膠囊層2 進行第2 次EM 向量聚類,細選出可用于表示不同類別信息的向量.在每次聚類之后是壓縮.聚類的過程使得高級特征更集中,壓縮的目的是為了限制向量的模長.模長被限制于0～ 1 之間,用以表達其所屬類別的概率.再由最后一層產生10 個16 維的向量代表0～ 9 的10 分類結果,作為輸出.

在檢測重疊手寫數字時,選取輸出模最長的前兩個向量作為最可能重疊的結果進行輸出.如果模長第二的向量模長不足0.1,就認為是由兩個分類相同的數字疊加而成.

重構由重構網絡完成,本文重構網絡是由兩個結構相同的3 層全連接網絡構成,詳見圖1(b).重構時選取 “分類網絡”輸出的模長最長的兩個向量,為避免其余8 個向量的干擾,將其全部值置為“零”.然后將這10 個16 維向量,首尾接續分別傳入兩個并行重構網絡進行重構.

2.1 姿態變換矩陣

底層膠囊所生成的向量可以認為其代表了某種低級特征,該低級特征通過姿態變換矩陣可對高級特征進行預測,這種預測是對向量的方向以及維度的變換,其表達式為

其中,U(l+1,j)表示在第i層中第j個膠囊的預測向量,即預測結果.W(i,j)表示由l層的i膠囊輸出到第l+1 層中第j個膠囊特征的姿態變換矩陣.V(l,i)表示第l層中第i個膠囊的輸出向量.

2.2 EM 向量聚類算法

膠囊網絡中向量神經元將低級特征預測為高級特征,輸出向量的分布符合以不同高級特征為期望的混合高斯模型[5].基于此,將EM 聚類改造成為EM 向量聚類,用它取代膠囊網絡中的迭代路由,以優化系統,提高其運行效率.

2.2.1 EM 向量聚類

經過姿態變換方程產生的一組預測向量是符合混合高斯分布的[5],如式(2)所示,經過多輪迭代獲得概率最大的分布函數[6?7],作為膠囊的輸出.

其中,j代表類別,X為輸入向量,αj為第j類的概率且 Σjαj=1,μj為第j類的向量期望,Σj為協方差矩陣.

因為低級特征來自于輸入圖像的變換結果,所產生的向量之間可以認為是相互獨立的,因此協方差矩陣是一個對角陣,這樣就相當于輸入X在各分量解耦.所以本文相較于標準EM 迭代算法進行了改動,即

因為將輸入分布視為混合高斯分布進行聚類,聚類中心向量是類內向量的加權平均,無法通過模長來衡量顯著性.所以引入一個標量aj作為縮放尺度來衡量顯著性,并在輸出之前代入asquashing 函數來控制輸出向量的模長.

用EM 聚類結果得到輸出高斯分布的方差,方差越大意味著預測向量分布越接近均勻分布,說明這個輸出膠囊輸入的預測結果并不明顯接近同一種特征,此時aj應該小;方差越小意味著分布越集中,說明這個輸出的輸入的預測結果大致相近,此時aj應該大.基于這種思想選擇使用信息熵Cj來輔助aj衡量特征的顯著程度[6?7, 16],Cj表達式可定為

當分布的方差越小時Cj的值越小,因此通過最大化Cj的方式實現迭代優化.為防止無上限的情況,在此采用sigmoid 激活函數.

2.2.2 算法流程

EM 向量聚類算法的流程如圖2 所示.

圖2 EM 向量聚類算法流程圖Fig.2 Flow chart of EM vector clustering algorithm

在已知Uij,Sj,aj的情況下,其中Uij表示l層的第i個膠囊輸出經過姿態轉換矩陣處理后向l+1層的第j個高層膠囊輸出的向量預測;Sj表示l+1層膠囊的輸出方向;為l+1 層膠囊的輸出方向的方差;aj表示其特征的顯著程度.EM 向量聚類的具體算法流程如下.

算法 1.EM 向量聚類算法

在進行多次迭代之后,以概率aj作為j膠囊的輸出尺度,對輸出的方向向量進行縮放,得到最終的輸出向量,即

式中,asquashing 為壓縮函數,參見第2.3 節.

2.3 壓縮函數

為了防止膠囊向量在后續運算中無限增長導致網絡 “爆炸”,同時又能用其模長表示分類概率,使用一個非線性函數對這些向量進行壓縮,并使模長維持在0～ 1 之間.這也在一定程度上抑制了與當前高級特征相關性小的向量.壓縮函數asquashing為

其中,Vj表示最終輸出向量,Sj表示在進行壓縮之前的原始輸出,aj是縮放尺度.

2.4 并行重構損失

為了實現對并行重構網絡(見圖1(b))的訓練,構建了一個并行重構損失函數Lrecon,通過使用均方誤差計算輸入圖片與輸出圖片的差來實現,即

式中,ImageGT為疊加前的真值圖像,Imagerecon為重構后的結果,δ為重構損失的縮放倍數.當重構損失在總損失中占比過大時會導致網絡的過擬合,本文使用δ取值為0.0005 對重構損失進行縮放.

訓練時選取模長最大的兩個向量,同時放入兩個重構網絡進行訓練.將上式的重構誤差加入總損失函數中,參見第2.5 節,可以使重構網絡與分類網絡一起進行共同訓練.

2.5 代價函數

因為重疊手寫數字識別,需要進行兩分類,也即需要最后輸出的向量中有兩個模長較長的向量.由于是雙向量結果,所以要避免這兩個向量間的競爭.在此選擇使用Margin Loss 作為代價函數,它適用于雙分類,在不同類識別結果之間不進行競爭,其具體形式為

式中,Lcls表示k個分類的膠囊的分類誤差,Tk表示第k分類的標簽值.

為防止過優化,將式(9)中的m?和m+分別設定為0.1與0.9.若為正標簽,則式(9)的前半部分有效,希望正標簽的膠囊輸出的向量的模長vk保持在0.9 以上;若為負標簽,則式(9)的后半部分有效,希望負標簽的膠囊輸出的向量的模長vk保持在0.1 以下.最后,將每個分類的損失函數值進行相加,再與重構損失Lrecon聯合起來形成最終的損失函數值Ltotal,即

通過式(10)進行分類網絡與重構網絡的聯合訓練.

3 實驗與數據分析

3.1 數據集

本實驗采用的數據集為3 種: 1）MNIST 原數據集;2）全重疊數據集;3）前兩種數據集的混合集.其中第2 種是由MNIST 原數據集生成,生成方式是將MNIST 數據集的一半(30000 幅圖像),與另一半(30000 幅圖像)進行疊加生成,重疊率為100%,也即全重疊生成,疊加后效果如圖3 所示.

圖3 全重疊數據集Fig.3 Full-overlapping dataset

標簽是對原one-hot 標簽進行處理后得到的,如表1 所示.若由兩個不同數字疊加,將這兩個數字的位置置為1,其他位置置為0;如果是由相同數字疊加,將其位置置為2,其他位置置為0.

表1 數據集標簽Table 1 Dataset label

3.2 EM 向量聚類效果實驗

3.2.1 EM 向量聚類模長

輸出向量的模長是對分類概率的度量,模長越長屬于該類的概率越高.它也是聚類效率和效果的反映,因為聚類是將正確的類別向量進行放大,提示降低不正確類別向量模長,所以越快達到高模長,說明所用聚類形式的效率越高,效果越好.

在DCN 結構上分別用MNIST 數據集、全重疊手寫數字數據集以及混合數據集進行訓練.對全重疊圖片進行測試,以測試不同聚類迭代次數R下EM 向量聚類的模長,見圖4 所示.以下本文實驗不做特別說明時其值均為3,并與CapsNet 路由模長進行對比,如表2 所示,其為分別進行10 次測量的均值.

圖4 不同聚類次數下輸出向量的模長Fig.4 Module length of output vector under different clustering times

從表2 和圖4 可發現,對重疊數字識別時,不同的聚類次數對輸出向量的模長有著相當大的影響.在進行聚類之前,最長的輸出向量只有不到0.1的長度,而在進行了3 次聚類之后,正確的向量的長度已經達到了0.85 以上(由于壓縮函數的存在,向量的長度不能超過1).從表2 可見,DCN 所用EM 向量聚類效果,在第3 輪聚類時(R=3),在3個數據集下模長都明顯高于CapsNet 的路由聚類,說明EM 向量聚類效果較路由算法更好.

表2 在不同聚類次數下的激活向量模長Table 2 Active vector module length under different clustering times

3.2.2 EM 向量聚類速度

在DCN 中一共進行兩次EM 聚類,分別在初級膠囊層與聚類膠囊層1 之間和聚類膠囊層1與聚類膠囊層2 之間,見圖1(a).因為聚類是一個無監督過程,該過程并不對學習參數進行保存,所以在每一次網絡進行聚類時,都先初始化參數然后多次迭代.迭代過程無論在訓練還是測試中都會進行,是整個網絡中最耗時的部分.表3 是在不同的聚類次數之下網絡進行一個Epoch 所花費的時間(實驗平臺是單張titan XP).從表3 可知,每次聚類中每增加一次迭代,訓練時間都會增加近三分之一(對比進行一次聚類的網絡).

表3 參數量與不同聚類次數下的單Epoch 消耗時間(s)Table 3 Parameter quantity and single epoch consumption time under different clustering times (s)

因為DCN 是原CapsNet 網絡的加深與擴寬,DCN 的參數量達到了原CapsNet 網絡的2.45 倍(增加140%),所以DCN 網絡相較于CapsNet 網絡能夠提取更多細粒度特征,識別能力更強.但DCN 較CapsNet 的運行時間也增加了40%,如表3所示.

DCN 較CapsNet 在增加網絡深度與寬度,從而導致訓練參數量增加140%的情況下,對相同訓練數據量的訓練時間僅增加40%,縮短的運行時間可以認為是EM 向量聚類算法較CapsNet 迭代路由算法快的時間.這說明單純就DCN 的EM 向量聚類算法,與CapsNet 的向量內積迭代路由算法比較,在速度上前者有明顯優勢.

在DCN 中,分別用迭代路由和EM 算法對單Epoch 消耗時間進行了實驗,結果如表4 所示.在相同條件下,對于不同的迭代次數R,EM 算法較迭代路由算法消耗時間減少約30%～ 40%.

表4 DCN 不同聚類算法單Epoch 消耗時間(s)Table 4 Single epoch consumption time of different DCN clustering algorithms (s)

3.3 DCN 識別與分離

3.3.1 不同數據集上的識別率及對比

為了檢測DCN 對全重疊手寫數字數據集的識別率,用MNIST 數據集、全重疊手寫數字數據集和這兩種混合數據集訓練,對得到的網絡模型進行對比實驗.設定了兩組實驗,分別對無重疊的字體識別以及對全重疊字體進行識別.

由表5 可知,DCN 使用MNIST與全重疊數據集混合訓練得到的網絡不僅在重疊目標識別任務上取得了96.55%的正確率,在無重疊的識別上的正確率也提高到了95.7%.

表5 DCN 識別手寫數字效果對比 (%)Table 5 Effect comparison of handwritten digits recognized by DCN (%)

值得注意的是,使用MNIST 數據集訓練的DCN 模型在全重疊的識別任務上得到了55.2%的正確率.盡管識別率不高,但這是在簡單的數據集上進行訓練而對復雜數據集的識別結果.一定程度反映了DCN 網絡的特征提取,以及運用所提取低級特征對高級特征進行有效預測的能力.

同時,使用重疊手寫數字數據集進行訓練的DCN模型,在進行無重疊識別時,取得了80%的識別率.這表明在不進行特別的訓練集設計時,DCN 網絡可以在使用重疊圖片進行訓練后,對不重疊的圖片進行識別,即在特征有區別的情況下,也能保證一定準確度的識別率.

DCN 模型對于全重疊手寫數字測試集5000個測試樣本的總體識別率達到了96.75%,其識別準確率與loss 值的變化曲線如圖5 所示.

由圖5 可知,在不到20 個Epoch 下測試準確率達到96%以上,損失由1 開始縮小至低于0.02,且其后沒有反復,說明DCN “識別網絡”運行收斂快且平穩,能夠較好地將重疊的數字進行分類識別.

圖5 DCN 對全重疊手寫數字的識別率與損失函數值曲線Fig.5 Recognition rate and loss value curve of DCN for fully overlapped handwritten digits

與CapsNet 進行對比,CapsNet 在80%重疊率的MutiMNIST 數據集上取得了95%的正確率[5],在全重疊數據集中正確率只有88%.本文DCN 網絡結果在全重疊識別正確率達到了96.75%,見表6所示.與CapsNet 對比在全重疊的情況下,DCN 識別準確率高于CapsNet.

表6 重疊手寫數字識別率對比(R =3) (%)Table 6 Comparison of recognition rate of overlapping handwritten digits (R=3) (%)

3.3.2 分離效果

本文構建的DCN 重構網絡見圖1(b).其為對分類網絡(圖1(a))的輸出向量進行重構,得到分離圖片.在分離訓練過程中,使用掩蔽的方法只把正確的數字膠囊的激活向量保留下來.然后用兩個激活向量通過兩個并行的重構網絡進行重構,最終輸出兩幅 28×28 像素的灰度圖片,顯示已經分離的手寫體數字的分離效果.

重構時的重構誤差是通過計算重構圖片的像素亮度以及與疊加之前的圖片的像素亮度進行對比,然后加和得到,參見式(9).把得到的此重構誤差按一定的占比放入到總誤差中,參見式(11),然后對全網絡進行統一訓練,進而得到重構圖片.

圖6 顯示了在不同縮放數量級的情況下,總損失函數值Ltotal的變化情況.由圖6(a)中總損失函數值Ltotal升高的情況可以得知,在重構誤差占比大于0.005 時網絡出現了過擬合的情況.重構損失占比過大抑制了分類的損失Lcls,導致分類效果的下降.通過反復試調,將重構損失Lrecon占比降低至0.0005 時,重構損失才不會在訓練過程中抑制Lcls的作用,得到的總損失Ltotal曲線收斂迅速,在20 Epoch 時Ltotal值下降到了0.02,而且下降平穩,沒有反復,見圖6(b)所示.

圖6 重構loss 函數占比收斂對比Fig.6 Comparison of proportion convergence of reconstructed loss function

圖7 為分離結果,圖7(a)為100 個待分離重疊數字圖片,圖7(b)和圖7(c)為分類網絡識別后由重構網絡所重構的分離結果.

圖7 重構結果Fig.7 Reconstructing results

表7 顯示的是8 個重疊圖片的分離情況,其中標注 “?”的3 組數字 “7”與 “9”的組合中,3 幅重疊圖片均由相同數字不同寫法的圖片疊加而成,在進行準確分類之后,得到的重構結果與原本的數字一樣,這說明整個網絡對重疊數字分離準確,盡管這3 組數字筆畫有些許區別,但網絡進行了準確的識別與重構.(3,7),(9,1),(0,8),(0,4)這4 幅圖片,重疊后圖形復雜,“識別網絡”識別準確,“分離網絡”分離后字體筆劃基本清晰.

表7 全重疊手寫數字分類與重構的部分結果Table 7 Partial results of classification and reconstruction of fully overlapped handwritten digits

卷積在標注 “?”的數字 “5”與 “9”的組合中,原圖疊加后的特征復雜,網絡分類出現錯誤.由重構結果可以得知,DCN 網絡依舊將數字 “9”完整地區分出來,但是將另一個數字 “5”識別成了數字“8”.說明網絡對于極復雜的圖片的識別不夠理想,需要進一步提高.

3.4 對全重疊手寫漢字的測試

用DCN 對CASIA 漢字手寫圖片集中的 “不”、“下”、“丑”、“世”、“專”、“王”、“也”、“衛”、“大”、“人”10 個漢字進行全重疊測試.共進行了150 個Epoch 訓練,訓練的平均識別率為92.7%,如見圖8 所示.

圖8 訓練識別率Fig.8 Training recognition rate

表8 是部分識別和分離結果.從中可以看出,對圖片清晰、字體簡單的漢字,識別結果準確,分離基本清晰.但對于字體復雜不規整的漢字,重疊圖片識別率低,如最后兩個標簽(王,丑)、(也,衛)識別錯誤,分離結果模糊.

表8 部分識別和分離結果Table 8 Partial identification and separation results

對重疊漢字測試,DCN 在所選漢字較簡單情況下測試識別誤差為15.2%,相較MNIST 手寫數字重疊識別誤差較高.對于簡單圖片分離基本清晰,復雜圖片識別與分離誤差較高.

4 結束語

本文設計了一種深度膠囊網絡模型DCN,它具有6 層網絡結構,使用向量維數為16 維,用EM的向量聚類算法代替了原路由算法.同時構建了一個并行重構網絡,以實現對重疊目標的分離重構.最后用不同的聚類次數與訓練集對重疊手寫體數字進行了識別實驗,結果顯示DCN 網絡對全重疊手寫數字識別率達到96%,超過了膠囊網絡CapsNet在80%重疊率下識別率95%,分離重構圖片的效果較好.但是DCN 對重疊數字的重構效果還未達到理想效果,重構目標還是有一定比例的模糊和近4%的識別錯誤問題,這將在后期工作中進行完善.后期工作也將進一步提高該方法應用于重疊手寫漢字的識別.

自動化學報2022年12期

自動化學報的其它文章: 基于殘差的門控循環單元; 分布參數系統源控制系統設計; 方波觸發勘探與開發的粒子群優化算法; 基于天牛群優化與改進正則化極限學習機的網絡入侵檢測; 結合聚類分解的增強蟻群算法求解復雜綠色車輛路徑問題; 一種多圖像局部結構化融合的低照度圖像增強算法