一種基于融合注意力機制的深度神經網絡的人民幣幣值識別模型

2025-07-20 00:00:00閆新寶蔣越鄭華生廖群麗蔣正鋒

電腦知識與技術 2025年18期

摘要：針對金融領域內人民幣紙幣幣值快速、精準自動識別的問題，提出了一種融合注意力機制的深度神經網絡CBAM_VGG16。首先，采集第五版人民幣圖像，構建人民幣數據集并進行預處理；然后，將注意力機制引入VGG16深度神經網絡模型，設計出一種融合注意力機制的VGG16深度神經網絡人民幣幣值識別模型CBAM_VGG16；最后，在上述人民幣數據集上對VGG16深度神經網絡模型和CBAM_VGG16模型進行對比驗證。實驗結果表明，CBAM_VGG16模型的準確率、精確率、召回率和F1分數分別為88.62%、68.19%、69.42%和65.98%，相較VGG16模型分別提高了2.15%、0.82%、3.38%和1.44%，從而驗證了融合注意力機制的深度神經網絡模型CBAM_VGG16在人民幣幣值智能識別中的有效性。

關鍵詞：深度神經網絡模型；智能識別；人民幣；注意力機制；混淆矩陣

中圖分類號：TP319" "文獻標識碼：A

文章編號：1009-3044（2025）18-0036-04

開放科學（資源服務）標識碼（OSID）

0 引言

盡管支付寶和微信等電子支付方式已提高了金融流通的效率，紙幣仍然是主要的貨幣形式，人民幣紙幣幣值的智能識別在我們的日常生活中隨處可見，如地鐵智能投幣售票機、ATM機存款處理、紙幣清分機、無人售票機等，實現人民幣紙幣幣值智能化識別尤為重要。

基于深度學習的紙幣幣值識別方法具有魯棒性、兼容性以及分布式處理等特點，近年來基于深度學習技術的紙幣幣值識別研究取得了一些成果[1-4]。本文創新性地設計了融合注意力機制的VGG16深度神經網絡模型對人民幣紙幣幣值進行智能識別，與VGG16深度神經網絡模型相比識別性能有明顯提高。由于目前沒有公開的用于幣值識別的人民幣數據集，本文通過各大網站及人工拍攝，收集了不同方位、不同光照條件、不同幣值、尺寸大小不一的第五版中國人民幣圖像，構建了一個人民幣數據集。

1 深度卷積神經網絡

深度卷積神經網絡（CNN）是深度神經網絡（DNN）的一種。深度卷積神經網絡結構包括輸入層、卷積層、池化層和全連接層，VGG16是一種主流的深度卷積神經網絡，包括13個卷積層和3個全連接層[5]。

2 CBAM_VGG16深度神經網絡

2.1 注意力機制

注意力機制（Attention mechanism）是深度學習技術中值得關注與深入的技術之一，是一種模擬人腦注意的模型[6]，能夠將有限的注意力從大量信息中篩選出高價值的信息。注意力機制不僅能夠減少對外部輸入信息的依賴，而且更加擅長獲取數據特征的內部相關性，能夠抓住信息中的關鍵點[7]。

混合注意力模塊（CBAM， Convolutional Block Attention Module）是2018年提出的創新型輕量級雙重注意力模塊，其創新性地整合了通道注意力模塊（Channel Attention Module）和空間注意力模塊（Spatial Attention Module）。CBAM通過特征重標定策略，在保留原始特征圖拓撲結構的同時，實現了對跨通道特征關聯性和空間維度上下文依賴性的協同建模。具體而言，通道注意力模塊通過全局平均池化與最大池化的雙路特征聚合，建立通道維度特征響應關系；空間注意力模塊則通過二維卷積核構建空間位置權重矩陣，強化關鍵區域特征表達。CBAM如圖1所示。

2.2 CBAM_VGG16深度神經網絡結構

CBAM作為即插即用的輕量化模塊，其核心優勢在于能夠無縫集成到現有卷積神經網絡架構中，而不改變基礎拓撲結構。本研究中，基于VGG16模型進行改進創新，分別在第一個最大池化層（位于conv1_2后）和最后一個最大池化層（位于conv5_3后）前部署CBAM，構建了CBAM_VGG16深度神經網絡。這種層級化部署策略通過多尺度特征融合機制，實現了淺層細節特征與深層語義特征的協同優化：淺層注意力模塊聚焦于邊緣紋理等低級特征增強，深層模塊則強化目標語義區域的特征響應。具體模型如圖2所示。

3 實驗結果與分析

3.1 數據集及預處理

由于目前沒有公開的用于幣值識別的人民幣數據集，本文通過各大網站及人工拍攝，收集了不同方位、不同光照條件、不同幣值、不同尺寸大小的第五版中國人民幣圖像作為數據集，選取的類別為：5元、10元、20元、50元、100元共五類，每類300張，共1 500張，每類中正面圖像約占40%，側面圖像約占60%。該數據集符合《人民幣圖樣使用管理辦法》。隨機選取每類250張為訓練集，剩余每類50張為測試集。

數據集中采集到的樣本尺寸大小不一，需統一為相同尺寸。根據圖像特性，為避免圖像失真和扭曲，將圖片裁剪為224×112[8]。

在樣本類別識別任務中，數據標注是構建監督學習模型的關鍵步驟。本文采用基于目錄結構的標注方法：首先，根據數據集的類別名稱定義分類標簽，將存儲在同一路徑下且具有相同類名的圖像文件夾歸為一類，并以自然數序列（如“0”“1”“2”“3”“4”等）作為類別標簽。為增強模型的泛化能力并避免潛在的順序偏差，利用random.shuffle函數對標簽順序進行隨機化處理，并將結果存儲至label_list。同時，在圖像加載過程中，同步記錄各樣本的完整文件路徑，并將其存入image_list。這種雙列表（image_list和label_list）的設計實現了圖像數據與標簽的一一對應，不僅確保了數據訪問的高效性，還為后續的數據加載、批量處理及模型訓練提供了結構化支持。此外，該方法具備良好的可擴展性，適配不同規模數據集標注需求。

在計算機視覺任務中，輸入數據的數值分布對模型訓練具有重要影響。原始樣本圖像采用8位RGB色彩表示，每個像素點的數值范圍為[0， 255]。這種原始數據分布存在兩個主要問題：首先，較大的像素值可能導致神經網絡在反向傳播過程中產生梯度爆炸；其次，數值量級的差異會使得模型傾向于學習大數值特征，而忽略對小數值特征的捕捉。為解決這些問題，采用最小最大歸一化方法，將像素值線性映射到[0，1]區間。這種處理能夠規范化特征間的量綱差異，統一網絡各層輸入的數值尺度，使數據分布更符合深度學習模型的預期輸入范圍，從而有效加速梯度下降的收斂過程，同時通過約束數值范圍顯著提升計算穩定性。

3.2 評估指標

評估分類器模型的常用指標有準確率、精確率、召回率和F1分數。為了全面對比經典VGG16模型和CBAM_VGG16模型的性能，本文采用上述4個指標作為VGG16模型和CBAM_VGG16模型的性能評估指標。上述指標可以根據混淆矩陣計算得出。

3.3 模型搭建

本文使用TensorFlow框架搭建VGG16和CBAM_VGG16模型。

模型訓練數據集為1 250張人民幣圖片（224×112），相比于常見的圖像識別訓練數據，訓練量明顯較少，且圖片尺寸存在明顯差異。本文實驗中的批次大小、損失函數、學習率和優化器設置參照文獻[9]中的模型參數。

圖3表示了VGG16中的卷積與池化過程，224×112為圖像尺寸，3為通道數。卷積層改變特征圖的通道數，由64到128、256、512后保持不變，池化層改變特征圖的尺寸大小。最后一層全連接層后使用softmax函數來計算預測分類的概率分布，并使用交叉熵作為損失函數。

按圖4搭建VGG16模型。

在VGG16模型的基礎上，按照圖2所示的CBAM_VGG16深度神經網絡結構，搭建CBAM_VGG16深度神經網絡模型。

根據預測結果計算混淆矩陣，本文共分為5類，可得到一個5×5的混淆矩陣。隨后根據該混淆矩陣計算各個評估指標。

3.4 結果與分析

在未引入注意力機制的VGG16模型實驗中，設置兩層循環以傳入樣本進行網絡模型訓練，外層循環次數為訓練的迭代次數，內層循環次數為總樣本數/批次大小，設批次大小為15。訓練集和測試集的準確率與迭代次數的趨勢如圖5所示。

從圖5可以看出，經過40次迭代，訓練集準確率逐漸達到0.85左右，測試集的準確率則逐漸達到0.8。模型損失函數值隨迭代次數的變化如圖6所示。

由圖6可以看出，損失函數值隨著迭代次數的增加不斷降低。為評估訓練好的模型，先計算訓練好的模型的混淆矩陣，再根據混淆矩陣計算各項評估指標，結果如表1所示。

從表1可以看出，訓練好的VGG16模型在人民幣幣值分類任務上取得了較好的準確度，說明VGG16模型具備較強的學習能力。但從圖5來看，準確率存在較大波動，模型的泛化性能和穩定性仍有提升空間。針對這些問題，本文進一步測試了引入注意力機制后的CBAM_VGG16模型，其實驗結果如下。

由圖7可見，CBAM_VGG16模型在訓練集和測試集的準確率由0.266逐漸上升至0.933 3，相較于未引入注意力機制的VGG16模型，表現更為優異。后續可通過增加迭代訓練次數和設置動態學習率，以獲得更好的識別效果。CBAM_VGG16模型的損失函數值隨迭代次數的變化如圖8所示。

基于混淆矩陣計算訓練好的CBAM_VGG16模型的各項評估指標，結果如表2所示。

由表1和表2可知，在相同實驗條件下，CBAM_VGG16模型相較于VGG16模型，準確率、精確率、召回率和F1分數分別提高了2.15%、0.82%、3.38%和1.44%。這證明注意力模塊在VGG16模型中起到了作用，能夠提取高價值的信息，提高模型的學習能力。

4 結束語

針對人民幣紙幣識別問題，本文創新性地設計了一種融合注意力機制的VGG16深度神經網絡模型，實現了人民幣紙幣幣值的智能識別。針對目前缺乏公開用于幣值識別的人民幣紙幣圖像數據集的問題，本文通過各大網站及人工拍攝方式，收集了不同方位、不同光照條件、不同幣值、尺寸不一的第五版中國人民幣圖像，構建了一個人民幣數據集。在該數據集上的測試結果表明，與VGG16深度神經網絡模型相比，本文設計的融合注意力機制的VGG16深度神經網絡模型在準確率、精確率和召回率等方面均有明顯提升。本文構建的數據集仍存在樣本數量較少、不同類別的人民幣圖像質量差距較大等問題，且模型訓練時間較短。后續可通過增加數據集樣本數、平衡不同類別的人民幣圖像質量、增強樣本圖像的預處理以及延長訓練時間等手段提升模型的識別能力，進一步結合人民幣紙幣真偽識別技術開發紙幣清分機等產品，使研究成果在相關領域發揮更大作用。

參考文獻：

[1] 蓋杉，鮑中運.基于改進深度卷積神經網絡的紙幣識別研究[J].電子與信息學報，2019，41（8）：1992-2000.

[2] 沈成龍.基于深度學習的民國紙幣序列號研究[D].上海：上海師范大學，2021.

[3] 丁寰毓.基于深度學習的人民幣水印識別[D].哈爾濱：哈爾濱工業大學，2020.

[4] 李慧.歐元紙幣識別方法的研究[D].鞍山：遼寧科技大學，2023.

[5] 閆新寶，蔣正鋒.基于VGGNet深度卷積神經網絡的人臉識別方法研究[J].電腦知識與技術，2023，19（25）：34-37.

[6] 劉建偉，劉俊文，羅雄麟.深度學習中注意力機制研究進展[J].工程科學學報，2021，43（11）：1499-1511.

[7] 孫萍.基于注意力機制與域自適應的深度學習圖像目標檢測[D].武漢：武漢大學，2019.

[8] 韓賀磊.人民幣紙幣面額的機器視覺識別方法研究[D].大連：大連理工大學，2007.

[9] 蔣正鋒，廖群麗.基于多參數融合優化的深度神經網絡設計研究[J].現代計算機，2021，27（31）：13-24.

【通聯編輯：唐一東】

電腦知識與技術2025年18期

電腦知識與技術的其它文章: 基于“互聯網+職業教育”視域下高職院校教師信息素養評價指標體系構建研究; 眼底圖像中利用血管分叉點進行特征匹配的研究; 基于虛擬現實的數字媒體職業技能培訓系統設計; 工程教育引領與產學協同驅動在高職軟件技術專業中的實踐與反思; 機載綜合CNI系統的多通道電源模塊設計與實施; AIGC在醫學類高職信息技術課程中的應用