劉曉明,陳 皓,王朋波,陶建文,劉艷平
(1.陜西省煙草公司商洛分公司,陜西 商洛 726000;2.商洛市煙草公司商州分公司,陜西 商洛 726000)
隨著人工智能(Artificial Intelligence,AI)技術迅速發展,深度學習計算機視覺商品識別模型如AlexNet[1]、ResNet[2]、Faster R-CNN[3]等雖然取得顯著成果,但是因其參數龐大、計算復雜度高,導致在資源受限設備上的應用不足。YOLO系列模型通過回歸問題形式實現目標檢測,表現出優異的速度與精度平衡性。
YOLOv5憑借其小尺寸、低部署成本、高靈活性及快速檢測優勢[4-6],特別適合移動終端應用。CA注意力機制作為一種輕量級且易于嵌入的目標檢測模塊,其增強了網絡特征表達力,同時關注通道注意力與位置信息。鑒于YOLOv5與CA注意力機制在識別效率和部署便捷性方面的優點,本文融合兩者構建卷煙品規智能識別模型。該模型能夠提取卷煙圖像特征并建立品規圖像特征模型,以高效準確地識別卷煙品規,從而降低庫存盤點識別成本并提高工作效率。
在模型構建過程中,首先收集并標注卷煙圖像數據,運用YOLOv5、自注意力機制和transform等算法訓練識別模型;其次進行模型輕量化處理,確保實際應用時的識別精度;最后對優化后的模型進行評估,檢驗量化過程是否導致精度損失及其程度。若評估結果顯示模型精度仍處于可接受范圍內,則進一步轉換模型,最終將模型部署到終端設備上。
YOLOv5模型由輸入處理、特征提取、特征融合及預測輸出4個部分構成。在實際應用中,由于卷煙圖像尺寸、像素質量和亮度各異,模型需在輸入端進行數據增強、自適應錨框設置和圖片自適應縮放。數據增強通過隨機調整圖像屬性(如亮度、對比度等)以及進行裁剪、拼接和縮放,以豐富訓練集并減輕圖形處理器(Graphics Processing Unit,GPU)負載,提高模型性能。自適應錨框利用K均值聚類算法根據目標標簽自動優化大小,自適應圖片縮放則確保模型能靈活應對不同尺寸的卷煙圖像,提升其適用性和穩定性。
CA注意力機制是一種深度學習模型的空間結構理解增強工具,通過引入坐標信息來捕捉輸入特征圖中位置間的關系。該機制包括通道特征提取和通道注意力計算2個步驟:首先,通道特征提取過程對每個通道執行全局平均池化與最大值池化并融合生成通道特征;其次,經全連接層和sigmoid函數處理后,通道注意力計算過程為特征圖各像素點分配權重以構建加權特征圖,突出重要空間位置。
相較于輕量級網絡的注意力方法,CA注意力機制具有3大優勢:(1)提升特征表達力,自適應地優化通道權重,有效發掘并利用關鍵通道信息,增強特征辨別性;(2)減少冗余,通過抑制無關緊要的通道減少無效計算,聚焦核心特征,降低復雜度且提高泛化能力;(3)改善模型性能,在多通道數據處理上尤其顯著,其能更好地識別并利用通道間的相互依賴關系,加深模型對輸入數據的理解。因此,CA注意力機制在圖像處理、視頻分析等領域廣泛應用,有效提升了模型在多通道輸入下的建模效能和整體性能。
針對卷煙品規目標識別任務,本文借助深度學習的強大特征提取和分類能力,最終構建了一個多隱含層、多神經元節點的深度學習模型,如圖1所示。該模型能夠有效地提取卷煙品規的關鍵特征,實現對卷煙品規的準確識別。該模型能夠更好地捕捉圖像中的局部特征和空間信息,具有更強的圖像識別能力。同時,模型的多個隱含層和多個神經元節點設計,提高了模型的非線性擬合能力,使得模型能夠更好地適應卷煙品規數據的復雜和多樣化特征。通過大量的數據樣本訓練,該模型能夠有效地學習并識別不同卷煙品規的圖像特征,從而實現對卷煙品規的精確識別。

圖1 改進的卷煙識別YOLOv5 模型結構
測試硬件環境為Intel Xeon Gold 5318 H CPU(2.50 GHz, 64 GB RAM),配備Tesla V100 GPU(32 GB)及CUDA 10.2,在Linux x86_64系統上運行Python 3.7和PyTorch 1.8.1+cu102框架。當模型進行訓練時,隨機打亂數據集以避免固定分布,設置初始學習率為10-2、衰減率為0.94、批次大小為54,并進行100次迭代。采用Adam優化器與多類交叉熵損失函數,同時結合Checkpoint機制保存最優模型。針對過擬合問題,在全連接層前應用Dropout,概率設為0.3。
本次模型測試共采集數據集4800個,其中訓練集為2880個,驗證集為960個,測試集為960個。圖像范圍包括了在零售商戶及煙庫中分別采取的不同環境下的圖像數據。
在測試集上YOLOv5和改進后的YOLOv5測試評估結果如表1所示。本文采用的模型算法精確度為89.7%,召回率為82.9%,mAP值為89.6%,其結果要優于改進前的算法。這些指標表明了該模型能夠在數據集上實現較為準確的分類和識別,但也存在一定的潛在誤差。在實際應用場景中,可以根據具體需要調整模型參數、數據集和訓練策略,以提高模型的性能表現。如圖2所示為目標檢測結果示例,該模型能夠有效地對多種不同類型的待測目標進行識別和分類。

表1 不同算法性能對比

圖2 模型測試結果示例
本文將YOLOv5與CA注意力機制結合,構建了一款卷煙品規智能識別模型,提升了對多通道輸入數據的建模能力及模型性能和泛化性。實驗結果顯示,該系統在測試集上實現了89.7%的高識別準確率,相比僅使用YOLOv5時,其識別精度和mAP均有顯著提升,尤其在卷煙品規圖像識別方面表現出色。此研究成果預示著該模型在卷煙識別領域具有廣闊的應用前景和較高的實用價值,能有效識別卷煙品規信息以支持生產和管理工作,不僅提高了效率,還降低了人工判斷錯誤的風險。因此,對于提高卷煙品規識別的準確度和效率,該模型的研究具有重要意義。