文|劉培軍 王健 郭峰 李海燕 劉真 胡瓊
在智能信息化時代,利用機器學習算法提升卷煙真偽鑒別能力和效率具有重要的價值,能夠加快發展現代產業體系,推動經濟體系優化升級。本文首先簡述了卷煙真偽鑒別的意義和現有的各種方法,進而提出了人工特征與深度特征融合的卷煙真偽鑒別方法與系統。最后,以某煙草專賣店采集的真假卷煙數據庫為例,建立了真偽鑒別模型。實驗中,本文提出的方法不僅可以學習到更具判別力的特征表示,而且準確率已達到95%以上,并且虛警率低至0%。結果表明此卷煙真偽智能鑒別系統已完全滿足實際場景的需求,特別為新進專賣稽查人員以及業務不熟練人員,提供高效、可靠的鑒別輔助手段。
中國煙草行業實行壟斷經營、統一管理體制,依法對煙草專賣品的生產、銷售與進出口實行專賣管理,擔負著保證國家財政收入、維護消費者利益的職責。消費市場中假煙的流通,不僅破壞了原有的、穩定的煙草銷售環境,同時也會對購買者帶來消費體驗和經濟上的損失。因此,如何能夠在不破壞香煙包裝、不影響再銷售的情況下,快速鑒別卷煙真偽是一個十分緊迫的需求。在實際場景中,各級煙草專賣稽查人員主要借助長期經驗總結出的鑒別點來對卷煙真假進行排查和識別,但是并沒有對鑒別點進行規劃,缺乏一個統一的鑒別標準。這導致鑒別結果不僅會因人而異,而且鑒別過程耗時耗力。本文將介紹一種新型的卷煙真偽智能鑒別模型與系統,其基于互聯網架構,利用移動通信網絡,集成數據傳輸、集成圖像感知終端、信息標識載體、圖像識別算法等人工智能模塊,形成在線實時處理系統,幫助現場工作人員在執法現場對卷煙真偽進行快速且準確的判斷。
卷煙真偽的智能鑒別功能依托于專賣稽查人員辦案終端,在線實時上傳待測卷煙包裝圖像至云服務器,通過云服務器部署的人工智能識別模型對卷煙進行真偽鑒別,并推送結果到專賣人員終端。圖1展示了卷煙真偽智能識別系統的流程示意圖。最為重要的模塊是云服務器上的真偽鑒別模型,其整體假煙識別準確率已達到95%以上,并且虛警率低至0%。此卷煙真偽智能鑒別系統已率先配備在國內一線稽查人員終端上。在實際工作場景中,可以滿足不同的稽查人員在不同的場景鑒別需要,特別為新進專賣稽查人員以及業務不熟練人員,提供高效、可靠的鑒別輔助手段。

圖1 卷煙真偽智能鑒別系統流程示意圖
目前,卷煙真偽鑒別主要采用儀器鑒別檢驗法、評吸鑒別檢驗法以及感觀鑒別檢驗法三種。在這三種鑒別方法之中,感觀鑒別檢驗法是最常用的一種卷煙真偽鑒別方法,事實上,這種方法極易受到主觀因素的影響,缺乏客觀、量化的評價標準。此外,不僅需要專家知識,還需借助專業的光學儀器,耗時耗力。
針對上述問題,本文設計了一套端到端的卷煙真偽鑒別系統,主要涉及如下步驟:圖像數據采集、圖像預處理、鑒別點識別、關鍵特征提取、真偽推斷。其中每個模塊的細節如下。
假設有C種卷煙品規,本卷煙真偽鑒別系統需要累計收集M張包含所有品規的卷煙條、盒包裝的高清圖像,并將所有圖像數據進行數字化處理,建立真假煙圖像數據庫。值得注意的是,卷煙圖像數據必須具有能夠反應真偽差異的全面信息。但由于真假卷煙的圖像十分相近,為避免真假卷煙拍照環境因素不同引起的系統差異,真假卷煙的拍照環境被強制控制在一定的范圍之內,并在不同場景、不同角度、不同光線下為N種卷煙品規的每個品規拍攝真假圖像約M/N余張。
不同于一般的圖像分類與目標識別任務,卷煙真偽鑒別任務中,針對某一卷煙品規,其真假圖像數據在視覺上極為相似,并且整體上呈現出假煙圖像數量偏少(通常只占有20%左右的比例)的現象。為了解決該問題,緩解數據量偏差對后端模型泛化性的影響,本文在圖像預處理階段利用Albumentations開源模塊對圖像數據進行增強、增廣預處理,以增加訓練數據集中假煙類別的規模與多樣性,從而使得訓練的模型具有更強的泛化能力。
鑒別點識別模塊是指結合專賣稽查人員的專業知識,通過圖像識別算法自動獲取信息量最大的鑒別點區域,以供算法對該區域進行鑒別。反之,如果直接利用卷積神經網絡對卷煙包裝圖像進行真假分類,因為鑒別點的視覺差異過小,算法通常無法學習鑒別點的有用信息。因此,本文提出先訓練一個學習如何提取鑒別點的卷積神經網絡。此步驟:將煙盒圖像中無用或者易干擾的信息剔除掉,以提高卷煙的真偽鑒別準確率;將專業知識數字化,使得工作人員即使欠缺鑒別經驗,對鑒別點的知識儲備不足,也能夠使用該算法順利執行任務。
通過大量文獻調研,傳統識別方法是通過邊緣提取、色彩閾值、特征點匹配等手段獲取鑒別點位置。但在鑒別時由于拍攝圖像的情況多樣,諸如背景光線變化復雜、煙盒角度偏轉不定、煙盒極易產生形變、塑料包裝薄膜反光嚴重、部分煙盒花紋圖形復雜、拍照圖像大小尺度不同等,以及用來鑒別卷煙真偽的有效區域很小,只占原始煙盒圖像的極小面積,因此無法直接通過傳統視覺識別方法提取鑒別點。為解決這些問題,本文采用多階段策略,先使用One-Step目標檢測算法YOLO自動學習并粗略識別每一種卷煙品規的鑒別區域,再利用多種算法集成的方式來進一步獲取鑒別區域中更精細的鑒別點圖案。此策略不僅解決了鑒別算法在多場景普適性的問題,排除了多種干擾因素的影響,而且極大地提升了鑒別點位置獲取的準確度。
在鑒別點提取階段,算法已經獲取到鑒別點的準確位置信息。進而,算法即可對鑒別點的真偽進行學習和分類,其技術路線主要集成了人工特征和深度特征互補融合的策略。
1.人工特征提取
如何獲取眾多卷煙品規真假圖像在顏色、紋理和形狀三個維度最顯著的判別性特征,是卷煙真偽鑒別任務中亟待解決的問題。
首先,在一幅圖像的RGB前三階顏色矩組成的9維向量即可用于描述圖像的顏色特征。對于紋理特征的提取,本文借助模擬人類視覺細胞感受野的Gabor濾波方法,來準確地捕獲對應于空間頻率、空間位置及方向選擇性的局部結構信息。對于圖像的形狀特征,本文利用邊緣特征提取算子Sobel獲得圖像邊緣信息的灰度圖,然后利用紋理特征的提取方法對邊緣特征圖進行特征轉換,得到形狀特征矩陣。
最終,將顏色、紋理、形狀特征向量拼接得到圖像完整的特征向量。進而計算圖像特征矩陣和真假煙的特征向量的馬氏距離和,并將其轉化為概率如下:
2.深度特征提取
隨著計算機技術的快速發展和計算機硬件性能的提升,深度學習取得了巨大進步,卷積神經網絡以其優異的性能在圖像分類領域取得了廣泛且成功的應用,其一般包括輸入層、多個卷積層、池化層、全連接層和輸出層。因此結合真、假卷煙大數據樣本,利用殘差深度神經網絡(諸如ResNet-34),隱性地學習真假鑒別點的復雜紋理、圖形、模式等不容易用數值描述的屬性差異,從而達到真假煙精準鑒別的目的。
為有效驗證提出模型的有效性和實用性,本文仿真運用的實驗平臺為 UBUNTU 20.04,32G 內 存, 軟 件為 PYTHON。本卷煙真偽鑒別系統在不同場景、不同角度、不同光線下為每個品規拍攝真假照片約4000-5000張,累計收集60種卷煙品規的27萬余張高清圖片,分辨率在1200dpi以上,建立了一個真假煙圖像數據庫。
本文將數據集劃分為訓練集234697張(85%)、測試集 41392張(15%)的結構,并且為了保證模型的泛化能力,采用了隨機劃分。通過在訓練集上學習模型,在測試集上的真假鑒別準確率已達到:真煙鑒別率100%,假煙鑒別率95.71%(均值),并且虛警率低至0%。這完全滿足現實場景的需求。
本文提出一種全新、高效的卷煙真偽鑒別模型與系統,其采用傳統圖像識別和深度學習算法相融合的策略,同時嵌入專家知識,使卷煙真偽鑒別的精度與效率得到巨大的提升。然而,目前解決卷煙無損真偽鑒別的問題仍具有極大的挑戰性。一方面,假煙會隨著造假工藝的改進而產生更接近真煙的包裝,從而使現有的鑒別點區域失效;另一方面,隨著市場不斷迭代的新需求,新品規的卷煙會不斷地被創造,屆時則需要不斷地學習、積累新煙品的鑒別點。