邰瑤 陳健美



摘? ?要:建材商品數字化對有效使用電商平臺家居資源具有重要意義,傳統分類法未考慮主觀特性且大部分特征需人工提取,存在細節特征丟失等問題。提出了一種基于卷積神經網絡(簡稱CNN)的燈具圖像分類法,并通過一系列預處理操作豐富數據集,提高圖像識別率。檢索過程結合卷積層和全連接層特征并融合YOLO算法完成復雜的標簽分類任務,效果更加高效準確。
關鍵字:卷積神經網絡;商品圖片搜索;YOLO算法;多標簽分類任務
中圖分類號:TP751.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A
Research on Lighting Product Image Based on CNN
TAI yao CHEN Jian-mei
(Computer Science and Communication Engineering Department,Jiangsu University,Zhenjiang,Jiangsu? 212000,China)
Abstract:The digitization of building materials is of great significance for the effective use of e-commerce platform home resources. The traditional classification method does not consider subjective characteristics and most of the features need to be manually extracted,and there are problems such as loss of detail features. A convolutional neural network is proposed. (CNN for short) luminaire image classification method,and improve image recognition rate by a series of pre-processing operation rich data sets . The retrieval process combines the convolutional layer and the fully connected layer features and incorporates the YOLO algorithm to complete the complex label classification task,and the effect is more efficient and accurate.
Key words:convolutional neural network;commodity image search;YOLO algorithm;multi-label classification task
目前基于CNN視覺特征的圖像視頻分類/檢索、物體/行為估計等計算機視覺問題已成為國內外的研究熱點。之前通常采用對人為圖像細分類然后貼上對應標簽的方法,但隨著海量圖像數據的爆發式增長,其弊端也愈加凸顯出來,關鍵字表示圖像特征過于狹隘,人工標注工作量大且存在主觀性上的大量圖片作為實驗數據集進行實驗,能夠具有較高的識別能力,在商品識別問題上誤差等一系列問題急待解決[1]。而CNN作為流行的深度學習算法[2],雖在圖像識別領域取得了諸多成就,但如果要獲得高識別率并獲得優良檢索結果的例子頗少,但其在電商圈[3]有很大的優勢和廣泛的(諸如家具、房子、汽車、服裝同款搜索等)應用前景。此次我們搜集了某網絡科技公司和淘寶網上的大量圖片作為數據集,并著手研究設計基于CNN的燈具種類檢索方法,較于傳統檢索方法有更高的檢索精度。
1.1? ?卷積神經網絡模型
AlexNet模型是Alex Krizhevsky提出并在2012年ImageNet挑戰賽上所使用而名聲大噪的一種模型,目前這種深度學習模型正廣泛得應用于圖像處理領域[4]。如圖1所示,我們在此設計出整體檢索框架[5],藍色箭頭指出離線訓練過程,黑色箭頭指出用戶在線查詢過程。
1.2? ?商品圖像分類
基于CNN的商品分類實驗具體包含數據預處理[6]、網絡訓練和調參等操作。預處理即對卷積核進行預訓練,分成三部分:對圖像數據的灰度處理(消除光線影響因素)并對輸入數據加入一定概率分布的噪聲、PCA數據降維[7]以及進行對圖像進行區域扭曲形變。運用流行的隨機梯度下降法SGD[8](Stochastic gradient descent)對卷積核中權值的初始化并使用反向傳播算法微調網絡參數。這么做優化于隨機初始化,可使卷積核特征得到更本質的刻畫,同時更易于訓練結果的收斂[9]。通過反復的前后向傳播,卷積層[10]、全連接層的參數不斷得到調整,最終實現網絡逼近于最優解[11]。總體分類模型如下:
2? ?系統搭建
2.1? ?基于AlexNet卷積神經網絡模型
對于分類艱難的燈具來說,只能依據經驗選擇和設計圖像特征,且人為因素對特征的有效性影響很大。傳統特征模型在不同的樣本庫上需要重新設計圖像特征而導致其通用性不強[12]。針對以上存在的種種不足,如圖3所示在圖像分類問題背景下提出了CNN卷積神經網絡模型,下圖展示包括卷積層、池化層、全連接層和softmax層,最終可獲得分類結果。
2.2? ?構建樣本庫數據集
樣本是由網商(網址:http://www.maideng8.com/)提供,另從淘寶網采集部分圖片得到部分數據,共9種燈具圖片,其中70%用于訓練,15%用于校驗,15%用于測試。為便于建模,每幅圖像的分辨率設置為256×256×3。如圖4所示,這些類型一般難以用傳統人工構造圖像特征的方法進行區分,更難以使用簡單的淺層學習模型諸如支持向量機、最大熵方法等的分類方法。在分類之前對數據集進行翻轉,裁剪,局部変形等數據增強技術,提高泛化能力。首先對燈具的4類語義屬性進行分析,其中主要屬性有風格[13](美式、新中式、現代簡約式)、類型(吊燈、臺燈、壁燈、吸頂燈、落地燈、鏡前燈)、形狀(圓形、方形、不規則型),和規模(小型、中型、大型)。(注:每一列分別為吊燈,壁燈,臺燈;每一行分別為美/歐式,現代簡約式,新中式)
2.3? ?分類優化
單標簽分類[14]在CNN網絡中應用很普遍,實驗中的圖像包含多元語義屬性,如各式風格、規格等,這樣我們就需要進行多標簽多任務學習。 而在此采用的標簽學習過程:(1)輸入圖像大小統一為256*256*1,提取該圖像228*228的子塊或其鏡像作為CNN輸入。(2)前四層卷積塊的結構參照AlexNet[15]定義的結構組成。(3)全連接層FC2層共享著FC1層的輸出,由多個獨立平行的子層構成,這些子層分別對應相關的Softmax分類器[16](類別有新中式圓形小型吊燈、現代簡約式方形中型臺燈、背景等,類標簽的概率一并輸出)。
2.4? ?圖像檢索優化
YOLO(You Only Lool Once)檢測算法應用:先將圖像分割成19*19的尺寸相同的矩形框,然后將小框裁剪出來的圖像輸入到CNN中,CNN能夠預測出框內是否有匹配的燈具類型,可輸出結果為分類結果向量{Pc,b_x,b_y,b_h,b_w,c1,c2,Pc,b_x,b_y,b_h,b_w,c1,c2},Pc分類結果的概率,其他變量各自獨立,b_x,b_y,b_h,b_w分別為風格、類型、形狀,和規模,c的維度等于類的數量,最高幾率Pc為最優解,抑制非最大值方法可準確測出位置。在檢索出相似的圖片中,我們把x圖的FC層輸出向量f(x)看成是輸入圖片的編碼,我們可以定義x1和x2兩圖的相似值:d(x1,x2)=||f(x1)-f(x2)||2 若d值越小,則兩圖片越相似。該算法可以提取感興趣候選區,而卷積神經網絡 (CNN) 可直接自動去分類和調整這些區域。
一般訓練好的CNN網絡模型在提取數據特征特征和分類上比較高效完善,而在神經網絡中CNN的分類信息和隱含層的特征圖均可作為圖像檢索指標,利用分類模型的隱含層輸出作為特征向量進行檢索可得到更優效果。在圖像檢索時,如果直接根據燈具語義屬性進行快速檢索[17],但是語義屬性往往是抽象屬性,并不方便描述一些細致的特征,為兼顧整體特征和細致特征,提高檢索精確,我們采取融合卷積層Conv4和全連接層FC1的輸出作為特征向量進行檢索,其中第四層卷積共卷積核384個,輸出是64896維,FC1的輸出是4096維,融合后是68992維,之后進行非線性降維處理得到特征。
3? ?實驗結果和分析
3.1? ?分類
由于同時識別多個屬性比識別單屬性要復雜,而加入數據增強[18]預處理之后明顯提高了網絡的分類準確度,實驗結果融合卷積層和全連接層比傳統CNN結果更加準確。最終分類結果如表1所示:
從表格結果可見,引入融合并行的特征比單獨采用各層進行檢索,特征存儲空間并不是很大,且分類準確率有提高近4%的準確率。(M_CNN代表融合卷積層和全連接層,DM_CNN代表引入預處理)
3.2? ?檢索
實驗中檢索過程通過使用YOLO算法[19]的方式來縮小檢索范圍[20]以提高檢索運行效率,若輸出結果判斷失誤,則檢索結果出錯。而且對于分類準確率不高的語義屬性如燈具規模等,為規避這些冗余的特征提取操作,所以可直接進行忽略[21]規模這個語義屬性。在整個檢索過程中,我們可以看到檢索結果不僅體現了全局信息,而且對于局部的紋理,圖像的亮度等也進行了有效識別。檢索結果如圖5所示,包含了美式吊燈、現代簡約吊燈和新中式吊燈。
4? ?結? ?論
提出了一種基于卷積神經網絡的用快速檢索燈具的優化算法,為適應多個屬性判別,采用了復雜的多標簽分類,預處理可優化提高增強特征提取準確率。而對于圖像檢索問題,使用融合卷積層、全連接層輸出的特征向量和YOLO算法可以使得分類更為準確,同時保留了燈具的整體和局部信息,然后比較各圖像特征向量間的相似性,從而得到最優檢索結果。當然為應對家居建材越來越高的市場要求,人們對燈具智能化的需求也在快速增長,智能家居正處于快速發展階段、發展前景巨大,而且我們還有許多問題有待進一步研究,比如說根據燈具類型預估出商品價格、根據圖像鑒別真假等。
參考文獻
[1]? ? 丁治國. RFID關鍵技術研究與實現[D]. 合肥:中國科學技術大學,2009.
[2]? ? 尹寶才,王文通,王立春. 深度學習研究綜述[J]. 北京工業大學學報,2015(1):48—59.
[3]? ? 程華. 個體差異與消費者接受網上購物--基于杭州樣本的實證研究[D]. 杭州:浙江大學,2003.
[4]? ? 余凱,賈磊,陳雨強,等. 深度學習的昨天、今天和明天[J]. 計算機研究與發展,2013,50(9):1799—1804.
[5]? ? 彭波. 大規模搜索引擎檢索系統框架與實現要點[J]. 計算機工程與科學,2006,28(3):1—4.
[6]? ? 王耀南,李樹濤,毛建旭. 計算機圖像處理與識別技術[M]. 北京:高等教育出版社,2001.
[7]? ? 黨銀寧. 基于PCA數據降維和神經網絡的能源審計對標評價方法的研究[D].長沙:中南大學,2011.
[8]? ? 周樸,劉澤金,馬閻星,等. 隨機并行梯度下降算法模擬兩路光纖放大器相干合成與實驗研究[J]. 光學學報,2009,29(2):431—436.
[9]? ? 高雪鵬,叢爽. BP網絡改進算法的性能對比研究[J]. 控制與決策,2001,16(2):167—171.
[10]? 陳先昌. 基于卷積神經網絡的深度學習算法與應用研究[D]. 杭州:浙江工商大學,2014.
[11]? 黃文明,魏鵬,梁金華. 基于卷積神經網絡的哈希在圖像檢索中的應用[J]. 計算機工程與設計,2017,38(2):517—521.
[12]? 張麗平. 粒子群優化算法的理論及實踐[D]. 杭州:浙江大學,2005.
[13]? 張曉龍. 論居室軟裝飾藝術設計[J]. 才智,2010(22):184.
[14]? 蔣華,戚玉順. 基于球結構SVM的多標簽分類[J]. 計算機工程,2013,39(1):294—297.
[15]? KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097—1105.
[16]? 許素萍. 深度圖像下基于特征學習的人體檢測方法研究[D]. 廈門:廈門大學,2014.
[17]? 杭燕,楊育彬,陳兆乾. 基于內容的圖像檢索綜述[J]. 計算機應用研究,2002,19(9):9—13.
[18]? 朱金魁. 人臉識別算法的研究[D]. 哈爾濱:東北林業大學,2009.
[19]? 沈軍宇,李林燕,夏振平,等. 一種基于YOLO算法的魚群檢測方法[J]. 中國體視學與圖像分析,2018(2):174—180.
[20]? 曾京文,汪慶寶,胡健. 指紋自動識別中的中心點搜索和特征分塊抽取方法[J]. 北京工業大學學報,1996,22(4):115—121.
[21]? 徐進,易綿竹. 計算語義學中的語言子系統理論[J]. 解放軍外國語學院學報,2014,37(3):84—91.