田鑫宇 劉蕾 吳金聰 朱大洲
摘 要:當前社會食品營養安全謠言泛濫,網絡平臺上發布的虛假哲學極易引發社會恐慌,因此學者們對實現網絡平臺信息的監測進行了深入研究。在前期對于食品營養安全科普文本進行監測的基礎上加入對科普圖像的監測。首先利用網絡爬蟲實現對食品營養安全科普圖像的抓取,其次通過卷積神經網絡模型中的Resnet18網絡實現對圖像的二分類,在數據預處理過程中加入Focal Loss實現數據的不平衡處理,并在卷積神經網絡中加入注意力機制,同時利用1×1卷積層替換全連接層,最終實現圖像分類效果的提升。對帶文字的科普類圖像及純圖像分類準確率分別由89.7%及68.9%提升至98.3%及75.6%。此研究對食品營養安全科普圖像的二分類效果提升明顯,為圖像二分類問題提供了新方法。
關鍵詞:卷積神經網絡;Resnet18;ECA模塊
Absrtact: In the current society, rumors about food nutrition safety are rampant, and false philosophies published on online platforms are easy to cause social panic. Therefore, scholars have conducted in-depth research on the realization of information monitoring on online platforms. On the basis of monitoring the popular science text of food nutrition safety in the early stage, the monitoring of popular science image is added. Firstly, web crawler was used to capture popular science images of food nutrition safety. Secondly, Resnet18 network in the convolutional neural network model was used to realize binary classification of images. In the process of data preprocessing, Focal Loss was added to realize data imbalance processing, and attention mechanism was added to the convolutional neural network. At the same time, 1×1 convolution layer is used to replace the full connection layer, and finally the image classification effect is improved. The classification accuracy of the two kinds of image data increased from 89.7% and 68.9% to 98.3% and 75.6%, respectively. This study significantly improved the biclassification effect of popular science images of food nutrition safety providing a new method for image biclassification.
Keywords: convolutional neural network; Resnet18; ECA module
當今社會網絡發達,謠言傳播的速度和范圍遠超有關部門的科普力度。例如,之前的“鴻茅藥酒”“植脂末”等事件,因有關部門沒有及時監測到謠言信息并進行正確科普導致謠言肆意泛濫,造成不良的社會影響。針對此類問題,王輝[1]已基本實現食品營養安全科普信息監測系統的搭建,可以實現對網絡公眾平臺上關于食品營養安全科普文字的抓取和監測,同時生成報告反映給有關部門,供有關部門及時對此類事件進行反映。但當前通過網絡爬蟲所設計的此類輿情監測系統中,通常只實現了對文本類信息的抓取和監測,但這是遠遠不夠的。當今各媒體市場競爭激烈,人們對知識的需求量增大,但獲取知識的時間和熱情卻在減少,圖片的“一目了然”及趣味性讓人們趨向于將圖像科普作為獲取知識的途徑,從最開始的“重文輕圖”再到如今的“圖文并重”,這是科普事業發展的規律,也是日趨激烈的媒體競爭的必然要求。因此,只針對文字進行采集的形式已經不能滿足系統的需求,在系統中加入對科普圖片的采集是至關重要和迫切的。
本研究在利用網絡爬蟲進行食品營養安全科普圖像抓取的同時,為了剔除不包含科普文字的純圖像,利用深度學習中的卷積網絡模型實現對圖像的二分類[2]。選用2015年HE等[3]提出的殘差網絡進行圖像的二分類,同時為了提升Resnet18的分類效果,針對圖像中文字存在較為分散的問題,在卷積神經網絡中引入注意力機制,且為了降低模型的復雜度、實現特征通道的維度改變、增加網絡的非線性、減少計算量,利用1×1的卷積層對全連接層進行替換,在降低了模型復雜度的基礎上使改進后的Resnet18模型的分類效果顯著提升。
1 數據來源與方法
1.1 數據來源與清洗
本研究數據來源采用網絡爬蟲方式分別從微博、微信公眾號以及科普中國這3個網站共獲取1 700張食品營養安全科普圖像,對圖像進行數據清洗、去重等處理后用于實驗的數據量為1 678張。其中,帶文字的圖像為1 456張,純圖像為222張。將兩類數據分別以8∶2的比例劃分,帶文字的圖像訓練集總數為1 164張,測試集總數為292張,純圖像訓練集總數為177張,測試集總數為45張。帶文字及不帶文字的部分樣本數據如圖1、圖2所示。
1.2 Focal Loss數據預處理
由于網絡爬蟲爬取食品營養安全科普圖像數據質量較高,因此出現了分類任務中常見的數據不平衡的現象,這樣會導致對于數量較少的數據集即使出現分類錯誤也不會對分類結果產生一定影響,因此需要對此類不平衡的數據進行處理。本研究選用Focal Loss進行數據不平衡處理,使模型更專注于數量較少的圖像數據。常用的Cross Entropy Loss計算公式為
式中:p為真實的標簽值;y為預測概率值。
從式中可以看出對于正樣本來說,p與Loss成反比,對于負樣本來說p與Loss成正比,但對于正負比例失衡的樣本來說,此計算方法并不能準確地展示分類效果,因此需要對少量樣本的Loss進行強化,因此引入殘差法對Loss進行加強或減弱,Focal Loss的計算公式為
式中:FL(pt)為損失函數值;αt為權重;(1-pt)γ為調節因子;γ為可調節的聚焦參數;pt為模型預測的概率。
從式中可以看出當殘差過大時,相應的Loss會做增強,乘以權重后使模型對這部分數據進行加強處理,在一定程度上調節食品營養安全科普圖像數據樣本不均衡的問題。
1.3 模型的建立與優化
本研究要解決的是圖像的二分類問題,對比深度學習分類模型特征后,發現Resnet18網絡有著層數少、復雜度低及運算時間短等優點。針對食品營養安全圖像數據量適中且分類標準不會過于復雜的特點,Resnet18網絡更適用于食品營養安全科普圖像的二分類問題。
一個基本的Resnet18網絡架構,首先將輸入圖像分為RGB這3個通道,通道大小為224*224;開始進入第一個卷積層(conv),卷積核大小為77,步長為2;然后經過最大池化層(maxpool),卷積核大小為33,步長為1,不改變通道數但將數據減半,輸出數據為64*56*56;之后進入四層卷積結構(conv*4),第一層卷積數據大小及通道數均不改變,輸出數據為64*56*56,第二層到第4層都進行升維下采樣,即將卷積數據大小減半通道數翻倍,則第二層數據結果為128*28*28,第三層輸出結果為256*14*14,第四層輸出結果為512*7*7;之后進入平均池化層(avgpool),最終輸出結果為512*1*1。輸出數據計算公式為
式中:nout為輸出通道數;nin為輸入通道數;p為填充的大小;k為卷積核的大?。籹為步長。
1.3.1 ECA模塊
在運用傳統Resnet18網絡模型進行食品營養安全科普圖像數據分類后,發現由于部分圖像內可能含有類似文字的圖畫標志或存在水印等原因,導致模型對于此類圖像數據分類錯誤,因此在Resnet18網絡模型中加入注意力機制,以此提高模型分類的準確率。但在研究中發現傳統的SENet在卷積塊中引入通道注意力機制的分類方法,隨著模型精度及復雜度的增高,計算量及計算成本也隨之增大,且SE模塊中所采用的降維操作會影響通道注意力的預測[4],因此在Resnet18網絡模型中加入WANG等[5]提出的一種針對CNN的ECA模塊(Efficient Channel Attention Module),可以實現無需降維的局部跨通道交互策略,在性能穩定的同時對食品營養安全科普圖像的分類也有明顯的增益效果。ECA模塊使用不降維的GAP聚合卷積特征后,首先自適應確定核大小K(局部跨通道交互覆蓋范圍),然后進行一維卷積,再進行Sigmoid函數學習channel attention。ECA模型架構如圖3所示。
1.3.2 全連接層替換
由于食品營養安全科普圖像的尺寸不固定,而圖像的大小會影響全連接層的參數。用傳統方式對圖像進行隨機剪裁會使圖像信息無法完整呈現,會嚴重影響模型的分類效果。因此,為了突破全連接層對于尺寸的限制,將全連接層節點個數替換為卷積層的channel個數;樣本替換為空間上高和寬的元素;特征替換為通道數,完成了1*1卷積層對全連接層的替換,代替了全連接層在卷積神經網絡中的將卷積后的特征進行綜合的作用[6],在提升模型對于食品營養安全科普圖像分類效果的同時降低了模型復雜度。更新后的網絡結構如圖4所示。
2 結果與分析
2.1 混淆矩陣對比分析
利用網絡爬蟲實現食品營養安全科普圖像數據的獲取,利用Resnet18網絡實現食品營養安全科普圖像數據的二分類,同時對Resnet18網絡模型進行優化,實現對模型分類效果的提升。實驗在pycharm平臺下,使用python軟件進行編程以及模型的優化和改進,實現實驗結果的可視化。利用混淆矩陣、分類準確率及損失函數作為判斷分類結果的標準。
原Resnet18網絡模型分類結果如圖5所示,優化后的網絡模型分類結果如圖6所示。數字越大,對應的混淆矩陣顏色越深,在混淆矩陣中(0,0),(1,1)坐標為兩類數據分類準確的個數,其中(0,0)坐標為帶文字的圖像分類準確的個數,(1,1)坐標為純圖像分類準確的個數;(0,1),(1,0)兩個坐標為分類錯誤的個數,其中(0,1)坐標為帶文字的圖像分類錯誤的個數,(1,0)坐標為純圖像分類錯誤的個數。如圖5、6可知,優化前后對于帶文字的圖像數據分類準確個數由262提升至287,對于純圖像數據分類準確個數由31提升至34。對于帶文字的圖像數據分類錯誤個數由30降低至5,對于純圖像數據分類錯誤個數由14降低至11。說明優化后的模型分類效果優于優化前的模型。
2.2 損失函數對比分析
當預測類別等于真實類別時,Loss為0,否則Loss為1,損失函數L的計算公式為
式中:yi為真實值;f(xi)為預測值,當預測值與真實值相等時,損失函數值為1,否則為0;0ifyi=f(xi)為若(即if)預測值等于真實值時,Loss為0。
優化前后的損失函數的對比如圖7所示。Loss值是衡量模型性能的重要指標。由圖7可知,改進后的Resnet18模型相較原始Resnet18模型的Loss值低,且更加穩定,隨著epochs的增加,損失率逐漸下降并趨于穩定,并保持在0.05以下,說明該模型表現較好。由上述實驗結果可以證明,改進后的Resnet18模型針對食物營養科普圖像分類任務是可行、有效的。
2.3 準確率對比分析
為了更加直觀地展示Resnet18模型與改進后的Resnet18模型對于食品營養安全科普圖像數據的分類效果,將模型分類的準確率進行可視化展示,準確率可以直觀地反映不同方法的分類效果,通過圖8可以看出改進后的Resnet18模型更加穩定且分類效果明顯優于原Resnet18模型。
模型優化前對帶科普文字的圖像數據分類準確率為89.7%(262/292),對不符合要求的少量樣本的數據即純圖像分類準確率為68.9%(31/45),全部樣本數據分類的準確率為86.9%(293/337);優化后的模型對符合要求的數據分類準確率為98.3%(287/292),較優化前提升8.6%,對不符合要求的少量樣本數據分類準確率為75.6%(34/45),較優化前提升6.7%;對全部樣本數據分類的準確率高達95.3%(321/337),較優化前提升8.4%。改進后的模型的分類性能較傳統的Resnet18網絡模型有了較大提升。
3 結論
本研究使用網絡爬蟲實現食品營養安全科普圖像數據的采集,針對兩類食品營養安全圖像數據進行了Focal loss數據不平衡處理,使用Resnet18網絡實現圖像二分類并在傳統的Resnet18網絡分類模型中加入了ECA注意力機制,使模型性能顯著提高,并利用1*1的卷積結構替換了傳統模型的全連接層,降低了模型的復雜度的同時提升了模型分類效果。對比實驗表明改進后的模型分類的準確率更高,且在每種類別的分類上均有提升。本研究為解決圖像中是否包含文字的分類問題提供了新方法。
參考文獻
[1]王輝.基于主題爬蟲的食物營養科普信息監測系統研究[D].大慶:黑龍江八一農墾大學,2022.
[2]李飛騰.卷積神經網絡及其應用[D].大連:大連理工大學,2014.
[3]HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.LasVegas:IEEE,2016:770-778.
[4]郝阿香,賈郭軍.結合注意力與批特征擦除的行人重識別模型[J].計算機工程,2022,48(7):270-276.
[5]WANG Q L,WU B G,ZHU P F,et al.ECA-Net: efficient channel attention for deep convolutional neural networks[EB/OL].(2022-08-11)[2023-05-05].https://www.doc88.com/p-19939671004363.html.
[6]肖恩.基于深度學習的SAR車輛目標分類與識別[D].西安:西安電子科技大學,2020.