田 勇,廖 歡,江國強,周濤
(四川中煙工業(yè)有限責(zé)任公司什邡卷煙廠,什邡 618400)
霉菌作為一類分布極為廣泛的真菌微生物,在適宜的溫濕度條件下能夠迅速繁殖生長。片煙由于長時間的存儲以及受到復(fù)雜多變的環(huán)境因素影響,容易發(fā)生霉變、腐爛和質(zhì)變。不同地域、不同煙草品種以及霉菌菌種的不同,使得片煙霉變檢測成為一項具有一定挑戰(zhàn)性的任務(wù)。
傳統(tǒng)的片煙霉變檢測方法主要依賴于人工的方式,例如肉眼觀察和嗅覺等[1],對于少量的片煙進行檢測尚能勝任,但無法滿足正常卷煙生產(chǎn)對大量片煙霉變情況的準確檢測需求。因此,亟需一種高效準確的霉變檢測方法來保證煙草品質(zhì)。
計算機視覺是一種常見的非人工霉變檢測方式[2-3],它通過對片煙表面的圖像進行處理和分析,識別出可能存在的霉變區(qū)域,從而判斷片煙是否受到霉變影響。然而,這種方法無法準確識別臨近霉變和內(nèi)部的霉變情況。
為了提升對片煙內(nèi)部霉變以及臨近霉變的識別能力,本文基于近紅外光譜的吸收特征對化學(xué)成分進行了研究,提出了一種采用近紅外光譜方式進行片煙霉變檢測的方法。近紅外光譜技術(shù)以其在無損檢測領(lǐng)域的獨特優(yōu)勢得到了廣泛應(yīng)用,其對物質(zhì)的吸收、反射等特性具有敏感性,能夠提供豐富的化學(xué)信息[4-5]。
本文將通過突破傳統(tǒng)檢測手段的局限性,引入了深度學(xué)習(xí)技術(shù),為煙草行業(yè)提供了一套高效準確的片煙霉變檢測解決方案。這一創(chuàng)新性的研究成果將在提升卷煙生產(chǎn)質(zhì)量、保障消費者健康等方面,產(chǎn)生深遠的社會和經(jīng)濟效益。同時,本研究為近紅外光譜技術(shù)在農(nóng)產(chǎn)品質(zhì)量檢測中的應(yīng)用拓展了新的思路和方法,為相關(guān)領(lǐng)域的研究和實踐注入了新的活力和前景。
異常值和缺失值是常見的數(shù)據(jù)質(zhì)量問題。異常值可能是由于測量誤差、設(shè)備故障或其他異常情況導(dǎo)致的,它們可能會對分析和模型建立產(chǎn)生誤導(dǎo)。缺失值則可能是由于采集過程中的遺漏或者實際情況下無法獲取數(shù)據(jù)導(dǎo)致的,如果不進行處理,可能會導(dǎo)致分析結(jié)果的失真。因此在進一步對數(shù)據(jù)進行分析之前,需要對存在的缺失值和異常值進行處理。本文數(shù)據(jù)預(yù)處理的流程如圖1 所示。

圖1 數(shù)據(jù)預(yù)處理流程Fig.1 Data preprocessing workflow chart
在光譜設(shè)備進行檢測時,首先對入射光的振幅或相位(或同時調(diào)制兩者)進行周期性空間調(diào)控,隨后通過光纖導(dǎo)入系統(tǒng)中。隨著入射光照射在片煙表面,特定頻率的光會被片煙吸收,形成相應(yīng)的反射光。在經(jīng)過濾波處理后,只有近紅外部分被保留,接著通過光柵的作用,近紅外光產(chǎn)生了近干涉的效應(yīng)。電子元器件按順序檢測各個縫隙的近紅外光強度,從而得到不同波段的反射率。
本文使用的近紅外光譜儀覆蓋波長范圍從1000 nm 到2500 nm。在這個波長范圍內(nèi),將光譜分成了200 個不同的波段,每個波段對應(yīng)1 個反射率記錄。因此,每條數(shù)據(jù)包含了200 個不同波段的反射率數(shù)據(jù),同時還包括了片煙的種類、產(chǎn)地、霉變程度等相關(guān)信息。本文采集1000 條不同片煙的反射率數(shù)據(jù)。
異常值檢測是數(shù)據(jù)分析中的一個重要步驟,其目的是識別數(shù)據(jù)集中與其余數(shù)據(jù)顯著不同的觀測值,也就是那些在統(tǒng)計上被認為是罕見的或者異常的數(shù)據(jù)點。異常值可能代表了數(shù)據(jù)中的錯誤、噪聲,或者是具有特殊意義的重要信息。
本文采用局部異常因子[6]進行異常值檢測,該方法通過評估每個數(shù)據(jù)點相對于其鄰近鄰居的密度來確定其異常程度[7]。本文選用歐氏距離作為距離度量,以衡量數(shù)據(jù)點之間的相似性。對于每條數(shù)據(jù)的每一個波段的反射率,利用歐氏距離找到其最近的其他數(shù)據(jù)相同波段的k 個反射率鄰近點。根據(jù)找到的k-近鄰,計算每個數(shù)據(jù)點的局部可達密度:
式中:Nk(p)為點p 的k 個最近鄰;Dist(p,o)為點p到點o 的歐氏距離。
最終,利用局部可達密度計算每個數(shù)據(jù)點的局部異常因子:
通過設(shè)定適當(dāng)?shù)拈撝担纯蓪⒕植慨惓R蜃优c異常點的存在進行關(guān)聯(lián),從而識別出數(shù)據(jù)集中的局部異常點。
缺失值填充是數(shù)據(jù)預(yù)處理中的一項重要任務(wù),其目的是在數(shù)據(jù)集中存在缺失值的情況下,通過合理的方法來估計或補充缺失的數(shù)據(jù),以保證后續(xù)分析和建模的準確性和可靠性。
本文采用線性回歸模型進行缺失值填充,該方法旨在通過已有數(shù)據(jù)的線性關(guān)系來估計缺失值。將每個波段反射率看作線性回歸模型中的因變量,并使用同一條數(shù)據(jù)其他波段反射率作為自變量來估計缺失值。對于波段反射率Bj,線性回歸模型可以表示為
式中:Bj為要填充的波段反射率;α0,α1,α2,…,αm為回歸系數(shù);B1,B2,…,Bm為同一條數(shù)據(jù)其他波段反射率;ε 為誤差項。
對于每個要填充的波段反射率Bj,首先選擇其他不含缺失值的波段反射率B1,B2,…,Bm,然后構(gòu)建線性回歸模型。訓(xùn)練模型的目標是最小化誤差項ε,即:
式中:N 為樣本數(shù)量。
訓(xùn)練好的線性回歸模型可以用來估計缺失值。對于一個包含缺失波段反射率的數(shù)據(jù),使用其他已知的波段反射率代入模型,計算出Bj的估計值,從而填充缺失值。
本文將片煙數(shù)據(jù)及其統(tǒng)計特征共同輸入至深度學(xué)習(xí)模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8-9]中,達到對片煙霉變的智能檢測,如圖2 所示。

圖2 霉變智能檢測流程Fig.2 Intelligent mold detection flow chart
在本節(jié)中,本文對研究所使用的片煙數(shù)據(jù)進行統(tǒng)計特征的提取,為智能檢測模型提供更多參考信息,具體統(tǒng)計特征如表1 所示。

表1 統(tǒng)計特征計算表Tab.1 Statistical feature calculation table
2.2.1 檢測模型
每次訓(xùn)練將每條數(shù)據(jù)中的波段分為10 組,每組聯(lián)合統(tǒng)計特征作為RNN 每個時間步的輸入。
在RNN 的時間步t=0 時,初始化隱層狀態(tài)h0為零向量,則后續(xù)每一步隱層狀態(tài)的計算方式為
式中:Wxh和Whh為輸入層和隱層的權(quán)重矩陣;bh為隱層的偏置向量;xt為RNN 第t 步輸入,xt=[dt,dstat];dt為每條數(shù)據(jù)中 的第t 組波段數(shù)據(jù),dstat為統(tǒng)計特征;ReLU 為線性整流函數(shù),可以描述為
RNN 最終的輸出計算方式為
式中:Why和by分別為輸出層的權(quán)重矩陣和偏置向量;hT為最終步隱層狀態(tài);ρ 為sigmoid 函數(shù),可以描述為
RNN 的總體傳遞過程如圖3 所示。

圖3 RNN 傳遞過程Fig.3 RNN propagation process
2.2.2 目標函數(shù)與優(yōu)化
本文選用交叉熵作為目標函數(shù),其表達式為
目標函數(shù)的優(yōu)化使用Adam[10]反向傳播算法進行模型中參數(shù)的調(diào)整,從而使模型能不斷降低目標函數(shù)值。
為了驗證本文方法的有效性,本文采集1000條不同片煙的反射率數(shù)據(jù),其中800 條作為模型的訓(xùn)練樣本,200 條作為模型的測試樣本,其他模型相關(guān)參數(shù)如表2 所示。

表2 模型參數(shù)設(shè)置Tab.2 Model parameter configuration
本文實驗結(jié)果由兩部分構(gòu)成,第一部分對比了本文提出的方法和基于隨機森林的片煙霉變檢測方法的效果。第二部分測試了本文方法所采用的預(yù)處理和統(tǒng)計特征的有效性。為了衡量不同方法或方法配置的性能,本文選用分類問題中常用的4 個參數(shù),精確率(Accuracy)、準確率(Precision)、召回率(Recall)和F1 分數(shù)作為評價指標,表達式如下:
式中:TP 代表預(yù)測為有霉變的樣本、標簽為有霉變的樣本的數(shù)量;TN 代表預(yù)測為無霉變的樣本、標簽為無霉變的樣本的數(shù)量;FP 代表預(yù)測為有霉變的樣本、標簽為無霉變的樣本的數(shù)量;FN 代表預(yù)測為無霉變的樣本、標簽為有霉變的樣本的數(shù)量。
實驗結(jié)果的第一部分,本文提出的方法和基于隨機森林的片煙霉變檢測方法的對比結(jié)果如表3所示。

表3 不同方法結(jié)果對比Tab.3 Comparison of results from different methods
通過對比RNN 與隨機森林在分類任務(wù)中的表現(xiàn),可以看出RNN 在多個評價指標上表現(xiàn)更為優(yōu)越。首先,RNN 的精確率高達0.85,略高于隨機森林的0.82,顯示了其在整體分類準確性上的優(yōu)勢。其次,在準確率和召回率方面,RNN 分別達到了0.87和0.82,相對于隨機森林的0.85 和0.78,說明RNN在識別正類別時具有更高的準確率和覆蓋率。這也反映在F1 分數(shù)上,RNN 的0.84 略高于隨機森林的0.81,表明RNN 能夠在保持精確度和召回率的平衡上取得更好的效果。
實驗結(jié)果的第二部分,本文設(shè)計了不同對比實驗來檢驗本文方法所采用的預(yù)處理和統(tǒng)計特征的有效性,實驗結(jié)果如表4 所示。

表4 不同實驗配置結(jié)果對比Tab.4 Comparison of results with different experimental configurations
由表4 可知,使用預(yù)處理和統(tǒng)計特征的實驗配置在所有評價指標上均取得了最佳的性能,實驗結(jié)果表明,綜合考慮預(yù)處理和統(tǒng)計特征可以使模型獲得最佳的分類性能。
本文提出的算法結(jié)合了近紅外光譜技術(shù)和深度學(xué)習(xí)方法,能夠高效準確地檢測片煙中的霉變情況。相對于傳統(tǒng)的人工檢測方法,該算法能夠在更短的時間內(nèi)完成大量數(shù)據(jù)的處理,同時減少了人為誤差的影響,從而提高了檢測的效率和精度。
本文致力于開發(fā)一種基于近紅外光譜和深度學(xué)習(xí)方法的片煙霉變檢測方法,以解決傳統(tǒng)人工檢測方法的局限性。通過采用RNN 網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合近紅外光譜數(shù)據(jù),成功地實現(xiàn)了對片煙霉變的自動檢測與識別。實驗結(jié)果表明,本文的方法在精確率、準確率、召回率等評價指標上取得了提升,相比傳統(tǒng)的人工檢測方法,具有明顯的優(yōu)勢和實用價值。同時,本文還引入了異常值檢測和缺失值填充等預(yù)處理技術(shù),進一步提升了模型的穩(wěn)定性和魯棒性。綜上所述,本文為片煙霉變檢測領(lǐng)域的發(fā)展做出了一定的貢獻,同時也為相關(guān)領(lǐng)域的研究提供了有益的參考。我們相信,在不斷的改進和優(yōu)化下,該方法將在實際生產(chǎn)中發(fā)揮重要作用,為煙葉行業(yè)的發(fā)展做出積極的貢獻。