張志成 ,吳 箭 ,楊澤會 ,李正瑩 ,張曉兵 ,王 昕 ,李瑞東 ,呂小芳 ,彭云發 ,徐夢瑤
(1.云南煙葉復烤有限責任公司宣威復烤廠,云南 曲靖 655400;2.浙江中煙工業有限責任公司技術中心,浙江 杭州 310024;3.浙江中煙工業有限責任公司物資部,浙江 杭州 310002;4.云南煙葉復烤有限責任公司技術中心,云南 昆明 650000;5.上海創和億電子科技發展有限公司,上海 200084)
煙葉作為一種植物,其生長過程及形成狀態與大多植物一樣,受光合作用、海拔高度、土壤類型的影響,會形成相對類似卻又無一相同的狀態,顏色、外觀均如此[1-3]。在評價煙葉外觀質量的時候,煙葉的顏色信息是至關重要的評價指標之一,煙葉的顏色深淺、顏色均勻性對于煙葉分級都有很重大的影響[4]。煙葉顏色可分為檸檬黃、橘黃、紅棕等類別[5],不同產地、部位等級的煙葉顏色具有差異性。以往煙葉顏色的差異性僅能通過專家肉眼來辨別,很多時候受人為因素、外界環境等的影響,即使是相同的煙葉,不同專家的判別結果也不盡相同。
隨著工業視覺技術的崛起,目前已經有通過視覺檢測來實現煙葉顏色檢測的技術[6]。視覺檢測技術可以消除人為因素影響,對煙葉顏色的判別工作進行量化與標準化,因此更加客觀與科學[7]。目前工業視覺檢測技術已成為工農業加工過程中必不可少的檢測手段之一,通過RGB8 等真彩數字圖像能夠有效還原被測物的真實顏色,對于數字化處理及表征有著重大的幫助[8]。在色彩空間中,諸如RGB 色彩空間、HSV 色彩空間、Lab 色彩空間等,均廣泛應用于各行各業的真彩檢測表征中,涉及領域不同,所選擇的色彩空間也不同。
RGB是最常見并且最容易獲取的顏色信息,但是容易受到光照影響;HSV 是最接近人類肉眼識別程度的直觀型顏色空間,但是不適合在光線混合的情況下使用;Lab分辨色差的能力強,對拍攝圖像的設備要求比較低[9-11]。每種顏色空間均有優缺點,且每種顏色空間下具有多個顏色分量,因此可考慮將多個顏色空間分量值進行融合,使用綜合值對煙葉顏色進行表征[3]。
本文以云南產地煙葉為研究對象,分別提取煙葉圖像3 個顏色空間RGB、HSV、Lab 的3 種基礎顏色分量值以及灰度值,共計10 個值,并使用投影尋蹤(Projection Pursuit)算法將各顏色分量通過組合投影到低維子空間,通過遺傳算法求解優化投影指標函數,尋找能反映各顏色分量特征的最佳投影方向。
試驗材料為選后原煙,產地包含云南宣威、云南陸良、云南紅河3 個產地,部位涵蓋上部、中部和下部3個部位,煙葉圖像樣本數量為1 000 張。
煙葉圖像采集設備:煙葉綜合測試平臺(上海創和億電子科技發展有限公司,中國),型號為GTM-600。內置工業相機(FILR,加拿大),1 200萬全局曝光彩色相機;內置光源(上海嘉勵自動化科技有限公司,中國),平面無影光源(PCO 系列),打光方式:四周打光并配合頂部打光。拍攝設備為密封狀態,保證不受外界光源干擾。
1.3.1 顏色空間介紹
RGB 是紅色、綠色、藍色3 種顏色疊加而成的一種顏色空間,其色彩模式結構為正方體模型,如圖1所示,其中3 個軸分別為R、G、B,原點對應黑色,離原點最遠的點對應白色,其余各點對應不同的顏色,可用從原點到該點的向量(RGB)表示[12-13]。

圖1 RGB 顏色空間模型
HSV 顏色空間是面向用戶的,是根據人觀察色彩的生理特征而提出的顏色模型。圖像由RGB 顏色空間轉換為HSV顏色空間的公式[14-15]為:
式中,R、G、B分別為圖像在HSV 顏色空間中不同通道的像素值;H、S、V分別為HSV 顏色空間的明度值、飽和度值、色調值。
Lab 顏色空間L、a、b分量可以表示其他顏色,其最大特點是明度和顏色不在同一個通道里面,L分量只有明度,而a、b分量只有顏色。具體表現為:在a、b分量中,對象輪廓清晰并且Lab 顏色空間分辨色差的能力很強[9]。由RGB 顏色空間轉化為Lab 顏色空間的公式[16-19]為:
式中,X、Y、Z均為中間變量。
1.3.2 建模方法
1)采集煙葉樣本圖像。
2)對采集后的煙葉圖像進行預處理,并進行彩色圖像分割,將背景顏色分量置零,提取煙葉部分的RGB、HSV、Lab 顏色空間各顏色分量值和灰度值(R、G、B、H、S、V、L、a、b、gray)。
3)設原煙樣本的各顏色空間分量值為n行m列的矩陣,記為x1,其中n行代表煙葉樣本數,m列代表各顏色空間分量值。
4)利用投影尋蹤法對x1進行投影,投影的計算方法如下。
①對光譜矩陣x1進行標準化:
式中,i為顏色值矩陣x1的第i個樣本,j為顏色值矩陣x1的第j列。
②隨機抽取若干初始投影方向,也即為初始投影向量a(a1,a2,...,am)。
③確定投影目標函數Q(a):
式中,a為所述初始投影向量;Q(a)為所述目標函數;s(a)為所述初始投影向量的散布特性;d(a)為所述初始投影向量的局部密度。
式中,zi為第i個樣本序列的投影特征值,?za為序列zi的投影均值。
式中,rik為任意兩個煙葉樣本顏色投影特征值間的距離,計算公式如下:
式中,i、k∈[1,n],i、k為整數;n代表煙葉樣本數。
式中,R為估計局部散點密度的窗寬參數,按寬度內至少包括一個散點的原則選定,其取值與樣本數據結構有關,可確定它的合理取值范圍為rmax<R≤2n,其中,rmax=max(rik)(i,k=1,2,…,n)。
④求解線性投影的方向,轉化為下列優化問題:
⑤利用遺傳算法求解目標函數優化問題,求解出滿足上述公式的最佳投影向量a,將煙葉樣本顏色值乘以投影向量,即可得到樣本的顏色綜合值。
煙葉分級人員對煙葉樣本按照顏色進行排序,對算法進行驗證。
1.3.3 數據集構建
圖2 為從1 000 張煙葉中隨機挑選出的8 張顏色梯度差異明顯的煙葉圖像,將其作為測試集,對算法進行驗證,其余樣本作為訓練集。圖2(a)至圖2(h)分別是煙葉顏色由深至淺排序的結果,煙葉顏色逐漸由紅棕、橘黃到檸檬黃轉變。

圖2 不同顏色梯度的煙葉圖像
1.3.4 圖像預處理
采用顏色分割的方法剔除圖像中的背景,將背景像素值設置為0,如圖3 所示,圖3(a)為煙葉原始圖像,圖3(b)為煙葉分割圖像。

圖3 顏色分割圖像
從原圖中可以看出,煙葉的RGB 值與背景的RGB 值存在差異,經過分析發現,R<70 并且B>100的為煙葉,因此利用RGB 值的差異性將背景像素值設置為0,可將煙葉分割出來。
1.3.5 模型建立與訓練
在多顏色空間下,對煙葉圖像中的R、G、B、H、S、V、L、a、b、gray,共計10 個值,進行投影尋蹤分析,得出多顏色空間下的顏色綜合值,再依次在RGB空間、HSV 空間、Lab 空間下,分別進行投影尋蹤分析,依次得出RGB 空間、HSV 空間、Lab 空間下的顏色綜合值,用作對比分析。
其中,投影尋蹤分析所涉及的遺傳算法參數及步驟為:
1)挑選100 個個體形成初始化種群,并將顏色空間顏色分量值的個數設置為優秀個體數量,例如:計算多顏色空間時,優秀個體數即為10,計算RGB 空間時,優秀個體數即為3,以此類推。
2)將投影目標函數Q(a)值作為適應度函數,并設置迭代次數為50,開始循環,圖4(a)至圖4(d)分別為多顏色空間、RGB 顏色空間、HSV 顏色空間、Lab顏色空間下循環50次的適應度值。

圖4 不同顏色空間下的適應度值
3)通過適應度函數構建選擇函數,通過選擇函數計算出的概率值,從種群中選擇若干個體。
4)設置交叉概率為0.8,變異概率為0.2,通過染色體個體基因交叉、變異等產生新個體,形成新種群。
5)進行循環,若終止條件不滿足,則轉到step3繼續進化。
通過不同顏色空間下煙葉的顏色綜合值與專家排序結果間的斯皮爾曼相關系數,對不同顏色空間模型進行評估。
圖像處理、模型建立、數值計算代碼均采用Python語言。
試驗材料為1 000 張煙葉圖像,其RGB、HSV、Lab 顏色空間下的顏色分量值以及灰度值的描述統計分析如表1所示。

表1 煙葉顏色值描述統計分析
將8 張測試集煙葉圖片剔除背景信息后提取煙葉部分的RGB、HSV 和Lab 顏色空間各顏色分量值,同時對煙葉圖片進行灰度化處理,提取煙葉的灰度值,表2 為各顏色分量值和灰度值(R、G、B、H、S、V、L、a、b、gray)。

表2 各顏色分量值和灰度值
利用上述遺傳算法求解目標函數優化問題,求解出不同顏色空間下滿足要求的最佳投影向量,如表3所示。

表3 不同顏色空間下的最佳投影向量
圖5 為8 張驗證煙葉在多顏色空間、RGB 空間、HSV空間、Lab空間下的顏色綜合值的歸一化值。

圖5 不同顏色空間下的顏色綜合值的歸一化值
通過圖5 的多顏色空間下的顏色綜合值數據可以看出,煙葉顏色越深值越大,綜合值的歸一化值越接近于1;煙葉顏色越淺數值越小,綜合值的歸一化值越接近于0,因此通過顏色綜合值可以很直觀地看出煙葉顏色的深淺。
將不同顏色空間下煙葉的顏色綜合值與專家排序結果進行對比,計算兩者間的斯皮爾曼相關系數,結果如表4所示。

表4 不同顏色空間下顏色綜合值與專家排序結果的相關性
表4 的結果表明:融合多顏色空間計算出的顏色表征值與專家排序結果的相關性高于單顏色空間計算出的顏色表征值與專家排序結果的相關性,這表明多顏色空間包含了更多顏色信息,其表征值更能反映煙葉顏色特征。
通過連續采集不同部位等級煙葉樣本圖像,計算RGB、HSV、Lab 顏色空間和灰度值數據,并借助專業分級人員對試驗煙葉顏色進行打分,將多顏色空間的多維數據轉換為一維顏色值,并分析了使用多顏色空間的表征方法是否優于單顏色空間。結果表明:1)融合多顏色空間計算出的顏色表征值與專家排序結果的相關系數高達0.98;2)單獨使用RGB、HSV、Lab 顏色空間進行顏色表征的相關系數分別為0.95、0.62、0.76,這表明多顏色空間包含了更多顏色信息,其表征值更能反映煙葉顏色特征?;诙囝伾臻g的煙葉顏色表征方法可快速地把煙葉真實的顏色信息給提取出來,并且與人工排序的符合度較高,可實現在線應用,為煙葉外觀顏色均質化加工提供控制指標和數據支撐。