楊帆 申金媛
摘要:利用圖像特征對煙葉進行分級時,提出了一種對煙葉圖像特征進行有效選擇的新方法——利用二進制粒子群算法聯合SVM模型自適應地選擇對煙葉分級影響較大的特征,剔除對分級影響較小或相互間有關聯的某些特征,并利用Adaboost和RBF分類器進行驗證。結果表明,用SVM分類器時,用被選特征比輸入全部特征具有更好的分級正確率;對于相同的分類器,利用二進制粒子群和SVM算法自適應篩選后的特征比輸入全部特征具有更好的分級吻合率。
關鍵詞:煙葉;二進制粒子群;支持向量機;特征選擇
中圖分類號:TP181 ? ? ? ?文獻標識碼:A ? ? ? ?文章編號:0439-8114(2015)02-0449-04
DOI:10.14088/j.cnki.issn0439-8114.2015.02.050
Methods of Selecting Image Feature of Tobacco Leaf Based
on BPSO Combined with SVM
YANG Fan, SHEN Jin-yuan
(School of Information Engineer, Zhengzhou University, Zhengzhou ?450001, China)
Abstract: A method combining binary particle swarm optimization(BPSO) with SVM algorithm was proposed to select the important features for grading tobacco. Adaboost and RBF with the features selection was used to verify the conclusion. Results showed that the accuracy of SVM was improved by the new method. The adaptive feature selection of BPSO combined with SVM improved the accuracy of the tobacco grading with same model.
Key words: tobacco leaf; BPSO; SVM; feature selection
目前,我國煙葉分級主要還是依靠人工進行分級,這種方法存在著主觀性強、效率低等缺點,因此近年來研究人員在煙葉智能分級方面進行了研究。煙葉的智能識別方法主要有利用煙葉的化學特征、光譜特征和圖像特征。其中,利用圖像特征對煙葉進行分級有著對煙葉無損、設備簡單、效率較高等優點,能夠解決人工檢測方法的各種缺點,因此有著廣闊的應用前景,研究人員在這一領域進行了大量的研究[1-3]。在圖像特征的基礎上,人們使用了多種分類器對煙葉進行分級,包括支持向量機[4,5]、神經網絡[6-8]、主成分分析[9]、模糊識別[10]、粗糙集[11]等方法。但是在之前的研究中通常采用獲得的所有圖像特征進行訓練和分類,而一些特征如長、寬、長寬比、面積、周長等之間存在著很大的相關性,同時由于特征數目多使得分級模型復雜、計算量大,不僅造成訓練模型所需時間長,而且分級時所需要的時間也長,這對于收購煙葉的實時要求是非常不利的。另外,特征數目多、模型復雜,建立訓練模型時所需要尋找的參數多,參數之間又互相影響,這可能影響到最佳參數的選擇,因而影響到分級模型的正確分級率。因此對特征進行有效篩選,減少特征數目對于煙葉自動分級是必要而有意義的[12,13]。本研究提出一種與結果直接相關的特征選擇方法,在去除那些相關性較大的特征改善煙葉圖像識別效果的同時,還可以減短分類器訓練和分級時間而加快分級速度。
粒子群算法(PSO)屬于進化算法的一種,這種算法以其實現容易、精度高、收斂快等特點引起了學術界的重視,并且在解決實際問題中展示了其優越性,其中二進制粒子群(BPSO)是將PSO算法離散化的一種改進算法。支持向量機(SVM)是一種經典的模式識別方法,其在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,也曾被應用于煙葉的分類中。本研究使用BPSO并聯合SVM算法對煙葉的圖像特征進行選擇,并分別使用SVM、RBF和Adaboost算法進行了驗證。
1 ?烤煙煙葉特征提取
煙葉分級主要是對煙葉的部位、顏色、等級進行分類,其中部位為B(上部)、C(中部)、X(下部)3種,等級根據不同品質可能有3種或者4種,顏色分為F(檸檬黃)、L(橘黃)、R(紅棕色)3種。在這3個部分的基礎上,我國最新發布的煙葉分級標準將烤煙煙葉分為了42個等級。
本研究采用的烤煙煙葉圖片為使用CCD攝像頭在暗箱中拍攝獲取的煙葉透射圖像(圖1),因為相比反射圖片,透射圖片能更好的體現厚度等特征。在對煙葉圖像進行背景分割、降噪等一系列預處理后在對其進行特征提取,本研究提取8個外形特征:長、寬、長寬比、面積、周長、破損率、圓形度、矩形度;12個顏色特征:R、G、B和H、S、I的均值和方差;4個紋理特征:能量、慣性、相關性、熵。
2 ?基于BPSO和SVM的特征篩選
2.1 ?PSO算法
粒子群算法是1995年由Eberhart和Kennedy 提出的一種進化算法,來源于對鳥群捕食的行為研究。PSO初始化即為一個覓食的鳥群,其中每只鳥為一個隨機粒子(隨機解),每個初始粒子的位置都是隨機的。由一個速度參數來決定它們位置變化的快慢,而每個粒子的位置優劣都由一個適應度值(Fitness value)來評價。在每一代中,整個族群找到的最優解被稱為全局極值(gbest),每個粒子本身所找到的最優解被稱為這個粒子的個體極值(pbest)。在每一代進化中,每個粒子通過跟蹤gbest和pbest兩個極值來不斷更新自己和自己的速度,然后通過迭代找到最優解。
在得到全局極值和個體極值的情況下,粒子群算法通過以下公式來更新每個粒子的位置和速度:
v=wv+c1rand()(pbest-present)+c2rand()
(gbest-present) (1)
present=persent+v ? ? ? ? ? (2)
式中,v是粒子的速度,決定了粒子搜索時的速度;w是慣性權重,決定了粒子對之前速度的繼承度,即搜索的廣度;persent是當前粒子的位置;pbest為個體極值;gbest為全局極值;rand()為一個0到1之間的隨機數;c1和c2為學習因子,決定了粒子對全局極值和個體極值的跟蹤程度。
2.2 ?BPSO算法
在PSO算法中,每個粒子的每一維均為連續的實數,為了將PSO算法應用到離散問題中,Kennedy和Eberhart于1997年提出了二進制PSO算法,即BPSO算法。在BPSO算法中,每個粒子的每一維均取為二進制的離散值,即0或者1,對于速度則沒有任何限制。速度將通過一個轉換函數轉換到[0.0,1.0]這個區間,從而決定每個粒子每一維均被賦予1的概率,這個轉換函數通常選用sigmoid函數。此時二進制的粒子更新公式如下:
Pij=1 ?rand()S(Vij) 0 ? ?others ? (3)
式中,Vij為第i個粒子第j維的速度。
2.3 ?SVM算法
支持向量機是一種經典的機器學習算法,其在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。經典的SVM通過構建使兩類樣本間間隔最大的超平面來實現兩類非線性樣本的識別。在樣本難以分類時,SVM引入核函數的概念,將樣本通過核函數轉換到高維尋找間隔最大的超平面。在SVM中主要有以下幾類核函數:線性核函數:K(xi,x)=xix;多項式核函數:K(xi,x)=(?酌xix+coef)∧degree;RBF核函數:K(xi,x)=exp(-?酌‖xi-x‖)∧2;sigmoid核函數:K(xi,x)=tanh(?酌xix+coef)。
其中,核函數的選擇,現在還缺乏指導原則,主要針對具體的問題選擇不同的核函數進行比較選擇。在對n分類問題使用SVM時,建立n(n-1)/2個兩分類器,然后根據所有單個分類器的分類結果進行投票統計,樣本被判決為得票多那一類。選擇SVM的原因一是SVM不會因為初始參數的不同導致訓練結果不同,便于和BPSO聯合使用;二是SVM對于小樣本問題具有良好的表現,即具有更強的推廣能力。
2.4 ?特征選擇
根據上述描述,采用BPSO聯合SVM分類器進行煙葉圖像特征選擇。首先初始化粒子群,其中每個粒子為x=(x1,x2,……,xn),n為特征向量的維數,xi即粒子的每一維,xi=0或1,取0表示此特征未被選擇,1則表示被選擇。然后計算每個粒子的適應度,即SVM分類器訓練樣本的正確率,在訓練樣本準確率相同的情況下,x中為1的項越少就認為該粒子的適應度更好。根據所得的適應度,如果此時該粒子的適應度值為該粒子在進化過程中的歷史最優,則將其作為該粒子的個體極值(pbest)。如果一個粒子的適應度值為所有粒子進化過程中的歷史最優,則將其作為全局最優值(gbest)。
更新粒子群,根據gbest和pbest對速度公式(4)進行更新,
v=wv+c1rand()(pbest-present)+c2rand()
(gbest-present)(4)
然后根據Vij即第i個粒子第j維的速度對每個粒子每一維的取值按照公式(5)進行更新。
Pij= 1 ?rand()≤1/(1+e-Vij)0 ? ? ?others(5)
最后檢查是否達到停止迭代的條件,本研究即達到最大迭代次數,如果沒有到達停止條件則返回到計算每個粒子適應度的那一步,若達到停止條件則停止運算。
3 ?實踐驗證分析
本研究使用的煙葉樣本共為462張,其中包括B2F等級26片、B3F等級29片、B4F等級54片、C2F等級45片、C2L等級46片、C3F等級29片、C3L等級37片、X2F等級37片、X2L等級21片、X3F等級40片、X3L等級33片、X4F等級31片、X4L等級34片,一共13個在煙葉總量中所占比例較大,經濟價值較高的主組煙葉。
在使用粒子群算法時,初始粒子數為100,學習因子c1=c2=2,慣性權重w=1,速度范圍為[-4,4],根據多次尋優的經驗,大約迭代30次左右就會收斂(圖2),即找到全局最優點,所以迭代次數選為50次。使用SVM選擇的核函數為線性核函數,懲罰因子c的最優參數通過網格法搜索得到。通過BPSO和SVM自適應特征選擇后,煙葉的寬、破損率、矩形度、R均值、G均值、B均值、H均值、H方差、S方差、I方差、紋理能量、紋理相關性12個特征被保留,其他12個特征被剔除。
為驗證特征選擇的有效性、必要性和重要性,分別用全部特征和利用BPSO、SVM算法選擇出的12個特征建立SVM、Adaboost和RBF神經網絡煙葉分級模型。從462個樣本中選擇334片為訓練樣本,128片為測試樣本。
由表1可以看到,不論是采用SVM還是RBF或Adaboost分級分類器,利用BPSO和SVM聯合的方法對特征進行自適應篩選都可不同程度地提高煙葉的分級正確率。這是因為眾多的特征間有一定的相關性,這些相關的特征均作為分級影響變量時,由于變量數目多,不僅增加了分類器最佳參數的選擇難度,甚至可能對分級引起一定的干擾,如矩形度、圓形度、長、寬、長寬比、面積、周長之間具有很大的相關性;另外還有一些特征雖然對分級有一定的影響,但是影響程度不大,很有可能其對于參數選擇帶來的不利超過了對分級的影響,因而影響到分級的正確性,因此經過特征自適應篩選,幾種不同分類器的分級正確率都有了一定的提高。BPSO和SVM聯合的方法對特征進行自適應篩選,可以有效地剔除一些相關聯的特征,如相關性比較大的矩形度、圓形度、長、寬、長寬比、面積、周長7個特征,經過選擇只剩下寬和矩形度兩個特征,剔除了其他5個特征;顏色特征則刪減了S、I的均值和R、G、B方差;在總特征數量減少了一半的同時,訓練樣本和測試樣本的正確率也得到了提高,說明本研究對煙葉特征的選擇是有效的。
4 ?小結與討論
使用BPSO和SVM聯合的方法可以在顯著降低煙葉特征數量的同時提高識別率,這是因為去除了一些跟分級無關或者互相之間關聯較大的特征。利用被選擇的特征在其他分類器上進行訓練,也表現出了優于使用所有特征訓練的結果,證明了本研究特征選擇方法的有效性。本研究中所挑選的特征是否是其他分類器在煙葉圖像識別時最優的特征組合,還需要進一步對其他分類器進行試驗和特征選擇,而如果不同分類器的最優特征組合不同,這其中的不同是哪些因素所導致的,是下一步要進行的研究工作。
參考文獻:
[1] 韓力群,何 ?為,段正剛,等.烤煙煙葉自動分級的智能技術[J].農業工程學報,2002,18(6):173-175.
[2] 馬文杰,賀立源,劉華波,等.成像環境因素對煙葉圖像采集的結果的影響及校正研究[J].中國農業科學,2006,39(12):2615-2620.
[3] 劉華波,賀立源,馬文杰,等.透射圖像顏色特征在煙葉識別中應用的探索[J].農業工程學報,2007,23(9):169-171.
[4] 章 ?英,賀立源,葉穎澤,等.基于LS-SVM的烤煙煙葉產地判別[J].湖北農業科學,2012,51(3):583-585.
[5] 潘治利,祁 ?萌,魏春陽,等.基于圖像處理和支持向量機的初烤煙葉顏色特征區域分類[J].作物學報,2012,38(2):374-379.
[6] 陳 ?津.基于概率神經網絡的烤煙煙葉質量的相關性分析[J].北京工商大學學報(自然科學版),2010,28(6):66-70.
[7] 張樂明,申金媛,劉劍君,等.概率神經網絡在煙葉自動分級中的應用[J].農機化研究,2011(12):32-35.
[8] 申振宇,申金媛,劉劍君,等.基于神經網絡的特征分析在煙葉分級中的應用[J].計算機與數字工程,2012,40(7):122-124.
[9] 鄒淵淵,伍岳慶,姚 ?宇.基于主成分和回歸分析的煙葉質量分析模型[J].計算機應用,2011,31(2):81-89.
[10] 韓立群,何 ?為,蘇維均,等.基于擬腦智能系統的烤煙煙葉分級研究[J].農業工程學報,2008,24(7):137-140.
[11] 譚 ?旭,唐云嵐,陳英武.基于粗糙集的烤煙煙葉智能分級方法[J].農業機械學報,2009,40(6):169-174.
[12] 李麗華,丁香乾,賀 ?英,等.基于Tabu搜索的貝葉斯網絡在煙葉香型評價中的應用[J].計算機應用與軟件,2012,29(3):225-227.
[13] HUANG C L, WANG C J. A GA-based feature selection and parameters optimization for support vector machines[J]. Expert Systems with Applications,2006,31(2):231-240.