趙麗莉
(長春理工大學(xué) 光電信息學(xué)院,長春 130000)
光譜分析是光源頻譜特性獲取的重要手段,對激光的頻譜分布、功率譜等的量化分析需要借助特征提取與聚類分析等手段完成[1]。多波長干涉圖像被應(yīng)用于很多領(lǐng)域,在軍事激光告警系統(tǒng)需要對入射激光的方向與波長進(jìn)行識別從而完成針對性的反應(yīng),對干涉圖像頻域分析是一種實現(xiàn)手段[2];在民用中,表面形貌掃描檢測可以獲取被測物的高精度面型信息,多波長干涉圖像可解調(diào)計算獲得精細(xì)的面型變化[3]。對于多波段激光混疊光譜而言,特征的提取往往更加困難,若能實現(xiàn)對大量信息進(jìn)行快速準(zhǔn)確分類,將對有效信息的提取具有重要意義。
近些年隨著計算機(jī)科學(xué)技術(shù)的不斷發(fā)展,分析處理算法的種類不斷增加,性能不斷提高,數(shù)據(jù)挖掘技術(shù)在分類檢測領(lǐng)域的優(yōu)勢凸顯出來,對激光干涉條紋中的數(shù)據(jù)挖掘進(jìn)行分類,根據(jù)干涉條紋信息中頻率與振幅屬性進(jìn)行分類,從而實現(xiàn)對同類型信息的提取及對同類型噪聲的抑制[4]。采用數(shù)據(jù)挖掘技術(shù)可以實現(xiàn)對干涉條紋數(shù)據(jù)進(jìn)行分類識別,構(gòu)建干涉條紋數(shù)據(jù)庫,提高干涉條紋數(shù)據(jù)處理能力,故研究針對干涉條紋數(shù)據(jù)的數(shù)據(jù)挖掘分類算法具有重要意義。
對干涉條紋數(shù)據(jù)的分類是建立在多譜段和高光譜的數(shù)據(jù)挖掘特征獲取基礎(chǔ)之上的,根據(jù)機(jī)器學(xué)習(xí)[5]、深度學(xué)習(xí)[6]和自適應(yīng)參數(shù)調(diào)整[7]等手段,完成數(shù)據(jù)分類識別。傳統(tǒng)方法包括多元回歸法[8]、K最鄰近法[9]和模糊分類法[10]等挖掘干涉條紋數(shù)據(jù)頻率和振幅之間的關(guān)系,通過自適應(yīng)學(xué)習(xí)算法對多譜段干涉條紋樣本進(jìn)行數(shù)據(jù)挖掘分類。劉璇等人[11]利用機(jī)器學(xué)習(xí)算法對高光譜植被數(shù)據(jù)進(jìn)行分類識別,獲得的波段特性區(qū)間為農(nóng)業(yè)植被評價提供了數(shù)據(jù)支撐;袁書萍[12]采用數(shù)據(jù)挖掘技術(shù)對激光熒光光譜數(shù)據(jù)進(jìn)行分類,通過多節(jié)點(diǎn)并行處理方法大幅提升了分類速度。余曉婭等人[13]通過偏最小二乘回歸數(shù)據(jù)處理手段,完成了藻類遙感圖像的分類與識別,平均正確率在80%以上。
為了解決混疊光譜[14-16]的分類與識別,本文提出一種基于數(shù)據(jù)挖掘技術(shù)的自相關(guān)提取分類算法。構(gòu)建數(shù)據(jù)結(jié)構(gòu)模型,采用數(shù)據(jù)結(jié)構(gòu)特征提取技術(shù)對多波段激光數(shù)據(jù)進(jìn)行屬性分類與特征挖掘,最終實現(xiàn)了光譜數(shù)據(jù)的特征提取與分類。
為了對光譜數(shù)據(jù)進(jìn)行特征分類[17-18],從而分離不同激光光源的頻譜信息,構(gòu)建了針對多波段激光數(shù)據(jù)的分類模型,完成特征信息的提取。由于多波段激光數(shù)據(jù)存在光譜混疊的現(xiàn)象,所以需要采用模糊非線性分析方法進(jìn)行特征提取,從而完成特征量的量化分析。多波段激光特征數(shù)據(jù)分類模型如圖1所示。

圖1 多波段激光特征數(shù)據(jù)分類模型
對多波段激光數(shù)據(jù)分類需要分離不同激光光源的頻譜信息,從而構(gòu)建基于特征量化分解的聚類算法進(jìn)行多波段光譜特征數(shù)采樣和分布結(jié)構(gòu)分析;采用特征數(shù)據(jù)模型結(jié)合分類映射方法完成多波段光譜數(shù)據(jù)的關(guān)聯(lián)規(guī)則設(shè)計,實現(xiàn)自聚類。設(shè)多波段激光特征原始數(shù)據(jù)為xi,i為波長軸向上的任意采樣位置,則經(jīng)分布概率分類映射后可將海量激光特征數(shù)據(jù)降維至有限數(shù)據(jù)集合:
式中,xk為第k個樣本的數(shù)據(jù)。對該樣本空間進(jìn)行屬性分類,對初始激光數(shù)據(jù)進(jìn)行壓縮映射,獲得k個樣本,表示為ki,iR,R為實數(shù)集,imax=k。
在上述結(jié)構(gòu)模型的基礎(chǔ)上,分析多波段激光特征數(shù)據(jù)的量化特征,構(gòu)建其自回歸平均模型,則該模型中的樣本可表示為
式中:φ0,φ1, …,φm為多波段激光特征數(shù)據(jù)分類規(guī)則的自回歸系數(shù);數(shù)據(jù)的頻率特征集合中包含m個頻率值點(diǎn),m為該集合的最大值;i為其特征量集合中的第i個;數(shù)據(jù)的功率特征集合中包含n個頻率值點(diǎn),n為該集合的最大值;j為其特征量集合中的第j個;ξ為高斯分布。依據(jù)數(shù)據(jù)分布概率對原始數(shù)據(jù)xk的秩進(jìn)行分布概率分析,可以獲得數(shù)據(jù)樣本序列y(xk),并對其進(jìn)行相位隨機(jī)化組合處理,再完成傅里葉變換,可得到新秩序為
式中,F(xiàn)為傅里葉變換。通過傅里葉變換可對數(shù)據(jù)頻域特征進(jìn)行分析處理。
在數(shù)據(jù)分類模型中已經(jīng)通過特征提取將原始數(shù)據(jù)進(jìn)行了分類,但這個特征數(shù)據(jù)仍然是包含多波段特征的,要想獲取每個細(xì)節(jié)信息,還需要將特征信息按照其不同屬性進(jìn)行歸類。由于同一類特征具有相同的屬性,所以可利用自相關(guān)計算模式完成屬性分類,設(shè)x(t)為訓(xùn)練樣本。則訓(xùn)練向量模式為
式中,t為訓(xùn)練數(shù)據(jù)時選擇對應(yīng)樣本位置,tk。
計算特征數(shù)據(jù)的屬性隸屬度函數(shù)為
式中,ωij=(ω0,j,ω1,j, …,ωk-1,j)T為自適應(yīng)算法的加權(quán)系數(shù),對應(yīng)功率特征集合中第j個數(shù)據(jù)的0~k-1個系數(shù)的轉(zhuǎn)置。對式(5)迭代循環(huán)求最小值,就能得到特征數(shù)據(jù)的數(shù)據(jù)挖掘判據(jù)。
由此衰減權(quán)值系數(shù)進(jìn)行自相關(guān)提取分類,對多波段光譜數(shù)據(jù)進(jìn)行信息融合,從而獲取全局最優(yōu)解,識別步驟如下:
(1) 提取多波段光譜數(shù)據(jù),數(shù)據(jù)降維,實現(xiàn)有限集X的獲取,并依據(jù)映射關(guān)系構(gòu)建k個樣本;
(2) 分析量化特征,構(gòu)建自回歸平均模型A(m,n);
(3) 通過映射向量y(xk),計算表征屬性類別的樣本訓(xùn)練y′(xk);
(4) 在總體數(shù)據(jù)k個樣本中選取t組訓(xùn)練,得到訓(xùn)練向量x(t);
(5) 計算特征數(shù)據(jù)的屬性隸屬度函數(shù)dj,對其循環(huán)求最小值,得到特征數(shù)據(jù)的數(shù)據(jù)挖掘判據(jù)。
為驗證分類算法的識別性能,首先需要獲取合適的多波段激光數(shù)據(jù),采用靜態(tài)傅里葉干涉模塊完成對混合多波段激光的入射光進(jìn)行相干處理,從而得到多波段激光數(shù)據(jù)。系統(tǒng)結(jié)構(gòu)如圖2所示。

圖2 多波段激光數(shù)據(jù)獲取系統(tǒng)
系統(tǒng)中光源采用昊量光電公司生產(chǎn)的半導(dǎo)體激光器,3種激光器的波長分別是532、561和660 nm。輸出功率可調(diào),實驗中采用30 mW,功率穩(wěn)定性為0.5%。干涉模塊采用靜態(tài)傅里葉變換干涉具實現(xiàn),如圖2(a)所示,兩個反射鏡中有一個具有微小傾角φ(φ1°),故從A點(diǎn)到B點(diǎn)的光程差逐漸增大,與BC段反射光形成連續(xù)的光程差變化,實現(xiàn)空間光程差掃描,形成干涉條紋圖像。
為了驗證分類算法的識別性能,在Matlab軟件中仿真實驗完成,由采集卡累計獲取多波段激光混疊光譜信息。數(shù)據(jù)分類訓(xùn)練樣本為150,初始聚類參數(shù)設(shè)置為(0.2,0.2),數(shù)據(jù)屬性類別為3(分別對應(yīng)3種激光中心波長),分類加速因子為2.8,自適應(yīng)學(xué)習(xí)速度為[0,1],向量rk量化權(quán)值為0.85(在0.80~0.95之間遍歷尋優(yōu))。對電荷耦合元件(Charge Coupled Device,CCD)采集的一幀干涉條紋數(shù)據(jù)進(jìn)行分類建模測試,待分類數(shù)據(jù)空域譜如圖3(a)所示,分別采用本文算法、傳統(tǒng)均值分類算法及最小二乘法分類算法,結(jié)果如圖3(b)~(d)所示。

圖3 數(shù)據(jù)及數(shù)據(jù)處理結(jié)果
由仿真結(jié)果可知,在針對同一組多光譜數(shù)據(jù)進(jìn)行分類獲得的數(shù)據(jù)分類集合與聚類組系數(shù)之間的關(guān)系中,圖3(b)屬性分類效果最佳,圖3(c)和圖3(d)均實現(xiàn)了一個特征波長上的有效分離,而另外兩個的區(qū)分性很差。由此可見,本文所提算法可將3個特征波長的數(shù)據(jù)有效分離,這樣再完成傅里葉變換獲取光譜分布時就能夠大幅提升每個光源光譜分布的光譜純度。
為了量化算法的分類能力,對比數(shù)據(jù)選用在原始光源中引入噪聲后的光譜數(shù)據(jù),對不同測試方法的分類識別誤差進(jìn)行計算,對比結(jié)果如表1所示。

表1 分類識別誤差對比
由表可知,附加噪聲強(qiáng)度越大,分類識別誤差越大,3種算法的識別誤差平均值分別是0.110、0.191和0.167,本文算法相比傳統(tǒng)算法具有更好的識別效率,對于多波段光譜數(shù)據(jù)具有更強(qiáng)的分離能力。在此基礎(chǔ)上對3種算法的運(yùn)算耗時進(jìn)行了對比測試,當(dāng)數(shù)據(jù)總量為10 GB時,3種算法的運(yùn)行耗時分別為5、16和21 s;當(dāng)數(shù)據(jù)總量為20 GB時,3種算法的運(yùn)行耗時分別為8、24 和32 s;當(dāng)數(shù)據(jù)總量為50 GB時,3種算法的運(yùn)行耗時分別為14、33和46 s。由于本文算法在特征提取之前已經(jīng)完成了數(shù)據(jù)降維,所以自回歸計算的時間開銷相比傳統(tǒng)算法要小,提高了算法的運(yùn)算效率。
本實驗采用了3個激光器(3個不同的中心波長),而獲取其頻域信息是采用將二維圖像壓縮至一維數(shù)據(jù)的方法實現(xiàn)的,所以整體數(shù)據(jù)分類是對一維數(shù)據(jù)的特征提取運(yùn)算,當(dāng)入射激光的中心波長數(shù)更多時,會增加干涉條紋的混疊程度,但是干涉圖像壓縮后的數(shù)據(jù)量是不變的,所以處理速度基本不變。但隨著波長數(shù)增多會導(dǎo)致干涉條紋混疊程度更加嚴(yán)重,從而增大識別誤差,如遇該種情況可采用獲取多組圖像對數(shù)據(jù)進(jìn)行相關(guān)處理的方式減小識別誤差。
由此可見,本文算法的分類誤差小、速度快,在多波段激光數(shù)據(jù)分類應(yīng)用中優(yōu)于傳統(tǒng)數(shù)據(jù)分類算法,具有更好的應(yīng)用價值。
針對多波段激光數(shù)據(jù)在光譜獲取中往往由于頻譜混疊導(dǎo)致特征數(shù)據(jù)分離不清的問題,本文設(shè)計了一種針對多波段激光原始數(shù)據(jù)的特征分類模型,提出了基于數(shù)據(jù)挖掘技術(shù)的自相關(guān)提取分類算法。因為不同中心波長的屬性特征不同,所以采用自相關(guān)計算模式實現(xiàn)了對數(shù)據(jù)屬性的隸屬度判斷。實驗針對實測的混疊激光數(shù)據(jù)進(jìn)行了分類識別,結(jié)果表明,本文算法相比傳統(tǒng)均值分類算法和最小二乘法分類算法具有誤差小、耗時少的優(yōu)勢,驗證了其具有更好的應(yīng)用價值。