關(guān) 鑫
(中國船舶集團(tuán)有限公司第八研究院,江蘇 揚(yáng)州 225101)
大氣溫度廓線即溫度在大氣中的垂直分布,是大氣狀態(tài)參數(shù)十分重要的組成部分,其在氣象預(yù)報(bào)、極端天氣預(yù)警和氣象分析等研究領(lǐng)域有著重要作用[1]。目前在軌的微波溫度輻射計(jì)一般只有幾個(gè)到十幾個(gè)通道,根據(jù)每個(gè)通道的權(quán)重函數(shù),單個(gè)通道只能較為精確地探測很小的一段垂直大氣中的溫度,所以想要進(jìn)行精細(xì)的大氣垂直探測幾乎不可能實(shí)現(xiàn)。在此背景下,發(fā)展高光譜微波輻射計(jì)成為了一種趨勢。
由于高光譜探測衛(wèi)星上的探測通道非常多,通常有幾千個(gè),所以其測量數(shù)據(jù)十分龐大。而這產(chǎn)生了一些新的問題:一是計(jì)算量太大;二是數(shù)據(jù)會(huì)攜帶很多冗余信息,這將增加數(shù)據(jù)傳輸、存儲(chǔ)的成本,同時(shí)也會(huì)對反演精度有一定影響。通過對高光譜數(shù)據(jù)進(jìn)行預(yù)處理可以大大減少其數(shù)據(jù)量,從而解決這些問題。
神經(jīng)網(wǎng)絡(luò)方法在大氣溫度廓線反演方面已經(jīng)有了非常廣泛的應(yīng)用。1994年Churnside等人首次使用神經(jīng)網(wǎng)絡(luò)反演法以NWS的無線電探空儀歷史數(shù)據(jù)為基礎(chǔ)對大氣溫度垂直分布進(jìn)行了反演[2]。2005年Karbou等人使用神經(jīng)網(wǎng)絡(luò)反演方法對AMSU探測的晴空亮溫?cái)?shù)據(jù)進(jìn)行了地表為陸地情況的大氣溫濕度垂直分布反演[3]。1999年Frate等人用五層神經(jīng)網(wǎng)絡(luò)方法反演了大氣溫度廓線[4]。
本文根據(jù)SeeBorV5.0數(shù)據(jù)集中的大氣溫濕度廓線,使用MPM93的正演模型產(chǎn)生頻率范圍為50~60 GHz、通道數(shù)為2 000的高光譜仿真亮溫?cái)?shù)據(jù)。分別使用主成分分析法和通道選擇方法2種方法對仿真亮溫?cái)?shù)據(jù)進(jìn)行預(yù)處理。將處理過后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入對大氣溫度廓線進(jìn)行反演。比較2種預(yù)處理方法對神經(jīng)網(wǎng)絡(luò)反演結(jié)果精度的影響,并說明2種預(yù)處理方法各自的優(yōu)劣。
本文所用的原始數(shù)據(jù)來自全球晴空大氣廓線訓(xùn)練數(shù)據(jù)集(SeeBorV5.0),其中包括分布在全球范圍的15 704條晴空條件下的溫度、濕度廓線。從其中隨機(jī)挑選出10 000條大氣溫濕度廓線作為主要的實(shí)驗(yàn)數(shù)據(jù)。使用MPM93吸收系數(shù)模型來計(jì)算吸收系數(shù),再利用輻射傳輸方程得到對地觀測的仿真亮溫。
本文的實(shí)驗(yàn)流程框圖如圖1所示。首先選擇數(shù)據(jù)預(yù)處理的方法,是進(jìn)行主成分分析還是進(jìn)行通道選擇來預(yù)處理亮溫?cái)?shù)據(jù)。之后設(shè)置預(yù)處理方法的條件,主成分分析主要是設(shè)置選取主成分的個(gè)數(shù),通道選擇主要是設(shè)置要選擇的通道個(gè)數(shù)。最后對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)反演并對反演結(jié)果進(jìn)行分析。

圖1 實(shí)驗(yàn)流程框圖
對通過正演模型計(jì)算得到的高光譜仿真亮溫?cái)?shù)據(jù)做主成分分析,結(jié)果如圖2所示。圖中橫坐標(biāo)為主成分的序列號(hào),如1代表第一主成分,縱坐標(biāo)是主成分對應(yīng)的特征值占總樣本數(shù)據(jù)特征值的百分比,直方圖代表各主成分的特征值占總特征值的百分比,折線圖表示前n個(gè)主成分的特征值占總特征值的百分比。由圖2可以看出只取前5個(gè)主成分時(shí)其特征值的和就可以占總特征值的98.42%,取前10個(gè)時(shí)可以達(dá)到99.12%,所以理論上取10個(gè)以內(nèi)的主成分就可以代表樣本中絕大部分的信息特征,從而滿足反演的需求。

圖2 高光譜仿真亮溫?cái)?shù)據(jù)的主成分分析
對高光譜亮溫?cái)?shù)據(jù)進(jìn)行預(yù)處理的另一種方法就是通道選擇。通道選擇顧名思義就是從所有的探測通道中選出可以代表整體數(shù)據(jù)的少量通道,在不影響反演精度的情況下盡可能減小數(shù)據(jù)量。為了更好地評價(jià)反演效果,定義大氣可反演指標(biāo)p[5]:
(1)
式中:Sa為背景場誤差協(xié)方差矩陣;S為反演結(jié)果的誤差協(xié)方差矩陣;p為對反演結(jié)果的整體評估。
反演結(jié)果的誤差協(xié)方差矩陣為:
S=Sa-SaKT(Sε+KSaKT)-1KSa
(2)
式中:K為權(quán)重函數(shù)矩陣;Sε為觀測誤差協(xié)方差矩陣。
當(dāng)只選擇1個(gè)通道時(shí),若行向量k表示權(quán)重函數(shù)矩陣中此通道的權(quán)重函數(shù),sε為觀測誤差協(xié)方差矩陣對角線上該通道對應(yīng)的誤差標(biāo)準(zhǔn)差,sε為標(biāo)量。由式(2)可得,使用此通道進(jìn)行反演時(shí)的誤差協(xié)方差矩陣是:
S=Sa-SakT(sε+kSakT)-1kSa
(3)
計(jì)算出每個(gè)通道的p值,并將p值最大的通道作為本次通道選擇選出的通道。然后使用式(3)計(jì)算出本次選擇出的通道S,將其作為下一次迭代的背景場誤差協(xié)方差矩陣Sa,再將剩下的通道作為下次迭代的選擇樣本。重復(fù)以上步驟即可選出需要的M個(gè)通道。
頻率范圍為50~60 GHz,通道數(shù)為2 000的權(quán)重函數(shù)矩陣如圖3所示。對其進(jìn)行通道選擇,設(shè)置通道選擇的通道數(shù)為100,圖4為進(jìn)行通道選擇過程中每次迭代選出的通道的權(quán)重函數(shù)矩陣,可以看出選中的通道的權(quán)重函數(shù)峰值所在高度基本上可以覆蓋從地表到大氣高層。

圖3 通道數(shù)為2 000的權(quán)重函數(shù)

圖4 按選中通道順序的權(quán)重函數(shù)分布
本文使用一個(gè)3層的BP神經(jīng)網(wǎng)絡(luò)作為大氣溫度廓線反演的反演模型,其結(jié)構(gòu)如圖5所示。由于大氣反演的非線性,所以隱層使用雙極性S函數(shù)作為激活函數(shù)來對應(yīng)此非線性,輸出層采用線性激活函數(shù)來對應(yīng)大氣溫度的動(dòng)態(tài)分布。反演過程可以分為以下幾步:(1)將數(shù)據(jù)分為訓(xùn)練集和測試集,訓(xùn)練集和測試集的生成視實(shí)際情況而定;(2)對輸入的高光譜數(shù)據(jù)進(jìn)行預(yù)處理,可以選擇主成分分析和通道選擇方法,以減少輸入個(gè)數(shù)并消除其相關(guān)性;(3)設(shè)計(jì)網(wǎng)絡(luò)和合適的訓(xùn)練目標(biāo),完成訓(xùn)練。最后通過測試集來進(jìn)行網(wǎng)絡(luò)測試,計(jì)算網(wǎng)絡(luò)輸出的數(shù)據(jù)與原始數(shù)據(jù)的均方根誤差。

圖5 3層BP神經(jīng)網(wǎng)絡(luò)示意圖
對BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)主要是對隱層層數(shù)、各隱層對神經(jīng)元個(gè)數(shù)、學(xué)習(xí)效率、訓(xùn)練次數(shù)和訓(xùn)練目標(biāo)的設(shè)置。經(jīng)過試驗(yàn)對比,對于大氣溫度廓線反演只需要單隱層就可以滿足要求。隱層中神經(jīng)元個(gè)數(shù)參考公式為:
(4)
式中:n表示輸出神經(jīng)元個(gè)數(shù);m表示輸入單元數(shù);a為1~10之間的常數(shù)。
本實(shí)驗(yàn)將2~105Pa范圍內(nèi)的大氣分為100層,即輸出神經(jīng)元數(shù)目為100,而作為神經(jīng)網(wǎng)絡(luò)輸入的經(jīng)過預(yù)處理后的高光譜數(shù)據(jù)維數(shù)根據(jù)預(yù)處理方法的不同一般取30~80之間,所以將隱層中神經(jīng)元個(gè)數(shù)設(shè)置為15。學(xué)習(xí)效率應(yīng)設(shè)為較小的值,因?yàn)檩^大的值雖然會(huì)在開始時(shí)加快收斂速度,但在臨近最佳點(diǎn)時(shí),可能會(huì)無法收斂,所以學(xué)習(xí)效率一般設(shè)置為0.01。對于訓(xùn)練次數(shù)和訓(xùn)練目標(biāo)而言,這兩方面相互影響,其數(shù)值視具體情況設(shè)置。
對于5 000個(gè)樣本,按照4∶1的比例隨機(jī)分配訓(xùn)練集,使用BP神經(jīng)網(wǎng)絡(luò)對大氣溫度廓線進(jìn)行反演。
將使用不同主成分?jǐn)?shù)量處理后的高光譜亮溫?cái)?shù)據(jù)使用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行反演,其結(jié)果如圖6所示。圖6表示主成分?jǐn)?shù)量為5、10、20、30、40、50、60、70時(shí)溫度廓線反演結(jié)果的均方根誤差。
由圖6可以看出,主成分的數(shù)目為10時(shí)相比數(shù)目為5時(shí)反演精度有很大的提高,主成分的數(shù)目為20時(shí)相比10時(shí)反演精度也有較大的提高;之后繼續(xù)增加主成分的數(shù)目對反演精度的提高相當(dāng)有限,當(dāng)主成分?jǐn)?shù)目取到70時(shí)反演精度只有微小的提高。

圖6 取不同主成分?jǐn)?shù)量的反演均方根誤差
由主成分分析實(shí)驗(yàn)可以得出結(jié)論:在選擇主成分的數(shù)目較少時(shí),增加其數(shù)目可以明顯增加反演結(jié)果的精度;之后隨著主成分的數(shù)目逐漸增加,反演精度的提高幅度變得平緩;在達(dá)到一定數(shù)目后,繼續(xù)增加主成分?jǐn)?shù)目對反演精度的提高幾乎可以忽略。但整體的反演時(shí)間和數(shù)據(jù)量也會(huì)隨著主成分?jǐn)?shù)目的增加而成比例地增加,特別是神經(jīng)網(wǎng)絡(luò)中訓(xùn)練網(wǎng)絡(luò)的時(shí)間增加。所以綜合考慮主成分?jǐn)?shù)目對反演精度、反演系統(tǒng)整體效率和數(shù)據(jù)量等各方面的影響,主成分?jǐn)?shù)目最好取在20~30之間。
使用1.2節(jié)介紹的通道選擇方法從原始數(shù)據(jù)中選擇出100個(gè)通道,并進(jìn)行反演實(shí)驗(yàn)。由圖4可以看出,在相鄰的6~8個(gè)選中通道中的權(quán)重函數(shù)其峰值所在位置隨著被選中的順序不斷交替變化。所以以7為基數(shù),分別對選擇出的前7、14、21、28、35、49、77、100個(gè)通道進(jìn)行反演實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示。

圖7 取不同通道數(shù)目的反演均方根誤差
由圖7可以看出,隨著通道數(shù)的增加,反演精度也在不斷增加,且主要體現(xiàn)在中高層大氣上,通道數(shù)達(dá)到一定數(shù)量時(shí),繼續(xù)增加通道數(shù)對反演精度幾乎沒有提高。
用主成分分析法處理高光譜數(shù)據(jù)后取25個(gè)主成分?jǐn)?shù)目,通道選擇處理高光譜數(shù)據(jù)后取77個(gè)通道,將這2種不同的預(yù)處理數(shù)據(jù)分別使用神經(jīng)網(wǎng)絡(luò)方法對大氣溫度廓線進(jìn)行反演,反演結(jié)果如圖8所示。

圖8 使用不同預(yù)處理方法反演結(jié)果對比
由圖6和圖7可以看出,對頻率范圍為50~60 GHz、通道個(gè)數(shù)為2 000的高光譜數(shù)據(jù)來說,主成分分析法的處理結(jié)果表明,主成分?jǐn)?shù)目最好取20~30,通道選擇法的處理結(jié)果分析表明,最佳的通道選擇數(shù)目應(yīng)該取在77附近。
從圖8可以看出,主成分分析(PCA)預(yù)處理方法的反演效果要比通道選擇預(yù)處理方法的反演效果好。這是因?yàn)閷χ鞒煞址治龇ǘ?取25個(gè)主成分時(shí)其可以表示原始數(shù)據(jù)超過99.99%的有效信息,而對于通道選擇后的77個(gè)通道其代表的有效信息不可能達(dá)到這么大,所以才會(huì)產(chǎn)生使用PCA預(yù)處理的數(shù)據(jù)反演結(jié)果要全面優(yōu)于通道選擇方法的預(yù)處理結(jié)果。因此,在使用統(tǒng)計(jì)反演法和神經(jīng)網(wǎng)絡(luò)反演法這些可以直接使用PCA預(yù)處理后的高光譜數(shù)據(jù)的方法來反演大氣廓線時(shí),最好使用PCA方法來預(yù)處理高光譜數(shù)據(jù)。
在使用物理反演法時(shí),由于要進(jìn)行大量的迭代計(jì)算,使用PCA會(huì)增加計(jì)算復(fù)雜度并影響反演精度,所以通常使用通道選擇來大幅減小計(jì)算量。同時(shí)經(jīng)過通道選擇后的通道組合可以認(rèn)為是在此頻段中較好的觀測通道,對今后微波輻射計(jì)在該頻段的通道設(shè)計(jì)具有一定的參考意義。