


摘"要:基于地面氣象站能見度數(shù)據(jù)將其劃分為無霧、輕霧、霧、大霧和濃霧5個等級,以2021年1月至2024年3月開陽縣氣象站觀測資料和FY4A衛(wèi)星L1資料作為研究數(shù)據(jù),構(gòu)建機(jī)器學(xué)習(xí)樣本集,使用LightGBM、RF、ET、XGBoost、CatBoost、KNN和DT機(jī)器學(xué)習(xí)算法對模型進(jìn)行訓(xùn)練,并采用準(zhǔn)確率評分法、分類報告方法、ROC曲線方法等3種方法對各能見度識別模型效果進(jìn)行評估。結(jié)果表明:地面氣象觀測資料結(jié)合FY4A衛(wèi)星L1資料訓(xùn)練模型,各模型其Accuracy準(zhǔn)確率評價結(jié)果相比僅使用地面資料和僅使用FY4A資料均有所提升,ET模型準(zhǔn)確率最高為0.927,相比地面提高0.014,相比FY4A衛(wèi)星提高0.05;地面資料和FY4A衛(wèi)星資料結(jié)合可以分類識別霧,為地面能見度觀測盲區(qū)提供霧的分類模型。
關(guān)鍵詞:霧;開陽縣;機(jī)器學(xué)習(xí);分類
貴州是典型的多云雨山區(qū),峽谷縱橫,水網(wǎng)交縱,總云量和中低云量在全國均處于高值區(qū),其中總云量可高達(dá)80%,中低云量中西部可達(dá)70%以上,貴州霧有明顯的季節(jié)性和區(qū)域性[1]。在19世紀(jì)衛(wèi)星遙感技術(shù)還沒有興起時,國外學(xué)者就已經(jīng)開始對大霧進(jìn)行研究,利用SMS1衛(wèi)星可見光通道來識別霧和云的,通過可見光通道圖像分析了霧的消散過程,表明霧消散與可見光通道反射率有直接的關(guān)系,且霧消散時間與高云的覆蓋率和霧的厚度有關(guān),衛(wèi)星云圖上較白部分可識別為霧,霧的厚度越厚,消散時間越長[2]。在近紅外通道和紅外通道差值的雙通道插值法霧判識的研究基礎(chǔ)上,針對極軌和靜止氣象衛(wèi)星成像儀AVHRR、MODIS、SEVIRI分別開發(fā)了霧判識流程[34],并基于小波變換,根據(jù)圖像的紋理特征對大霧識別進(jìn)行更深層次的研究[5]。國內(nèi)學(xué)者在霧的衛(wèi)星遙感識別方面也取得較多成果:如基于衛(wèi)星遙感圖像的空間信息,發(fā)現(xiàn)了云霧在光譜上的區(qū)別,為云霧識別與分類提供了指標(biāo),有效區(qū)分云、霧和雪,并提出了多通道綜合閾值法和灰度連通域加權(quán)分的大霧識別方法[67]。根據(jù)圖像結(jié)合云霧的紋理特征、消散規(guī)律以及移動規(guī)律實現(xiàn)了對大霧的實時監(jiān)測[8]。利用風(fēng)云衛(wèi)星數(shù)據(jù)和支持向量機(jī)的方法,選擇出最能反映大霧特征的通道組合來對霧區(qū)樣本和非霧區(qū)樣本進(jìn)行訓(xùn)練,利用所生成的模板對可能的大霧區(qū)域進(jìn)行判識[9]。綜上所述,山區(qū)霧的識別尚存在以下需要解決的問題。一是研究數(shù)據(jù)來源主要?dú)庀蟊O(jiān)測站和交通氣象站,對霧的識別精度和覆蓋面不夠。山區(qū)目前氣象站和交通氣象站的觀測密度比較稀疏,不能滿足當(dāng)前高速公路的快速發(fā)展帶來的精細(xì)化預(yù)報預(yù)警的需求。二是單一利用衛(wèi)星遙感技術(shù)識別霧,未考慮不同類型霧的云圖差異,與氣象觀測的融合不足,對山區(qū)霧的識別精細(xì)化和精準(zhǔn)化程度不足。
1"數(shù)據(jù)與方法
1.1"數(shù)據(jù)來源
以開陽站為例,使用2021年1月—2024年3月地面觀測數(shù)據(jù)和FY4A衛(wèi)星L1資料作為研究數(shù)據(jù)。基于“天擎”系統(tǒng),調(diào)用貴州省逐小時國家站地面觀測數(shù)據(jù),數(shù)據(jù)表為SURF_CHN_MUL_HOR(中國地面逐小時全要素數(shù)據(jù)),地面氣象數(shù)據(jù)資料包括氣壓、海平面氣壓、氣溫、露點(diǎn)溫度、相對濕度、水汽壓、1小時降水、10分鐘平均風(fēng)向、10分鐘平均風(fēng)速、地面氣溫草面溫度和能見度,計算出變量3小時變壓、3小時變溫、溫度露點(diǎn)差。基于數(shù)據(jù)湖方式獲取FY4A觀測資料,數(shù)據(jù)湖中FY4A可用L1資料的時間段為2021年6月21日至2024年3月4日。使用Python計算開陽站所在FY4A衛(wèi)星的行列號,并提取14個波段的詳細(xì)值,其中1~6波段為反射率,7~14波段為亮溫。
1.2"訓(xùn)練集的建立
將能見度按照表1規(guī)則劃分為5個等級,并將其進(jìn)行分類標(biāo)簽,用于進(jìn)行分類機(jī)器學(xué)習(xí)訓(xùn)練。依據(jù)國家標(biāo)準(zhǔn)《地面氣象觀測規(guī)范總則》(GB/T"35221—2017)中的觀測閾值,對數(shù)據(jù)進(jìn)行質(zhì)控,去除無效值和讀取FY4A觀測失敗時次,共獲得有效樣本22826個,其中濃霧1717個、大霧655個、霧621個、輕霧7631個、無霧12202個,樣本分布不均,為探索樣本集對機(jī)器學(xué)習(xí)模型的影響,建立兩種樣本集,一種為原始樣本集不進(jìn)行任何采樣處理,另一種為擴(kuò)充樣本集,通過過采樣算法SMOTE(Synthetic"Minority"Oversampling"Technique),將5類樣本數(shù)量過采樣為基本相同,其樣本數(shù)量6萬余個。
1.3"模型選取
使用輕量級梯度提升機(jī)(Light"Gradient"Boosting"Machine,LightGBM)、隨機(jī)森林(Random"Forest,RF)、極度隨機(jī)樹(Extra"Trees,ET)、極致梯度提升(Extreme"Gradient"Boosting,XGBoost)、梯度提升樹(Categorical"Boosting,CatBoost)、K最鄰近法(K"Nearest"Neighbors,KNN)、決策樹(Decision"Tree,DT)7個機(jī)器學(xué)習(xí)分類算法進(jìn)行模型訓(xùn)練。
極度隨機(jī)樹是一種集成學(xué)習(xí)技術(shù),它將森林中收集的多個去相關(guān)決策樹的結(jié)果聚集起來輸出分類結(jié)果。極度隨機(jī)樹的每棵決策樹都是由原始訓(xùn)練樣本構(gòu)建的。在每個測試節(jié)點(diǎn)上,每棵樹都有一個隨機(jī)樣本,樣本中有k個特征,每個決策樹都必須從這些特征集中選擇最佳特征,然后根據(jù)一些數(shù)學(xué)指標(biāo)(一般是基尼指數(shù))來拆分?jǐn)?shù)據(jù)。這種隨機(jī)的特征樣本導(dǎo)致多個不相關(guān)的決策樹的產(chǎn)生。隨機(jī)森林是Bagging算法中最具代表性的算法,主要結(jié)合了Breimans的“Bootstrap"Aggregating”想法和Tim"Kam"Ho的“Random"Subspace"Method”算法來構(gòu)建決策樹集。隨機(jī)森林在基于決策樹的學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,將隨機(jī)屬性選擇引入決策樹的訓(xùn)練過程中。在隨機(jī)森林中,對于基礎(chǔ)決策樹的每個結(jié)點(diǎn),其先從結(jié)點(diǎn)的屬性集中隨機(jī)選擇一個子集,然后從該子集中選擇一個最佳屬性進(jìn)行劃分。
LightGBM是微軟開源的一個實現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,GBDT(Gradient"Boosting"Decision"Tree)是機(jī)器學(xué)習(xí)中一個長盛不衰的模型,其主要思想是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,該模型具有訓(xùn)練效果好、不易過擬合等優(yōu)點(diǎn)。
1.4"模型評價
采用3種評估方法對各能見度識別模型效果進(jìn)行評估分析,這3種方法分別為準(zhǔn)確率評分法、分類報告方法、ROC(Receiver"Operating"Characteristic)曲線方法。ROC曲線以FPR為橫坐標(biāo),以TPR為縱坐標(biāo)。準(zhǔn)確率Accuracy評分法定義為:
Accuracy=(TP+TN)/(P+N)(1)
其中,P為所有正類數(shù)量,N為所有負(fù)類數(shù)量,TP為正類預(yù)報正確的數(shù)量,TN為負(fù)類預(yù)報正確的數(shù)量。
2"模型訓(xùn)練試驗
由于樣本數(shù)量分布不均,使用ET機(jī)器學(xué)習(xí)霧的分類模型,對原始樣本集和擴(kuò)充樣本集進(jìn)行分布訓(xùn)練,劃分樣本集和測試集比例為7∶3。
2.1"原始樣本集訓(xùn)練
對原始樣本集10次訓(xùn)練,平均準(zhǔn)確率Accuracy為08056,AUC(ROC曲線下的面積)為0.9379,召回率Recall為0.8056,精確率Pre為0.7882,F(xiàn)1"score為0.7932。ET模型對無霧分類效果較好,輕霧和濃霧次之,霧和大霧效果較差,不符合在實際應(yīng)用中希望識別大霧以上的霧的期望。
2.2"擴(kuò)充樣本集訓(xùn)練結(jié)果
對擴(kuò)充樣本集10次訓(xùn)練,平均準(zhǔn)確率Accuracy為09269,AUC(ROC曲線下的面積)為0.99916,召回率Recall為0.9269,精確率Pre為0.9258,F(xiàn)1"score為0.9260。與原始樣本集相比,擴(kuò)充樣本集各項評分結(jié)果都有提升,從ROC曲線圖和模型報告圖可以看出,無霧較好,輕霧次之,符合在實際應(yīng)用中希望識別大霧以上的霧的期望。
3"機(jī)器學(xué)習(xí)分類結(jié)果
分別利用LightGBM、RF、ET、XGBoost、CatBoost、KNN、DT算法進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,為探索FY4A衛(wèi)星數(shù)據(jù)是否對地面氣象觀測資料有提升,采用3種情況來開展訓(xùn)練:(1)僅使用地面氣象觀測資料;(2)僅使用FY4A衛(wèi)星觀測資料;(3)FY4A衛(wèi)星結(jié)合地面觀測資料。
僅使用地面氣象觀測訓(xùn)練模型,各模型平均準(zhǔn)確率Accuracy在0.81分以上ET模型評分第一為0.91分,RF模型評分第二為0.89分,XGBoost、CatBoost、KNN模型評分結(jié)果分別為0.85分、0.84分、0.83分,DT和LigthtGBM在081分以下。僅使用FY4A衛(wèi)星L1資料訓(xùn)練模型,各模型平均準(zhǔn)確率Accuracy在0.74分以上ET模型評分第一為089分,RF模型評分第二為0.87分,KNN模型評分第三為0.8分,其余各模型的Accuracy評分都在0.78分以下。由此可以看出,各模型的Accuray評分FY4A資料低于地面資料,兩者模型評分最高的都是ET模型,對霧以上都具備較好的分類效果,輕霧和無霧分類結(jié)果較差。基于ET機(jī)器學(xué)習(xí)模型,通過分析其特征量的重要性可以發(fā)現(xiàn),僅使用地面資料訓(xùn)練的特征重要性前10個要素分別是:相對濕度、溫度露點(diǎn)差、10分鐘平均風(fēng)速、氣溫、草面溫度、地面溫度、海平面氣壓、氣壓、10分鐘評價風(fēng)向、3小時變溫[見圖1(a)],可見濕度、水汽風(fēng)速、溫度與霧的相關(guān)性較強(qiáng)。僅使用FY4A資料訓(xùn)練ET機(jī)器學(xué)習(xí)模型中,通道11最重要,其是長波紅外通道,波長為8.5μm,主要用途為總水汽、云;通道8為第二重要,其是短波紅外通道,波長為3.75μm,主要用途為低反照率目標(biāo)地表;通道12則為第三重要,其是長波紅外通道,波長為10.7μm,其主要用途為云、地表溫度等;9、10波段第四、第五重要,其是水汽通道,波長分別為624μm、71μm,其主要用途分別為高層和低層水汽。由此可以看出,F(xiàn)Y4A的紅外通道比可見光通道重要,不同波段對大氣高低層的觀測,對霧的分類起到了重要作用。
地面氣象觀測結(jié)合FY4A衛(wèi)星L1資料訓(xùn)練模型,各模型其Accuracy準(zhǔn)確率評價結(jié)果相比僅使用地面資料和僅使用FY4A資料都有所提升,僅DT模型提升較小,ET模型準(zhǔn)確率最高為0.927,相比地面提高0.014,相比FY4A衛(wèi)星提高0.05;其次是RF模型,提高0.911,XGBoost和CatBoost都在0.87左右。從ET模型特征重要性來看,地面氣象要素比FY4A衛(wèi)星資料更重要。從ET模型分類混淆矩陣來看ET模型大霧以上都有較好分類效果,輕霧和無霧分類效果較差,兩者相互預(yù)測錯誤的次數(shù)都在300以上,但在實際應(yīng)用中,輕霧影響較小,因此可利用該模型來開展霧的提取。
4"結(jié)論
(1)地面氣象觀測資料結(jié)合FY4A衛(wèi)星L1資料訓(xùn)練模型,各模型其Accuracy準(zhǔn)確率評價結(jié)果相比僅使用地面資料和僅使用FY4A資料均有所提升,ET模型準(zhǔn)確率最高為0.927,相比地面提高0.014,相比FY4A衛(wèi)星提高0.05。
(2)由于無霧樣本數(shù)量遠(yuǎn)大于有霧樣本,導(dǎo)致樣本分布不均,對原始樣本集進(jìn)行擴(kuò)充后可有效提高霧的識別準(zhǔn)確率。
(3)ET模型對霧、大霧、濃霧具有很好的分類效果,無霧較好,輕霧次之,符合在實際應(yīng)用中希望識別出霧的期望。
參考文獻(xiàn):
[1]羅喜平,楊靜,周成霞.貴州省霧的氣候特征研究[J].北京大學(xué)學(xué)報(自然科學(xué)版),2008,44(5):765772.
[2]GURKA"J"J,OLIVER"V"J.The"Role"of"Inward"Mixing"in"the"Dissipation"of"Fog"and"Stratus.Monthly"Weather"Review,1978,106(11):16331635.
[3]LEE"T"F,TURK"F"J,RICHARDSON"K.Stratus"and"Fog"Products"Using"GOES89"3.9μm"Data[J].Weather"amp;"Forecasting,1972,12(3):664677.
[4]BENDIX"J.A"satellitebased"climatology"of"fog"and"lowlevel"stratusnbsp;in"Germany"and"adjacent"areas[J].Atmospheric"Research,2002,64:318.
[5]MALLAT"S.Zerocrossings"of"a"wavelet"transform[J].IEEE"Trans"on"Information"Theory,1991,37(4):10191033.
[6]陳林.EOS/MODIS資料的數(shù)據(jù)處理方法及其在白天低云大霧監(jiān)測中的應(yīng)用[D].南京:南京信息工程大學(xué),2006.
[7]李亞春,孫涵,徐萌,等.衛(wèi)星遙感圖像上大霧消散特點(diǎn)的分析研究[J].遙感技術(shù)與應(yīng)用,2002,17(1):1720.
[8]周紅妹,葛偉強(qiáng),柏樺,等.氣象衛(wèi)星大霧遙感自動識別技術(shù)研究[J].熱帶氣象學(xué)報,2011,27(2):152160.
[9]劉年慶,蔣建瑩,吳曉京.基于支持向量機(jī)的遙感大霧判識[J].氣象,2007,33(10):7379.
資助項目:貴州省氣象局企業(yè)基金(QHLQLJ〔2022〕01):多云雨山區(qū)霧的遙感監(jiān)測方法研究
作者簡介:彭波(1990—"),男,漢族,重慶合川人,本科,工程師,從事衛(wèi)星遙感應(yīng)用研究;徐良軍(1988—"),男,漢族,四川資陽人,本科,工程師,從事應(yīng)用氣象服務(wù)研究。