結合FY-4A衛星及隨機森林的日間沿海海霧識別模型的研究

2022-07-02 06:43:30耿丹劉婷婷李超

海洋預報 2022年3期

關鍵詞：模型

耿丹，劉婷婷，李超

（1.江蘇省氣象信息中心,江蘇南京 210041；2.江蘇省氣象服務中心，江蘇南京 210041；3.江蘇省氣象臺，江蘇南京 210041）

1 引言

海霧是海上中低層大氣層水汽凝結造成的天氣現象，凝結水汽或冰晶積聚形成的海霧會造成海上的水平能見度降至1000 m 以下。海上大霧一般分平流霧和輻射霧等多種類型，其中平流霧對人類日常危害性最大，嚴重影響海上運輸、海產養殖和漁業捕撈等行業。

隨著海上各行業的蓬勃發展，海霧造成的損失越來越大。由于海上海霧監測點有限，常規觀測和船載觀測基本無法實現對海霧區域大范圍和長時間的實時監測[1]。衛星遙感技術的發展，使人類通過衛星遙感影像對海上大霧的監測成為可能。鄭新江[2]結合地球同步氣象衛星（Geostationary Meteorology Satellite，GMS）資料分析了黃海海霧生成及演變的特征；Ellrod[3]通過對地靜止環境工作衛星（Geostationary Operational Environmental Satellite，GOES）的雙通道紅外資料對沿海夜間海霧和低云進行分析研究；鮑獻文等[4]使用GMS-5 和美國國家海洋和大氣管理局（National Oceanic and Atmospheric Administration，NOAA）衛星遙感資料，分析出海霧在衛星遙感資料的光譜和輻射特征特點，實現對云和霧的識別及分離的定量分析；何月等[5]通過多用途運輸衛星（Multifunctional Transport SATellites，MTSAT）衛星遙感影像，采用分級判識太陽高度角閾值和大霧指數的方式反演出浙江海上大霧的每小時發生情況；Shang 等[6]結合“葵花8 號”衛星中紅外與長波紅外通道亮溫差與植被和雪覆蓋指數等建立了日間陸霧識別模型；張培等[7]將星載雙波長偏振Mie 散射激光雷達（Cloud-Aerosol LIdar with Orthogonal Polarization，CALIOP）數據獲得的樣本點用于“葵花8號”衛星對日間海霧通道及閾值選擇的研究，實現了一種日間海霧的監測方法；衣立[8]和Wang 等[9]通過不同方式不斷提升閾值法海霧識別模型（簡稱“閾值法”）在海霧識別中的精度；張春桂等[10]使用中分辨率成像光譜儀（MODerate-Resolution Imaging Spectroradiometer，MODIS）衛星數據分析出不同下墊面的可見光和紅外輻射的特征特點，確定海霧識別閾值，建立日間海霧識別模型；孫藝等[11]借助MTSAT可見光衛星云圖、“葵花8 號”可見光衛星云圖和韓國氣象廳（Korea Meteorological Administration，KMA）地面天氣圖對控制海霧產生的天氣形勢進行了分析，進一步討論了各天氣型下黃海海霧的高度特征；于海鵬等[12]使用GOES9 衛星的可見光云圖和地面探空站資料對海霧天氣進行識別。

閾值法是通過分析云霧在遙感輻射的差異來實現對海霧的監測，最難的是如何選擇合適的閾值，而且閾值法不能充分使用各個波段遙感數據內容。隨著機器學習在衛星遙感領域的不斷應用，能夠充分利用衛星遙感影像提供的各波段數據內容。Kim 等[13]通過決策樹算法結合“葵花8 號”和地球靜止水色衛星（Geostationary Ocean Color Imager，GOCI）遙感數據的方法實現了海霧識別，并利用衛星遙感數據與朝鮮3個島嶼能見度觀測值匹配進行模型訓練及驗證。Shin等[14]基于通信、海洋和氣象衛星（Communication、Ocean and Meteorological Satellite，COMS）紅外通道亮溫差，使用無監督學習方法實現對朝鮮半島西部海霧區域的識別。許赟等[15]利用隨機森林算法結合衛星遙感影像對云、雪和霧進行分類識別，并通過增加兩次檢測減少有效區域的錯檢率。姜紅等[16]通過歸一化差值沙塵指數和隨機森林算法等3 種方法，利用“風云四號”（FY-4A）衛星遙感影像實現對塔里木盆地沙塵情況的監測研究，通過試驗檢驗分析可知隨機森林模型和卷積神經網絡（Convolutional Neural Networks，CNN）模型都具有較強的沙塵監測能力。張環宇等[17]基于衛星數據的中紅外到熱紅外波段遙感影像數據和ERA5水汽再分析產品等數據，結合隨機森林算法實現對晴空大氣可降水量的反演，該算法可有效提升大氣可降水量的精度。柳青青等[18]結合隨機森林算法，利用海表面鹽度遙感機理和土壤濕度及海水鹽度（Soil Moisture and Ocean Salinity，SMOS）衛星遙感數據鹽度反演理論建立海表面鹽度反演模型，能夠大幅提高鹽度反演精度。

本文利用機器學習中的隨機森林算法，結合FY-4A衛星遙感影像對江蘇及周邊省份沿海日間海霧進行識別研究。相對于海霧反演的傳統經驗閾值算法，隨機森林算法能處理高維度的數據（即具有很多特征的數據），不用特征選擇，減少人為經驗的誤差，能更客觀地表現數據聯系和結果。該研究成果將為今后FY-4A 衛星數據在海霧監測業務中的應用提供重要依據。

2 資料選取與方法介紹

2.1 海霧天氣過程個例獲取

通過分析江蘇及周邊省份沿海城市發生大霧的預警信號，選取日間江蘇及山東省沿海城市發生大霧天氣60 個個例（見表1），從中隨機選取20 個個例作為檢驗識別模型的檢驗個例集，剩下40個個例作為構建隨機森林海霧識別模型的訓練個例集。

表1 （續）Tab.1 （Continued）

表1 江蘇省和山東省沿海城市60個大霧個例Tab.160 cases of dense fog in the coastal cities of Jiangsu and Shandong provinces

2.2 衛星數據獲取

作為我國自主研發的第二代地球靜止氣象衛星， FY-4A 是一種三軸穩定地球靜止氣象衛星。除了常規的成像探測設備外，還配備能夠大幅提升我國短臨天氣預報和應對極端氣候變化等防災減災能力的設備——紅外高光譜垂直探測儀和閃電探測設備。FY-4A 多通道掃描成像輻射計（AGRI）具有6 個可見/近紅外波段、2 個中波紅外波段、2 個水汽波段和4 個長紅外波段（見表2），這14個探測波段范圍為0.45～13.8 μm，并涉及（0—3）4個不同級別的衛星產品。

表2 FY-4A 多通道掃描成像輻射計主要技術參數Tab.2 Main technical parameters of FY-4A multi-channel scanning imaging radiometer

為了獲得滿足沿海海霧識別所需的衛星遙感影像，需要將AGRI的掃描成像數據經過0級數據格式變換、定位和定標等處理生成1 級高頻次中國區域產品數據。該產品數據包括14個波段信息，無全圓盤觀測時進行5 min 中國區域觀測，空間分辨率為4 km，符合沿海海霧動態監測時空分辨率要求。

本文使用4 km 分辨率中國區域產品數據和對地靜止軌道（GEostationary Orbit，GEO）定標數據，通過Python中H5py功能包進行數據解析獲得14個波段數據，結合GEO定標文件和遙感圖像處理軟件對這些波段數據進行幾何校正，然后利用自動站時次和經緯度信息獲取FY-4A 衛星14 個通道影像上對應的像素值，組成樣本點像素組。

本文使用江蘇省及山東省沿海及近海約40 個自動氣象站觀測FY-4A 的1 級數據產品，空間分辨率為4 km，通過空間插值到站點。由于衛星數據在無全圓盤觀測時的時間周期為5 min，而自動站能見度觀測數據時間周期為5 min，這樣每個衛星數據時間時次都能夠獲得自動站能見度觀測數據，因此本文獲取了全天165次中國區觀測衛星像素。

氣象大數據云平臺簡稱為“天擎”，作為國省共建的氣象部門核心的業務支撐系統，該系統能夠提供實時及歷史各類氣象數據。本文通過“天擎”系統獲取所涉及的自動站能見度數據。

本文通過分析海霧天氣過程個例發生海霧的大致區域及時間段，從“天擎”系統查詢大致區域及時間段內所涉及自動站能見度值首次小于1000 m的觀測時次。若查詢該時次后連續2個時次（5 min/次）能見度值都小于1000 m，則確認該時次為有效海霧出現時次；若后續連續2 個時次能見度值不都小于1000 m，則繼續查詢，直到查詢超過該個例大致時間段終止本次查詢。

當確認所涉及自動站的有效海霧出現時次，通過“天擎”系統查詢有效海霧出現時次之后能見度值首次大于1000 m出現時次（5 min/次）。若該時次后續連續2個時次（5 min/次）能見度值都大于1000 m，則確認該時次為有效海霧消散時次；若后續連續2個時次不都大于1000 m，則繼續查詢，直到查詢超過該個例大致時間段終止本次查詢。

獲取涉及自動站有效海霧出現時次—有效海霧消散時次之間每個觀測時次，剔除能見度值大于1000 m 的觀測時次（5 min/次），同時剔除無法獲得中國區域產品數據的觀測時次（5 min/次），獲得涉及自動站的有效海霧時次數據集，然后對應有效海霧時次和經緯度獲取FY-4A 衛星14 個通道影像上對應的像素值，形成樣本點像素組，然后由該個例所有涉及自動站發生海霧的樣本點像素組組成有效海霧衛星像素集。

獲取涉及自動站有效海霧出現時次之前和有效海霧消散之后一段時間（不少于1 h）每個觀測時次，通過剔除能見度值小于1000 m 的觀測時次，同時剔除無法獲得中國區域產品數據的觀測時次（5 min/次），獲得涉及自動站非海霧時次數據集，然后對應涉及自動站非海霧時次和經緯度獲取FY-4A衛星14個通道影像上相對應的像素值，形成樣本點像素組，然后由該個例所有涉及自動站未發生海霧的樣本點像素組組成非海霧衛星像素集。

2.3 方法介紹

利用閾值法和隨機森林算法作為海霧識別方法，結合FY-4A 中AGRI的L1 級空間分辨率為4 km的數據，利用14 個不同波段光譜值作為輸入要素，對江蘇及周邊省份沿海海霧天氣開展識別研究。

2.3.1 閾值法

首先，獲取可見光通道數據后剔除陸地，再利用可見光通道數據計算得到表觀反射率，基于此數據初步剔除海面；其次，由于霧頂溫度與云頂溫度存在差異，利用剔除陸地后的長波紅外通道亮溫做初步判斷，進而剔除中高云；最后，結合雙通道差值技術剔除低云進而識別日間沿海海霧。具體識別流程見圖1。

圖1 基于閾值法日間海霧識別流程圖Fig.1 Flow chart of daytime sea fog recognition based on threshold method

（1）剔除海面：獲取可見光通道數據后，利用海陸掩膜文件把陸地去除（剔除陸地），再將可見光通道數據除以太陽天頂角的余弦得到可見光通道的表觀反射率，其值大于0.2 為云或霧，初步剔除海面。

（2）剔除中高云：由于霧頂溫度與云頂溫度存在差異，利用剔除陸地后的長波紅外通道（13 通道波長12 μm）亮溫做初步判斷，即大于273 K 可剔除中高云。

（3）剔除低云：雙通道差值指剔除陸地后的紅外通道亮溫差（14通道—12通道）。當太陽天頂角≤10°或太陽天頂角≥80°，-2 ＜雙通道差值≤3 時，剔除低云；當10°＜太陽天頂角＜80°，3＜雙通道差值≤20，剔除低云。

2.3.2 隨機森林海霧識別模型

隨機森林模型是通過隨機方式建立一個具有很多分類樹的森林，且每個分類樹之間沒有關聯。每當有一個新的樣本輸入隨機森林模型中，每棵決策樹都需要進行判斷，通過投標票方式得出最終分類結果（見圖2）。

圖2 隨機森林模型結構示意圖Fig.2 Schematic diagram of random forest structure

隨機森林模型構造流程為：

（1）假設具有n個樣本，進行有放回的隨機選擇n 個樣本（即每次隨機選擇一個樣本，然后放回繼續選擇），使用這n個樣本訓練一個分類樹。

（2）當每個樣本的屬性為M，在分類樹的每個節點需要分裂時，隨機從M 個屬性中選取m 個屬性（m<

（3）分類樹形成過程中每個節點都要按照步驟2 來分裂（如果下一次該節點選出來的那個屬性為剛剛父節點分裂時所用的屬性，則該節點已到葉子節點，不用繼續分裂），這個過程到不能夠再分裂為止，整個分類樹形成過程中無需剪枝。

（4）按照步驟1—3 建立n 個分類樹，如此構成1個隨機森林模型。

利用隨機森林算法確定最優參數n_estimators和m。n_estimators 是指對原始數據集進行有放回抽樣生成的子數據集個數，即決策樹的個數。若n_estimators太小容易欠擬合，太大則不能顯著地提升模型，所以n_estimators 需要選擇適中數值，默認值是100 個。研究中分別選取設置100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900 和2000，子特征數m選取從2 增大到9，通過超參數訓練得到最優參數，即n_estimators=200，m=6，最優參數評估均方根誤差（Root Mean Square Error，RMSE）誤差最小。

利用Sklearn框架對隨機森林算法進行表達，對于建模需要的圖像數據集，首先獲取為隨機森林海霧識別模型（簡稱“隨機森林模型”）建模所用的訓練個例集，通過計算獲得個例的有效海霧衛星像素集和非海霧衛星像素集，以此組成隨機森林模型建模所用的標識后衛星像素集，其中有效海霧衛星像素集有8356 個樣本點像素組，非海霧衛星像素集有52346 個樣本點像素組。將標識后衛星像素集按照8:2 隨機分為訓練樣本點像素組集和測試樣本點像素組集，以隨機森林函數對所有訓練樣本點像素組集進行隨機森林分類訓練，逐步建立隨機森林模型。

3 結果與分析

為了分析閾值法和隨機森林模型的效果，利用事先選取的20 個江蘇及山東沿海城市大霧發生個例的檢驗個例集，在每個個例涉及自動站觀測時次，分別從海霧發生前、發生中和消散后選取一定數量的衛星遙感影像，組成該個例的檢驗輸入樣本集，同時記錄對應所涉及自動站觀測時次，通過查詢”天擎”系統獲得該個例所涉及自動站能見度實測值，組成該個例檢驗樣本點集。

利用海霧識別模型逐一對個例的檢驗輸入樣本集進行海霧霧區識別，獲得海霧霧區信息，利用該時次樣本所涉及自動站觀測時次和經緯度信息獲取對應位置的海霧信息（有或無），并獲得個例檢驗樣本點集中該時次所涉及自動站的實測值，如果實測能見度值小于1000 m，則為有海霧，如果大于等于1000 m，則為無海霧。統計該個例衛星識別結果和自動站實測結果都有海霧的樣本點個數、衛星識別結果有海霧而自動站實測結果沒有海霧的樣本點個數以及衛星識別結果沒有海霧而自動站結果有海霧的樣本點個數。

通過POD 檢驗方法檢測不同海霧識別模型的準確性，POD檢驗公式如下：

式中，POD（Probability Of Detection）為命中率，FAR（False Alarm Rate）為誤報率，CSI（Critical Success Index）為臨界成功指數；NH為衛星識別結果和自動站實測結果都有海霧的樣本點個數；NM為衛星識別結果有海霧而自動站實測結果沒有海霧的樣本點個數；NF為衛星識別結果沒有海霧而自動站結果有海霧的樣本點個數。

3.1 閾值法對海霧識別有效性

利用閾值法識別模型對每個個例的檢驗輸入樣本集進行海霧霧區識別，統計結果見圖3。20 個檢驗個例中，POD 最大值為0.9531，CSI 最大值為0.7940，FAR最大值為0.3903；平均POD為0.6984，平均CSI為0.5890，平均FAR為0.2121。綜上說明，基于閾值法FY-4A 衛星沿海海霧識別模型能夠有效地反映實況海霧的分布情況。

圖3 基于閾值法FY-4A衛星沿海海霧識別模型檢驗結果圖Fig.3 Test results of FY-4A satellite coastal sea fog recognition model based on threshold method

3.2 隨機森林模型對海霧識別有效性

利用隨機森林識別模型對每個個例的檢驗輸入樣本集進行海霧霧區識別，統計結果見圖4。20個檢驗個例中，POD最大值為0.9327，CSI最大值為0.8719，FAR最大值為0.1433；平均POD為0.8346，平均CSI 為0.7946，平均FAR 為0.0570。綜上說明，基于隨機森林FY-4A 衛星沿海海霧識別模型能夠更精確地反映實況海霧的分布情況。

圖4 基于隨機森林FY-4A衛星沿海海霧識別模型檢驗結果圖Fig.4 Test results of FY-4A satellite coastal sea fog recognition model based on random forest

3.3 不同海霧識別模型對比分析

通過對兩種海霧識別模型的對比分析，我們可以看出，相比閾值法，隨機森林模型在平均POD 和平均CSI具有較大的提升，同時平均FAR大幅降低，這說明隨機森林模型具有更高的精準性。另外，與閾值法中海霧識別效果忽高忽低相比，隨機森林模型具有更好的穩定性，對于識別難度較大的海霧，隨機森林模型也能夠有較好的效果。

為了更好地揭示隨機森林模型的性能，本文選取2021 年4 月12 日黃渤海區域發生的海霧天氣過程進行分析。我們分別利用這兩種海霧識別模型對10：30（北京時，下同）時刻衛星遙感影像進行海霧霧區識別。

圖5 分別為FY-4A 衛星華東區域3 個紅外通道亮度溫度圖以及經過隨機森林模型和閾值法識別后的海霧霧區圖。紅外通道3.75 μm、7.33 μm 和10.8 μm亮度溫度對霧的識別具有重要作用，確實能夠從圖5a—c 的亮溫顏色看到與識別海霧霧區具有很大重疊，同時可以發現隨機森林算法識別霧區更貼合（綠色為識別出的海霧霧區）。為了檢驗本次海霧霧區識別的實際效果，選取了所涉區域6 個自動站作為檢驗樣本點，通過查詢“天擎”系統獲得的該時次6 個自動站能見度值都小于1000 m，應該判定為有海霧發生。通過對比圖5d和5e發現，閾值法未識別到1 個自動站海霧發生點，通過分析本次海霧發生過程，可知2021年4月12日上午該區域海霧正在逐步生成，該時次海霧霧區正在逐步變大，對那些剛剛達標生成海霧霧區的識別難度大幅度增加，這可能是造成閾值法未識別到的原因，而隨機森林模型因訓練樣本點較充分，能夠準確識別到這個海霧霧區，因此說明隨機森林模型具有更精準的識別效果。

圖5 2021年4月12日10:30時刻海霧識別圖Fig.5 Sea fog identification map at 10:30（UTC+8）on April 12，2021

圖5 （續）Fig.5 （Continued）

4 結論與討論

本文選取2019年8月—2021年7月江蘇省及周邊省份60個大霧天氣個例，分別用閾值法和隨機森林算法結合FY-4A 衛星AGRI 中4 km 分辨率的14個波段數據對研究區域的沿海海霧霧區進行識別。結論如下：

（1）閾值法海霧識別模型對海霧具有一定的識別能力，但對不同時期和不同階段的海霧天氣衛星遙感影像，需要取不同閾值范圍，才能更好地識別出海霧區域。

（2）通過40個個例的訓練個例集建立的隨機森林海霧識別模型，具有較高的精準性，該模型的參數配置合理。

（3）分別用閾值法和隨機森林模型對檢驗個例集的20 個個例進行海霧霧區識別，對比閾值法，隨機森林模型具有更精準的識別能力和更穩定的識別性能，對于識別難度較大的海霧，隨機森林模型表現更加優異。

本文嘗試利用閾值法和隨機森林兩種算法來實現海霧識別，隨機森林算法在海霧識別方面具有較大的應用潛力，相比傳統的閾值法，效果提高顯著。雖然隨機森林模型在訓練時取得較高的精度，但是在實際識別中，當外在條件復雜或者遇到異物同波譜時，會出現錯誤識別。今后如果要將海霧識別結果投入到業務應用中，在訓練建模時，必須提供更加多樣的海霧天氣個例，增加模型的容錯性，其次，必須將隨機森林算法與其他算法相結合，建立更加健壯的模型，提高模型的性能，在不同復雜條件下對海霧精準識別，從而實現FY-4A 氣象衛星海霧識別的業務化。