999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)的沿海低能見(jiàn)度天氣分類預(yù)報(bào)方法

2024-01-12 11:36:56陳錦鵬林輝吳雪菲黃奕丹程晶晶莊毅斌
熱帶氣象學(xué)報(bào) 2023年5期
關(guān)鍵詞:特征融合模型

陳錦鵬,林輝,吳雪菲,黃奕丹,程晶晶,莊毅斌

(1.福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福建 福州 350001;2.數(shù)字科學(xué)與統(tǒng)計(jì)重點(diǎn)實(shí)驗(yàn)室,福建 漳州 363005;3.漳州市氣象局,福建 漳州 363005;4.福建省大氣探測(cè)技術(shù)保障中心,福建 福州 350001)

1 引 言

氣象能見(jiàn)度作為氣象觀測(cè)的基本要素之一,容易受到各種因素的影響。當(dāng)出現(xiàn)霧、霾、降雨、降雪等天氣現(xiàn)象時(shí),能見(jiàn)度往往轉(zhuǎn)差;另外邊界層變化、大氣低頻振蕩也能造成能見(jiàn)度下降[1]。沿海低能見(jiàn)度天氣會(huì)對(duì)交通、運(yùn)輸和作業(yè)等產(chǎn)生不利影響,因此其預(yù)報(bào)預(yù)警技術(shù)研究具有重要的實(shí)踐意義。

多年統(tǒng)計(jì)來(lái)看,造成閩南沿海地區(qū)低能見(jiàn)度事件的主要原因分別是霾和霧,且上半年的持續(xù)時(shí)間和發(fā)生頻率高于下半年[2]。分析發(fā)現(xiàn),在爆發(fā)性濃霧過(guò)程中除了由海風(fēng)和地面長(zhǎng)波輻射提供的主要冷卻條件外,還存在來(lái)自平流和蒸發(fā)的充足水汽條件以及貼地強(qiáng)逆溫[3]。近年來(lái),關(guān)于低能見(jiàn)度天氣客觀預(yù)報(bào)的研究工作日漸增多。王楠等[4]以相關(guān)性為依據(jù)篩選預(yù)報(bào)因子,分別采用基于Poly、RBF 核函數(shù)的支持向量機(jī)(SVM)方法建立能見(jiàn)度預(yù)報(bào)模型,發(fā)現(xiàn)在檢驗(yàn)樣本中預(yù)報(bào)準(zhǔn)確樣本的誤差整體較小,而在漏報(bào)樣本中有能見(jiàn)度越低誤差越大的特點(diǎn)。謝超等[5]通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來(lái)獲得能見(jiàn)度集合預(yù)報(bào),試驗(yàn)顯示模型預(yù)報(bào)的誤差與TS 評(píng)分均優(yōu)于模式預(yù)報(bào)。黃輝軍等[6]嘗試將近地層溫差因子作為GRAPES 模式的預(yù)報(bào)變量因子以改進(jìn)海霧預(yù)報(bào),引入后海霧區(qū)域預(yù)報(bào)的準(zhǔn)確率、TS 和HSS 評(píng)分都有明顯提高。黃健等[7]在海霧歷史觀測(cè)資料和再分析資料的基礎(chǔ)上,采用分類與回歸樹(shù)(CART)方法對(duì)海霧發(fā)生發(fā)展的海洋氣象條件進(jìn)行分類分析,建立了決策樹(shù)預(yù)報(bào)模型,對(duì)廣東沿岸海霧的預(yù)報(bào)準(zhǔn)確率可達(dá)到73%以上。俞涵婷等[8]從統(tǒng)計(jì)角度驗(yàn)證了溫差是大霧形成的重要因素,同時(shí)運(yùn)用決策樹(shù)模型進(jìn)行海霧預(yù)報(bào)試驗(yàn),在測(cè)試集數(shù)據(jù)中成功率為0.8,可用于業(yè)務(wù)中對(duì)海霧的判別。

總體來(lái)看,目前對(duì)于海霧的預(yù)報(bào)方法主要包括天氣學(xué)方法、統(tǒng)計(jì)預(yù)報(bào)方法和數(shù)值預(yù)報(bào)方法,天氣學(xué)方法對(duì)預(yù)報(bào)員的主觀經(jīng)驗(yàn)依賴性較高,預(yù)報(bào)準(zhǔn)確率和可靠性較低;單純的統(tǒng)計(jì)預(yù)報(bào)方法缺乏對(duì)海霧過(guò)程物理規(guī)律的描述,多依賴于歷史觀測(cè)資料或數(shù)值預(yù)報(bào)資料的質(zhì)量和數(shù)量[9]。而數(shù)值預(yù)報(bào)方法作為氣象預(yù)報(bào)的主流發(fā)展方向,離不開(kāi)客觀化、自動(dòng)化的后處理訂正技術(shù)。輕量梯度提升機(jī)(Light Gradient Boosting Machine,LightGBM)作為目前集成學(xué)習(xí)代表性算法之一,面對(duì)結(jié)構(gòu)化數(shù)據(jù)時(shí)具有比較出色的普適性、準(zhǔn)確性和可解釋性,在各大數(shù)據(jù)挖掘競(jìng)賽與各個(gè)行業(yè)領(lǐng)域中的應(yīng)用相當(dāng)廣泛。如何將LightGBM 算法更好地應(yīng)用于低能見(jiàn)度天氣預(yù)報(bào)預(yù)警業(yè)務(wù)之上,是非常值得探究的問(wèn)題。在上海區(qū)域的能見(jiàn)度預(yù)報(bào)試驗(yàn)中,基于WRF 模式的LightGBM 訂正模型在驗(yàn)證集上的平均絕對(duì)誤差相對(duì)于原始預(yù)報(bào)提升比例可達(dá)47.2%[10]。但交叉驗(yàn)證中的數(shù)據(jù)集來(lái)自于同分布隨機(jī)采樣,缺乏時(shí)間相關(guān)性,不足以體現(xiàn)模型在實(shí)際業(yè)務(wù)中面對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力。

此外,福建漳州地區(qū)現(xiàn)有的沿岸、島嶼和浮標(biāo)自動(dòng)站過(guò)于稀疏,探測(cè)范圍也極為有限,過(guò)少的觀測(cè)樣本不利于模型訓(xùn)練與測(cè)試。本試驗(yàn)嘗試引入遠(yuǎn)距離無(wú)線電(Long Range Radio,LoRa)探測(cè)數(shù)據(jù),與自動(dòng)站觀測(cè)數(shù)據(jù)進(jìn)行融合以擴(kuò)充數(shù)據(jù)集。LoRa 是一種窄帶物聯(lián)網(wǎng)通信技術(shù),其信號(hào)衰減對(duì)天氣要素變化敏感,尤其是與相對(duì)濕度、風(fēng)速存在一定的相關(guān)性。目前漳州沿海及海上地區(qū)已部署LoRa 觀測(cè)組網(wǎng),通過(guò)能見(jiàn)度反演算法得到高時(shí)空分辨率的LoRa 海霧探測(cè)數(shù)據(jù)[11],可在一定程度上彌補(bǔ)傳統(tǒng)觀測(cè)手段的不足。

本文提出的低能見(jiàn)度天氣分類預(yù)報(bào)技術(shù)本質(zhì)是應(yīng)用集成學(xué)習(xí)對(duì)數(shù)值預(yù)報(bào)進(jìn)行統(tǒng)計(jì)訂正,融合了數(shù)值模式擅長(zhǎng)環(huán)流形勢(shì)預(yù)報(bào)與集成學(xué)習(xí)擅長(zhǎng)統(tǒng)計(jì)規(guī)律挖掘的優(yōu)勢(shì)來(lái)進(jìn)一步推導(dǎo)低能見(jiàn)度天氣的可能性。試驗(yàn)中應(yīng)用2020年數(shù)據(jù)集進(jìn)行建模和訓(xùn)練,以2021年數(shù)據(jù)集進(jìn)行測(cè)試,充分考察模型的擬合能力和泛化能力,驗(yàn)證了該模型具有優(yōu)于模式原始預(yù)報(bào)甚至傳統(tǒng)統(tǒng)計(jì)方法的預(yù)測(cè)能力。同時(shí)也探究了試驗(yàn)過(guò)程中遇到的樣本不均衡、特征構(gòu)造和模型融合等問(wèn)題,為集成學(xué)習(xí)在能見(jiàn)度預(yù)報(bào)方面的應(yīng)用和數(shù)值模式訂正技術(shù)的發(fā)展提供參考。

2 資 料

本文采 用2020 年3 月—2021 年7 月 漳州地區(qū)沿海與島嶼自動(dòng)站的逐小時(shí)能見(jiàn)度觀測(cè)數(shù)據(jù)作為實(shí)況資料,共包含10 個(gè)站點(diǎn)(圖1)。由于沿海自動(dòng)站分布過(guò)于稀疏,難以精細(xì)體現(xiàn)能見(jiàn)度要素的空間分布,故將相應(yīng)的LoRa 探測(cè)數(shù)據(jù)與其進(jìn)行融合作為補(bǔ)充(詳見(jiàn)3.3.1 節(jié)),最后得到網(wǎng)格化的能見(jiàn)度實(shí)況資料。

圖1 漳州地區(qū)沿海與島嶼自動(dòng)站(紅色)以及LoRa探測(cè)格點(diǎn)(黑色)分布

另外,采用EC-thin 歷史數(shù)據(jù)作為預(yù)報(bào)資料。其時(shí)間分辨率為3 h,空間分辨率為0.125 °×0.125 °。預(yù)先根據(jù)業(yè)務(wù)經(jīng)驗(yàn)挑選出與能見(jiàn)度關(guān)聯(lián)較強(qiáng)的預(yù)報(bào)因子作為模型的待選特征,具體包括2 m 露點(diǎn)(d2)、2 m 相對(duì)濕度(rh2)、2 m 氣溫(T2)、10 m 風(fēng)場(chǎng)U分量(u10)、10 m 風(fēng)場(chǎng)V分量(v10)、海平面氣壓(msl)、925 hPa比濕(q925)和1 000 hPa比濕(q1000)、925 hPa 氣溫(T925)和1 000 hPa 氣溫(T1000)、低云量(LCC)、總云量(TCC)等共計(jì)12 類預(yù)報(bào)產(chǎn)品。這些變量均來(lái)自于模式的直接輸出產(chǎn)品,基本反映了邊界層內(nèi)的氣象環(huán)境條件。

從逐小時(shí)、逐格點(diǎn)的角度制作樣本數(shù)據(jù)集:對(duì)于每個(gè)實(shí)況融合后的格點(diǎn)而言,在預(yù)報(bào)資料中選取以其為中心的16 點(diǎn)平均值(覆蓋邊長(zhǎng)為0.375 °的矩形區(qū)域)作為該點(diǎn)的特征變量。建模的目的在于挖掘特征變量與格點(diǎn)水平能見(jiàn)度級(jí)別之間的映射關(guān)系。定義水平能見(jiàn)度小于500 m 的樣本為正類樣本,反之則為負(fù)類樣本。觀察樣本分布(表1)可發(fā)現(xiàn)正負(fù)類樣本數(shù)量懸殊,如2020 年正負(fù)比率不足0.6%,屬于極小概率事件,嚴(yán)重的樣本不均衡問(wèn)題會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)顯著偏離,試驗(yàn)中需加以解決。分別將2020 年和2021 年數(shù)據(jù)集作為訓(xùn)練集和測(cè)試集,避免由于打亂時(shí)間順序而出現(xiàn)數(shù)據(jù)信息泄露,充分考察模型面對(duì)完全陌生的“未來(lái)”數(shù)據(jù)的預(yù)測(cè)能力。

表1 2020年與2021年正負(fù)類樣本分布

3 研究方法

3.1 低能見(jiàn)度天氣的日變化特征

漳州沿海地區(qū)低能見(jiàn)度天氣具有鮮明的日變化特征。從2020年不同程度的低能見(jiàn)度天氣頻次統(tǒng)計(jì)可以發(fā)現(xiàn),無(wú)論是能見(jiàn)度在3 000 m以下或是500 m 以下的天氣均以下半夜最多見(jiàn)(圖2)。具體來(lái)看,前者在05 時(shí)(北京時(shí)間,下同)頻次最高,06時(shí)以后頻次急劇下降,在00—12 時(shí)之間呈現(xiàn)單峰型分布;而后者在04 時(shí)頻次最高,在08 時(shí)頻次次高,在下半夜至上午時(shí)段亦呈現(xiàn)單峰型分布,且04—08時(shí)發(fā)生頻次顯著高于其他時(shí)間。這表明了夜間的冷卻條件極為重要,也反映了引入日變化的時(shí)間參數(shù)作為模型的特征變量是很有意義的。

圖2 3 000 m以下(藍(lán)色柱狀)和500 m(紅色折線)以下的低能見(jiàn)度時(shí)刻發(fā)生頻次的日變化

3.2 LoRa探測(cè)數(shù)據(jù)的可用性

在使用LoRa 探測(cè)數(shù)據(jù)之前,需要初步評(píng)估LoRa 探測(cè)數(shù)據(jù)的準(zhǔn)確性和可用性。以上述10 個(gè)沿海和島嶼自動(dòng)站的能見(jiàn)度觀測(cè)資料為參照標(biāo)準(zhǔn),對(duì)空間分辨率為1 km 的網(wǎng)格化的LoRa 探測(cè)數(shù)據(jù)進(jìn)行檢驗(yàn)。考慮到所選自動(dòng)站的能見(jiàn)度觀測(cè)儀可能存在偏差以及實(shí)際業(yè)務(wù)中更加關(guān)注能見(jiàn)度在3 000 m以下的天氣,故只篩選出同一小時(shí)內(nèi)至少存在相鄰兩個(gè)自動(dòng)站能見(jiàn)度小于3 000 m 的時(shí)次樣本進(jìn)行檢驗(yàn)。

根據(jù)能見(jiàn)度要素在空間分布上具有一定的連續(xù)性,采用鄰域檢驗(yàn)法進(jìn)行檢驗(yàn),即假設(shè)自動(dòng)站周邊一定范圍的區(qū)域內(nèi)能見(jiàn)度等級(jí)與該站點(diǎn)一致。隨著鄰域半徑增大,參與檢驗(yàn)的格點(diǎn)數(shù)也越多;但當(dāng)領(lǐng)域半徑過(guò)大時(shí),上述假設(shè)可能會(huì)失效。以能見(jiàn)度分類閾值為500 m、鄰域半徑為2 000 m 的檢驗(yàn)為例,參與檢驗(yàn)站點(diǎn)的平均結(jié)果如表2 所示,其TS 評(píng)分和準(zhǔn)確率分別接近60%和94%以上,漏報(bào)率略多于空?qǐng)?bào)率,但均未超過(guò)1/3,表明了具有較理想的可用性。

表2 LoRa探測(cè)數(shù)據(jù)的檢驗(yàn)指標(biāo)(能見(jiàn)度分類閾值為1 000 m、鄰域半徑為2 000 m)

3.3 數(shù)據(jù)預(yù)處理

3.3.1 實(shí)況資料合成

單純使用自動(dòng)站的能見(jiàn)度觀測(cè)資料在范圍和數(shù)量上都會(huì)受到較大的限制,不利于模型的訓(xùn)練和測(cè)試。在LoRa 探測(cè)數(shù)據(jù)可用性較好的基礎(chǔ)上,將相距3 km 內(nèi)的自動(dòng)站觀測(cè)數(shù)據(jù)與LoRa 探測(cè)數(shù)據(jù)進(jìn)行指數(shù)權(quán)重合成以獲得網(wǎng)格化的實(shí)況數(shù)據(jù)。該合成方式的優(yōu)點(diǎn)在于權(quán)重隨著距離快速減少,又始終保持正值[12]。具體公式如下:

對(duì)于某一格點(diǎn)而言,V為融合能見(jiàn)度,Vd為L(zhǎng)oRa 探測(cè)能見(jiàn)度,Vo為自動(dòng)站能見(jiàn)度,R為該格點(diǎn)與最鄰近站點(diǎn)的距離,即距離自動(dòng)站3 km 以外的格點(diǎn)值只取LoRa 探測(cè)值,反之則根據(jù)與自動(dòng)站的距離進(jìn)行指數(shù)權(quán)重合成,離自動(dòng)站越遠(yuǎn)則LoRa 探測(cè)值的權(quán)重越大。

3.3.2 新特征構(gòu)造

模型的輸入特征好壞在很大程度上決定了模型的預(yù)測(cè)能力上限。雖然來(lái)自于模式直接輸出產(chǎn)品的特征變量足以描述邊界層內(nèi)大氣環(huán)境條件,但是與低能見(jiàn)度天氣過(guò)程之間的映射關(guān)系還不夠顯著,諸如水汽、冷卻、弱風(fēng)和穩(wěn)定層結(jié)等氣象條件可以通過(guò)構(gòu)造新的特征變量以得到更好地描述。

在水汽和弱風(fēng)條件方面,分別增加2 m 溫度露點(diǎn)差(T2-d2)和10 m 全風(fēng)速(uv10)作為新的特征變量。此外,增加925 hPa 與2 m 溫差(T2-T925)、925 hPa 與1 000 hPa 溫差(T1000-T925)、1 000 hPa與2 m 溫差(T2-T1000)等三個(gè)特征變量。由于低能見(jiàn)度天氣具有日變化規(guī)律,還可以引入樣本所屬的時(shí)刻作為時(shí)間參數(shù)特征。將原先的特征稱為初始特征,加入6個(gè)新特征后稱為全特征。

3.4 建模方法

梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)的基本原理是不斷通過(guò)擬合殘差(真實(shí)值與預(yù)測(cè)值的偏差)來(lái)迭代學(xué)習(xí)新的決策樹(shù),再將所有決策樹(shù)的單獨(dú)預(yù)測(cè)進(jìn)行相加即得最終結(jié)果,因此可以由如下公式表示:

其中X代表輸入特征,F(xiàn)代表決策樹(shù),Θn為決策樹(shù)的超參數(shù)(如最大深度、葉子節(jié)點(diǎn)數(shù)等),N為決策樹(shù)的個(gè)數(shù)。LightGBM 每次選擇能夠帶來(lái)最大信息增益的節(jié)點(diǎn)進(jìn)行切分,即保證切分前后的信息熵差值為最大。特征種類越多、樣本數(shù)據(jù)量越大時(shí),LightGBM 越有計(jì)算成本上的優(yōu)勢(shì),這主要由于LightGBM 采用的兩種創(chuàng)新技術(shù):基于梯度的單側(cè)采樣(Gradient-based One-Side Sampling)和互斥特征捆綁(Exclusive Feature Bundling)。前者的目的是縮減用于計(jì)算信息增益的樣本數(shù)量,后者則能夠減少用于參與分裂點(diǎn)篩選計(jì)算的特征數(shù)量[13]。在幾乎相同的精度上,LightGBM 可以使傳統(tǒng)GBDT的訓(xùn)練過(guò)程加速20倍以上[14]。

邏輯回歸(Logistic Regression,LR)算法也是一種用于解決二分類問(wèn)題的算法。該算法基于數(shù)據(jù)服從伯努利分布的假設(shè),在給定條件概率分布的基礎(chǔ)上運(yùn)用極大似然估計(jì)求解最優(yōu)參數(shù)。具體是使用Sigmoid 函數(shù)將線性回歸的預(yù)測(cè)值映射為(0, 1)上的概率值,最終公式如下:

其中θ為L(zhǎng)R 模型超參數(shù),可用梯度下降法尋找最優(yōu)解。LR 算法的運(yùn)行效率高、可解釋性強(qiáng),適合作為基準(zhǔn)算法進(jìn)行對(duì)比。

本研究依靠LightGBM 模型來(lái)挖掘同一時(shí)刻內(nèi)某點(diǎn)能見(jiàn)度V與該點(diǎn)附近的氣象條件X之間的映射關(guān)系,即認(rèn)為存在V=f(X)。此外,LightGBM能夠從信息熵和信息增益[15]的角度來(lái)考察各類特征重要性,后續(xù)將據(jù)此對(duì)特征變量的貢獻(xiàn)大小進(jìn)行排序。

3.5 評(píng)估指標(biāo)

LightGBM 模型的輸出是預(yù)測(cè)概率值,在應(yīng)用命中率、TS 評(píng)分等傳統(tǒng)分類指標(biāo)時(shí)需要事先確定分類概率閾值,不同的閾值所對(duì)應(yīng)的指標(biāo)也有所不同,如此不利于全面跟蹤和評(píng)估模型性能的變化。本試驗(yàn)引入受試者工作特征曲線下面積(Area Under ROC Curve,AUC)評(píng)分[16]對(duì)模型表現(xiàn)進(jìn)行跟蹤檢驗(yàn),受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線)是指遍歷模型所有分類概率閾值后,在以偽陽(yáng)性率(False Positive Rate,F(xiàn)PR)為橫坐標(biāo)、以真陽(yáng)性率(True Positive Rate,TPR)為縱坐標(biāo)的坐標(biāo)系中由一系列不同閾值的點(diǎn)組成的曲線,其中FPR、TPR計(jì)算公式如下:

NA 為預(yù)報(bào)和實(shí)況均出現(xiàn)低能見(jiàn)度天氣的次數(shù),NB 為漏報(bào)次數(shù),NC 為空?qǐng)?bào)次數(shù),ND 為預(yù)報(bào)和實(shí)況均未出現(xiàn)低能見(jiàn)度的次數(shù)。AUC 為0.5 時(shí)說(shuō)明預(yù)測(cè)完全是隨機(jī)的;AUC在0.5以上才能說(shuō)明模型具有正向預(yù)測(cè)價(jià)值;AUC 越接近1,則模型預(yù)測(cè)效果越趨于完美[17]。

3.6 試驗(yàn)設(shè)計(jì)

根據(jù)時(shí)空對(duì)應(yīng)關(guān)系將實(shí)況融合資料與模式預(yù)報(bào)資料制作成數(shù)據(jù)集。空間上,以預(yù)測(cè)點(diǎn)為中心、邊長(zhǎng)為4×4 格點(diǎn)的矩形區(qū)域內(nèi)物理量平均值作為特征變量;時(shí)間上,選取起報(bào)時(shí)間為20 時(shí)、預(yù)報(bào)時(shí)效包含15~36 h 的預(yù)報(bào)產(chǎn)品進(jìn)行處理。由于2021年部分時(shí)段資料缺失,總共整理出約18萬(wàn)個(gè)樣本。

為了盡量減小樣本極端不均衡對(duì)訓(xùn)練過(guò)程帶來(lái)的影響,試驗(yàn)中運(yùn)用自助聚合(Bootstrap Aggregating,Bagging)技術(shù)進(jìn)行采樣和建模:在負(fù)樣本遠(yuǎn)多于正樣本的數(shù)據(jù)集中,對(duì)大量負(fù)樣本進(jìn)行隨機(jī)采樣50 次,每次可得到與正樣本數(shù)量接近的負(fù)樣本以組成子訓(xùn)練集,即每一份子訓(xùn)練集中的正樣本相同而負(fù)樣本不同。在50份子訓(xùn)練集的基礎(chǔ)上可訓(xùn)練出50 個(gè)不同的基模型,將每個(gè)基模型的預(yù)測(cè)概率進(jìn)行平均處理,則為融合模型。預(yù)先統(tǒng)一設(shè)定基模型的超參數(shù),其中關(guān)鍵超參數(shù)如最大樹(shù)深度為7、葉子節(jié)點(diǎn)數(shù)為2、學(xué)習(xí)率為0.06。

試驗(yàn)共劃分為四組:(a) 基于初始特征的基模型預(yù)測(cè)(RAW-BASE);(b) 基于全特征的基模型預(yù)測(cè)(ALL-BASE);(c) 基于初始特征的融合模型預(yù)測(cè)(RAW-MIX);(d) 基于全特征的融合模型預(yù)測(cè)(ALL-MIX)。此外,以基于全特征的LR方法作為參照試驗(yàn),稱為ALL-LR,在該方法中設(shè)定根據(jù)樣本數(shù)量來(lái)調(diào)整樣本權(quán)重以緩解數(shù)據(jù)不均衡的影響。根據(jù)AUC 評(píng)分對(duì)各類方案的結(jié)果進(jìn)行評(píng)估和對(duì)比。

4 對(duì)比與分析

4.1 特征重要性分析

LightGBM 建模方法可通過(guò)計(jì)算每類特征在分割點(diǎn)產(chǎn)生的信息增益總和來(lái)對(duì)特征重要性進(jìn)行排序,這有助于深入了解低能見(jiàn)度天氣發(fā)生發(fā)展的氣象環(huán)境條件。如圖3 所示,d2的重要性高達(dá)3 000以上,遠(yuǎn)遠(yuǎn)超過(guò)其他特征,這表明了近洋面高度的水汽絕對(duì)含量對(duì)低能見(jiàn)度天氣過(guò)程非常關(guān)鍵。其余特征重要性之間的差異相對(duì)較小,第二為T2-T1000,包括T2-T925也排行第六,可見(jiàn)近地層溫差的作用亦不可忽視。往后從大到小分別為v10、u10、T925、T2-T925、msl、q1000等,主要與弱風(fēng)條件有關(guān)。同時(shí)注意到,uv10和T1000參考意義并不是很大。

圖3 基于LightGBM的預(yù)報(bào)模型輸入特征重要性排序

4.2 不同方案在訓(xùn)練集和測(cè)試集上的對(duì)比

分別對(duì)五種建模方案進(jìn)行訓(xùn)練。其中四種基于LightGBM 的方案中均包含50 個(gè)基模型,每個(gè)基模型迭代訓(xùn)練1 200 次。RAW-BASE 和ALLBASE方案是對(duì)逐個(gè)基模型進(jìn)行檢驗(yàn),故存在虛線和陰影區(qū)以表示其AUC 評(píng)分的平均值和95%置信區(qū)間。而RAW-MIX和ALL-MIX方案則是對(duì)融合模型的概率進(jìn)行檢驗(yàn)。

在訓(xùn)練集上,主要對(duì)比RAW-BASE、ALLBASE 和LR 方案的差異。如圖4 所示,在經(jīng)過(guò)30次迭代訓(xùn)練后,基于LightGBM 的兩種方案就表現(xiàn)出比LR 更高的擬合精度,最終AUC 評(píng)分均達(dá)到了0.9 以上。RAW-BASE 和ALL-BASE 方案的訓(xùn)練曲線比較相似,開(kāi)始時(shí)AUC 評(píng)分的提升率較大,在30~40 代之間后者逐漸與前者拉開(kāi)差距,中后期提升率逐漸減小,AUC評(píng)分處于較高水平,模型存在過(guò)擬合的風(fēng)險(xiǎn),需進(jìn)一步考察其在測(cè)試集上的表現(xiàn)。這表明了引入新特征能夠讓模型更快更好地學(xué)習(xí)到低能見(jiàn)度天氣的發(fā)生規(guī)律。

圖4 模型在訓(xùn)練集上的AUC評(píng)分對(duì)比

在測(cè)試集上,EC-thin 模式對(duì)于樣本能見(jiàn)度的原始預(yù)報(bào)均在3 000 m以上,難以捕捉低能見(jiàn)度天氣發(fā)生的征兆。從圖5 可以看到,經(jīng)過(guò)LR 方法訂正后提升微弱,AUC 評(píng)分仍不足0.71,參考性較差。整體來(lái)看,基于LightGBM 的建模方案訂正效果顯著優(yōu)于LR 方法,前者AUC 評(píng)分均能超過(guò)0.85,在800 次迭代訓(xùn)練后基本趨于收斂,穩(wěn)定性較好,反映了基于LightGBM 的建模方法具有優(yōu)秀的非線性擬合能力。

圖5 模型在測(cè)試集上的AUC評(píng)分對(duì)比

在四組基于LightGBM 的訂正方案中,模型擬合穩(wěn)定后的AUC 評(píng)分由高到低分別為:ALLMIX、ALL-BASE、RAW-MIX、RAW-BASE。基于全特征的訂正方案(ALL-MIX 和ALL-BASE)相比于原始特征(RAW-MIX 和RAW-BASE)具備更優(yōu)越的改善作用,前者在1 000 代之后集中于0.94附近,后者仍分布在0.87 上下。新特征的構(gòu)造和引入也縮小了基模型的振蕩區(qū)間,有效削弱模型隨機(jī)性,也使得200 代之前的AUC 評(píng)分提升更加迅速和平滑。

模型融合與否也會(huì)小幅影響其預(yù)測(cè)能力。經(jīng)過(guò)平均處理后的融合模型(RAW-MIX 和ALLMIX)表現(xiàn)基本與50 個(gè)基模型(RAW-BASE 和ALL-BASE)中的最優(yōu)者相當(dāng),更重要的是融合模型可以解決實(shí)際業(yè)務(wù)中我們難以提前得知哪個(gè)基模型為最優(yōu)的問(wèn)題。與基模型相對(duì)平穩(wěn)的能力提升不同,融合模型在測(cè)試集上的AUC 變化曲線呈現(xiàn)階躍式上升,且在接近1 200代時(shí)再次超過(guò)基模型,甚至還存在繼續(xù)優(yōu)化的潛力。這些現(xiàn)象說(shuō)明了融合模型能夠逼近甚至超越最優(yōu)基模型,既避免了基模型選擇困難,還可以加速模型優(yōu)化過(guò)程,提高模型學(xué)習(xí)效率,使其更早進(jìn)入穩(wěn)定收斂狀態(tài)。總之,對(duì)比試驗(yàn)驗(yàn)證了LightGBM 模型相對(duì)于傳統(tǒng)訂正方法具有更大的潛力,而新特征引入和模型融合的技巧能夠?qū)τ喺Чa(chǎn)生正貢獻(xiàn),尤其是構(gòu)造合理的新特征對(duì)模型的提升幅度更為突出。

4.3 最優(yōu)建模方案在測(cè)試集上的分析

由上述對(duì)比可知,最優(yōu)建模方案為ALL-MIX方案,現(xiàn)對(duì)ALL-MIX 模型和LR 模型作進(jìn)一步評(píng)估。對(duì)于第1 200 代的ALL-MIX 模型而言,通過(guò)搜索TPR 與FPR 之差的最大值可以確定其最佳概率閾值a為0.999 7 左右,即當(dāng)模型輸出概率P≥a時(shí)判斷為水平能見(jiàn)度低于500 m,反之則在500 m以上。同時(shí)計(jì)算ALL-MIX 模型和LR 模型的交叉矩陣(其最佳概率閾值約為0.953 6)以做進(jìn)一步對(duì)比(表3 和表4)。可以發(fā)現(xiàn),兩者的預(yù)報(bào)準(zhǔn)確數(shù)和漏報(bào)數(shù)基本一致,命中率都在98%左右,這是訂正模型對(duì)模式原始預(yù)報(bào)改善作用最突出的方面。與此相反,兩種建模方案的空?qǐng)?bào)數(shù)差距很大,LR 模型的空?qǐng)?bào)數(shù)約為ALL-MIX 模型的8.5 倍,故前者空?qǐng)?bào)率超過(guò)93%,后者則控制在61%左右,表明了融合模型相對(duì)于傳統(tǒng)模型的優(yōu)勢(shì)在于顯著降低了空?qǐng)?bào)率。因此,ALL-MIX模型的TS評(píng)分可以達(dá)到38.71%左右,比LR模型提升了5倍以上。

表3 ALL-MIX方案在測(cè)試集上的交叉矩陣

表4 ALL-LR方案在測(cè)試集上的交叉矩陣

5 結(jié) 論

本文從逐小時(shí)逐格點(diǎn)的角度出發(fā),在2020 年3 月—2021 年7 月漳州地區(qū)融合實(shí)況資料與ECthin模式歷史預(yù)報(bào)產(chǎn)品的基礎(chǔ)上制作數(shù)據(jù)集,將能見(jiàn)度是否低于500 m 作為分類預(yù)測(cè)目標(biāo),應(yīng)用集成學(xué)習(xí)中的LightGBM 算法建立了分類預(yù)報(bào)訂正模型,利用Bagging 技術(shù)和AUC 評(píng)分指標(biāo)在一定程度上克服樣本極端不均衡帶來(lái)的影響,并根據(jù)新特征構(gòu)造和模型融合劃分為四種訓(xùn)練方案進(jìn)行試驗(yàn),同時(shí)設(shè)定基于LR(邏輯回歸)方法的預(yù)測(cè)模型作為基準(zhǔn)試驗(yàn)。經(jīng)過(guò)對(duì)比分析得到如下結(jié)論。

(1)所有訂正方案對(duì)于EC-thin模式原始預(yù)報(bào)能力均有不同程度的提升。在所有表征氣象環(huán)境條件的特征中,d2在建模過(guò)程中產(chǎn)生的信息增益總和最大,即d2對(duì)判斷低能見(jiàn)度天氣發(fā)生發(fā)展最為重要,T2-T1000的重要性次之。

(2)基于LightGBM 方法的訂正模型總體效果優(yōu)于LR 模型。兩者的命中率基本接近,但前者通過(guò)削減空?qǐng)?bào)率而進(jìn)一步優(yōu)化了預(yù)測(cè)能力。其中ALL-MIX(基于全特征的融合模型)建模方案在測(cè)試集上的AUC 評(píng)分相比于LR 模型增加了0.387 7,TS 評(píng)分也提升了7 倍以上。表明了LightGBM 模型在搜尋非線性復(fù)雜規(guī)律方面具有比較優(yōu)秀的擬合能力和泛化能力。

(3)合理構(gòu)造新特征以及對(duì)基模型進(jìn)行平均融合有助于優(yōu)化訂正模型。在四種基于LightGBM 的訓(xùn)練方案中,ALL-MIX 方案可以使模型在測(cè)試集上取得最高的AUC 評(píng)分。對(duì)比試驗(yàn)表明了合理構(gòu)造新特征對(duì)模型的提升幅度更為突出,而模型融合則能夠甚至超越最優(yōu)基模型,既避免了基模型選擇困難,也保持了模型的穩(wěn)定性。

不可忽視的是,本文提出的分類預(yù)報(bào)模型仍然存在空?qǐng)?bào)率較高、分類過(guò)于簡(jiǎn)單等不足,下一步將通過(guò)調(diào)整超參數(shù)和增加分類試驗(yàn)等方法繼續(xù)優(yōu)化和改進(jìn)。

猜你喜歡
特征融合模型
一半模型
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
重要模型『一線三等角』
《融合》
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
主站蜘蛛池模板: 日韩免费毛片| 国产白浆视频| 成人午夜久久| 99re在线视频观看| 婷婷激情亚洲| 国产成人h在线观看网站站| 国产无码网站在线观看| 秋霞国产在线| 免费在线色| 成人亚洲国产| 免费在线色| 精品国产成人高清在线| 亚洲国产午夜精华无码福利| 欧美 国产 人人视频| 亚洲欧美日韩久久精品| 国产粉嫩粉嫩的18在线播放91| 欧美天堂在线| 波多野结衣视频网站| 国产欧美精品午夜在线播放| 欧洲一区二区三区无码| 亚洲免费福利视频| 亚洲无码四虎黄色网站| 性欧美久久| 国产精品99一区不卡| 亚亚洲乱码一二三四区| 国产成人精品在线| 欧美一级黄片一区2区| 国产永久在线视频| 2021国产乱人伦在线播放| 亚洲视屏在线观看| 成人亚洲天堂| 久久久久国产精品嫩草影院| 亚洲无码一区在线观看| 啪啪免费视频一区二区| 国产成人在线无码免费视频| 国产精品无码影视久久久久久久| 国产成人啪视频一区二区三区| 欧美激情第一欧美在线| 波多野结衣一区二区三视频 | 97国产在线视频| 亚洲精品自拍区在线观看| 国产欧美又粗又猛又爽老| 在线视频亚洲欧美| 国产精品微拍| 婷婷色狠狠干| 国产成人乱码一区二区三区在线| 亚洲第一在线播放| 亚洲国产精品日韩av专区| 自慰网址在线观看| 久久人午夜亚洲精品无码区| 国产女主播一区| 69综合网| 亚洲精品波多野结衣| 青草视频免费在线观看| 9久久伊人精品综合| 成人看片欧美一区二区| 欧美日韩国产成人高清视频| 无码日韩视频| 99这里只有精品免费视频| 亚洲色图在线观看| 国产激情无码一区二区APP | 婷婷六月激情综合一区| 本亚洲精品网站| 五月婷婷综合色| 亚洲五月激情网| 免费a级毛片18以上观看精品| 91精品国产综合久久香蕉922| 99热6这里只有精品| 毛片在线播放网址| 中文国产成人精品久久一| 国产精品爽爽va在线无码观看| 久久亚洲日本不卡一区二区| 久久精品aⅴ无码中文字幕| 亚洲不卡网| 中文无码精品A∨在线观看不卡| 国产又粗又爽视频| 日韩欧美国产中文| 久久国产黑丝袜视频| 二级毛片免费观看全程| 精品久久综合1区2区3区激情| 尤物特级无码毛片免费| 日日拍夜夜操|