王 雨 嫣,吳 森 森,杜 震 洪
(浙江大學地球科學學院,浙江 杭州310058)
考慮到海洋科學大數據的敏感性,在保障數據安全的前提下進行數據共享,需要顧及多源數據、傳輸介質和傳輸頻率帶來的安全差異性,以及數據訪問、計算、共享、監管等方面的安全等級性;同時,海洋科學數據體量巨大,現有的技術孤島、資源孤島和信息孤島現象嚴重,數據共享性較差,嚴重阻礙海洋領域的探索性研究開展[1,2]。云處理可輔助數據實現集中化,進而為解決該問題提供支持,但云端訓練人工智能(Artificial Intelligence,AI)模型離不開大型的訓練數據集[3-5],即需要關注數據集的流量增加和集中式管理對數據所有權、使用權等的要求,以及創建有利于數據聚合的高效方法。因此,必須探索高效方案以應對AI模型訓練在數據聚合方面的挑戰,針對具體問題時還需保證數據的機密性,并設計出對應的安全和容錯機制。
聯邦學習(federated learning)[6]由谷歌于2016年首次提出,具有強大的數據處理功能,旨在讓分散的各數據持有方在滿足不向其他參與方披露隱私數據的前提下,協作進行模型訓練,即聯邦學習是一個帶有隱私保護、安全加密技術的分布式機器學習框架。Google 首先將聯邦學習運用在Google 鍵盤上,聯合用戶終端設備,基于用戶的本地數據訓練模型,將訓練過程中的模型參數聚合、分發,最終實現模型的精準預測。Lu等[7]通過將區塊鏈與聯邦學習相結合,在保留區塊鏈安全可信的基礎上,為系統賦予人工智能的優化決策能力。聯邦學習的架構理念符合上述數據集中化的架構設想,同時允許數據在本地保存,僅通過隱私聚合模型參數以構建總的AI模型,無需聚合原始數據,因此本地的數據保密問題得到解決[8],但聯邦學習是仍未中心化的結構,受攻擊風險高,為后續解決方案提供了探索空間。
海洋表面鹽度(Sea Surface Salinity,SSS)是研究大洋環流和海洋對全球氣候影響的重要參量,不少學者利用遙感反射率數據和海表溫度數據反演海表鹽度[9-12],反演方法多采用比值模型[13]、多元線性回歸模型[14]等數理統計模型,但因模型反演精度低、應用范圍有限,無法適用于鹽度呈復雜非線性特征或遙感信息間存在時空自相關性等的復雜場景。而機器學習能有效挖掘數據內部的關聯性,探索更復雜的鹽度分布模式并提高預測精度[12,15],結合機器學習的鹽度反演在研究區域較大或注重鹽度的時空信息時,需要精細處理大體量的研究數據,使用神經網絡等AI算法進行鹽度反演時更甚,即不可避免地要解決數據聚合和隱私方面的問題。鑒于此,本文將群體學習(Swarm Learning)[16](引入區塊鏈、去中心化的聯邦學習)和用于樹形模型隱私整合的隱私保護樹(Secure Boost)[17]結合,關注LightGBM的整合訓練,從而構建用于鹽度反演的SLSB-LightGBM模型,該模型在完全去中心化和假定數據隱私使用的條件下進行訓練,形成一套分布式海洋數據隱私集成解決方案,將其反演結果與本地學習模式的反演結果進行對比,以評價模型的區域適用性和泛化性。
本文從愛爾蘭西部、美國東部、墨西哥灣和日本南部共選取4片海域作為測試區(圖1)。①愛爾蘭西部海域位于歐洲西北部,大西洋海域的東北部,北大西洋暖流在此一分為二,其中一支洋流(即加那利寒流)向南流動,另一支洋流則繼續沿西北方向流入北冰洋。鹽度實測點主要圍繞愛爾蘭島陸地西側海域向東北、東南方向延伸,整體分布較均勻,鹽度值整體較高。②美國東部海域更加開闊,自南向北流動的墨西哥灣暖流和自北向南流動的拉布拉多寒流在此相遇,墨西哥灣暖流由研究區南部輸送高溫高鹽的海水,而拉布拉多洋流由研究區北部輸入低溫低鹽的海水,該地區鹽度自北向南上升,且溫度、鹽度數據變幅大。鹽度實測點圍繞東海岸的近岸海域,北部寒流流經海域的實測點略多于南部海域,整體呈現出南高北低的鹽度分布態勢。美國東部海域城市眾多,對該區域進行海洋相關屬性的研究,可為類似海洋功能區域規劃提供支持。③墨西哥灣形勢復雜,灣區北部有多個河流入??谳斔湍嗌澈偷望}淡水,內部環流及渦流組成了Loop Current系統,較大的溫差導致鹽度產生明顯的局部變化[15]。河流入??诓糠譃辂}度低值區,灣區內部鹽度值略高,整體鹽度差異大,海水的區域性屬性明顯,增加了鹽度反演的難度。鹽度實測軌跡由近岸向灣區中心反復折返,整體分布均勻但稀疏。④日本南部海域東至相模灣,西至沖繩群島,世界第二大暖流黑潮流經該片海域,帶來高溫、高鹽、透明度高的海水。同時由于夏秋季節日本海域海洋鹽度鋒面的存在,7、8月日本南部海岸呈現出明顯的鹽度梯度變化,鹽度由近岸海域向外擴散現象顯著[18]。鹽度實測軌跡途經黑潮流域和日本近岸海域,鹽度值整體分布較均勻。
1)實測鹽度數據。相關數據來自美國國家海洋和大氣管理局(NOAA),從海洋碳數據系統(OCADS)(https://www.nodc.noaa.gov/ocads)下載(表1)。根據世界海洋環流實驗(WOCE)指南,數據均具有質量控制標識:“2”表示質量良好,“3”表示數據可疑,“4”表示質量較差。為保證數據的準確性,本研究保留具有質量良好標識“2”的實測鹽度數據,數據空間分布如圖1所示。

表1 研究區實測海表面鹽度數據概況
2)衛星遙感數據。海表鹽度與有色溶解有機物(CDOM)的吸收系數存在顯著的負相關關系[19,20],而后者可通過遙感反射率反演得出[21],故可通過遙感反射率間接反映鹽度信息。CDOM 的吸收系數在可見光波段內呈指數衰減特性,可表示為藍綠光波段的比值或紫光、藍綠光的線性組合[22],同時,紅光波段對鹽度反演也很重要[11],故本文選取MODIS Rrs412、Rrs443、Rrs488、Rrs555、Rrs667波段的遙感反射率數據和海表溫度(SST)數據用于反演海表鹽度,是空間分辨率為0.01°的標準L2級單軌產品。將實測鹽度數據和衛星遙感數據按照經緯度和數據獲取日期進行匹配,得到各研究區的數據概況(表2)。在保證數據量和精度的情況下,剔除異常值,在愛爾蘭西部海域、美國東部海域、墨西哥灣和日本南部海域分別獲取6 715條、18 531條、15 033條和16 847條有效數據。各研究區數據統計信息如表3所示。

表2 研究區衛星遙感數據概況
通常情況下,如果本地有足夠的數據和適宜的計算機軟硬件環境,則可直接訓練機器學習模型,即本地學習。如果數據聚合到一個中心位置,集成學習可集成多個學習器共同進行模型訓練,數據共享性提高,隱私性變差[23-25]。當數據以前所未有的速度、體量和分布式位置生成時,實現數據的有效集成難度大幅提高。考慮到數據所有權與訪問管理分離造成的數據壟斷問題,大量數據無法被高效共享利用。此外,在保障數據安全的前提下進行數據共享常涉及法律法規。綜上,在實際的大數據場景中,使用集成學習進行數據聚合并構建有效模型的成本越來越高。這些困難促使真正分散式機器學習架構的出現,如聯邦學習[17,26,27],其典型的模型更新過程包含4個步驟:①每個本地節點從中心節點服務器下載初始模型;②每個本地節點基于本地數據計算更新模型;③每個本地節點在加密的情況下將模型更新參數發送回中心節點服務器;④中心節點服務器聚合模型更新參數并基于此構建總模型。Secure Boost[17]是聯邦環境中一種端到端的梯度提升算法,提高了聯邦學習的可行性,且在聯邦學習領域提出了更嚴格的Boost樹構造法,用于樹形模型的隱私構建和整合,在數據集多的情況下依然能保證安全性和準確性。
作為改進的聯邦學習,Swarm Learning(SL)[16]省去了中心服務器,通過Swarm網絡共享參數,在各個節點的私有數據上獨立構建模型,使用區塊鏈技術交換學習成果。SL訓練出的模型準確性與集成學習相當,同時在安全性、容錯性和延遲方面優于集成學習[28]。SL中每個參與者都有明確的定義,只有預先得到授權的參與者(節點)才能加入,新節點的加入是動態的且有適當的授權措施控制[16,28]。
LightGBM[29]是由微軟團隊提出的一種高效梯度提升決策樹算法,它是對GBDT模型的一種改進算法,也是一種基于Boosting的集成學習算法,具有訓練效果好、不易過擬合等優點。相較于其他Boosting(如XGBoost)算法,LightGBM使用了基于梯度的單邊采樣算法配合EFB預處理稀疏數據,能在不降低準確率的條件下加快GBDT模型的訓練速度。因此,LightGBM能在保證預測精度的同時,顯著縮短訓練時間,大大降低內存使用,目前已在遙感領域得到有效應用[30,31]。
由于LightGBM模型在擬合殘差、構建決策樹時需要確定樹的節點分裂,事實上是確定目標函數依賴于每個數據點在誤差函數上的一階導數和二階導數[30]。而在SL中各本地節點是通過Swarm API交換模型參數以合并、更新總模型,LightGBM模型的合并更新與SL的常規應用場景不同,難以將各節點的訓練成果直接在SL中聚合。因此,引入Secure Boost聚合直方圖以構建全局LightGBM樹,Secure Boost和SL結合的架構可以在保證隱私和去中心化的情況下盡可能地使數據的利用價值最大化,從根本上改變了機器學習的計算范式。
本文對各區域數據集按照8∶2劃分訓練集和驗證集,分別構建基于愛爾蘭西部海域、美國東部海域、墨西哥灣、日本南部海域四區數據的SLSB-LightGBM全局模型和基于愛爾蘭西部海域、美國東部海域、墨西哥灣三區數據的SLSB-LightGBM遷移模型,與本地學習模式下的4個單區模型交叉對研究區進行鹽度反演。選用1 PSU(Practical Salinity Units)和0.8 PSU條件下的SSS反演精度、均方誤差(MSE)、平均絕對誤差(MAE)作為評價指標,對比討論交叉反演結果,結合各區域實際海洋系統環境綜合評價SLSB-LightGBM的區域適用性和泛化性(圖2)。

圖2 研究框架
將4個單區模型和SLSB-LightGBM全局模型在4片海域進行交叉驗證得到各模型交叉反演結果(圖3),再與SLSB-LightGBM遷移模型的反演結果進行整合得到反演結果評價表(表4)。

表4 模型交叉反演結果評價
由表4可知,愛爾蘭西部海域模型在該海域驗證數據集上得到的1 PSU和0.8 PSU下精度分別為99.92%、99.97%,MSE和MAE分別為0.01、0.05,在墨西哥灣驗證數據集上得到的1 PSU和0.8 PSU下精度僅為76.18%和55.02%,且MSE和MAE值較大,在美國東部海域和日本南部海域的精度更低,因此認為愛爾蘭西部海域模型不能對其余研究區鹽度進行準確反演。SLSB-LightGBM全局模型在愛爾蘭西部海域驗證數據集上得到的1 PSU和0.8 PSU下精度分別為95.52%、92.84%,MSE和MAE分別為0.18、0.27。使用愛爾蘭西部海域模型和SLSB-LightGBM模型對2021年7月12日愛爾蘭西部海域SSS進行反演(圖4),得到的海表鹽度分布情況基本一致:單區模型反演離岸區域、近岸區域和南部海域的鹽度值分別集中在35.6 PSU、35 PSU和34 PSU左右;SLSB-LightGBM全局模型反演離岸區域、近岸區域和南部海域的鹽度值分別集中在35.9 PSU、34 PSU和30 PSU左右。
美國東部海域模型在該海域數據集上得到的1 PSU和0.8 PSU下精度分別為94.17%、90.80%,MSE和MAE分別為0.26、0.33;SLSB-LightGBM全局模型在1 PSU和0.8 PSU下精度分別為84.17%、76.24%,MSE和MAE分別為0.55、0.54。使用兩模型對2021年9月22日美國東部海域SSS進行反演(圖5),單區模型反演結果顯示:海表鹽度分布態勢自南向北逐漸上升,南部海域SSS約為33 PSU,北部海域SSS在34~35 PSU之間。該反演結果與前述自北向南鹽度上升的趨勢不相符,未能體現暖流寒流相交對該片海域鹽度的影響。另外,4個單區模型和SLSB-LightGBM全局模型的反演結果中,只有SLSB-LightGBM全局模型印證了這一態勢,南部海域SSS主要集中在34.4~35.9 PSU,北部海域主要集中在33 PSU以下,整體向北遞減。

圖5 美國東部海域模型和SLSB-LightGBM全局模型對比
墨西哥灣模型在該海域數據集上得到的1 PSU和0.8 PSU下精度分別為93.95%、90.42%,MSE和MAE分別為0.28、0.34;SLSB-LightGBM全局模型在1 PSU和0.8 PSU下精度分別為84.06%、77.35%,MSE和MAE分別為0.73、0.58。使用兩模型對2021年9月30日墨西哥灣SSS進行反演(圖6),結果顯示:鹽度空間形態分布不規律,未見北部河口的低值變化態勢,低值區從北部河流入??谖恢缅e現到灣區西南部,兩模型預測的灣區內部鹽度值約為36 PSU,屬高值區,灣區南部的鹽度值較低,集中在34 PSU左右。整體上,墨西哥灣由于受到入海河流淡水輸送、環流和風力等因素的疊加影響,其物理和生物化學過程活躍,海水鹽度也呈現復雜的空間異質性[32,33]。本文選擇的SSS影響因子為遙感反射率和海表溫度,由于前述多作用力,推測遙感反射率和海表溫度在灣區內不同區域的因子貢獻率同其他研究區有差別。另外,墨西哥灣實測數據點有限,僅使用1個月的采樣數據或許難以體現河流輸入和洋流風力等的疊加作用,進而導致單區模型和SLSB-LightGBM全局模型的反演結果較差。

圖6 墨西哥灣模型和SLSB-LightGBM全局模型對比
日本南部海域模型在該海域數據集上得到的1 PSU和0.8 PSU下精度分別為98.30%、97.32%,MSE和MAE分別為0.62、0.13;SLSB-LightGBM全局模型在1 PSU和0.8 PSU下精度分別為94.74%、92.37%,MSE和MAE分別為0.34、0.29。使用兩模型對2021年8月21日日本南部海域SSS進行反演,結果(圖7)顯示:海表鹽度分布態勢基本一致,呈現由北向南逐漸下降、近岸高離岸低的趨勢,離岸區域鹽度值集中在33~34 PSU之間,最低值為27.1 PSU,近岸區域鹽度值集中在35~36 PSU之間,此分布態勢與鋒面和環流的出現相符。

圖7 日本南部海域模型和SLSB-LightGBM全局模型對比
以愛爾蘭西部海域研究區為例,愛爾蘭西部海域模型與美國東部海域模型、墨西哥灣模型、日本南部海域模型的反演結果差異明顯,本地學習的反演結果整體數值較高,大片海域的鹽度值大于35 PSU,最低值為34.1 PSU,非本地學習模型的反演結果整體偏低,最低值為24.9 PSU,且本地學習模型得到的鹽度空間分布模式不能在非本地學習模型的反演結果中印證,鹽度變化未體現出從南至北的上升趨勢。模型驗證的量化評價結果(表 4)表明,非本區域的單區模型預測結果在1 PSU和0.8 PSU下精度極差,體現出本地學習的局限性。不同地區的海洋系統各異,鹽度的空間分布及變化情況有明顯的區域性,難以用同一個機器學習模型進行全球范圍的鹽度反演,而SLSB-LightGBM全局模型在不直接使用數據的情況下對4個研究區的模擬效果均較好,反演結果在復雜海域甚至優于傳統機器學習模型,適用性優于本地學習模型。
將愛爾蘭西部海域、墨西哥灣、美國東部海域的數據進行隱私聯合訓練,構建SLSB-LightGBM遷移模型,在日本南部海域進行鹽度反演,得到在1 PSU和0.8 PSU下精度分別為85.43%、75.18%,MSE和MAE分別為0.24、0.13。使用SLSB-LightGBM遷移模型對2021年8月21日日本南部海域SSS進行反演,結果(圖8)顯示:鹽度值呈自北向南逐漸降低分布態勢,北部近岸海域的SSS大于35 PSU,SSS高值主要集中在此,南部離岸海域SSS集中在30 PSU左右,與前述鹽度鋒的存在相印證。對比其余單區模型的預測結果,遷移模型的預測結果最貼近實際的鹽度分布態勢,高低值分布合理。愛爾蘭西部海域模型的預測結果整體偏高,其余兩個模型的預測結果中均出現西南部SSS異常低值區。SLSB-LightGBM在無日本南部海域數據集參與訓練的情況下仍能對該海域的鹽度分布態勢實現較準確的反演預測,模型的泛化性得以體現,即能在有限的訓練數據集中學習SSS空間變化的隱含規律,并能對新數據進行準確預測。

圖8 日本南部海域單日反演結果對比
海洋數據共享性差,本文以海洋表面鹽度為研究對象,首次將隱私計算算法引入GIS場景中,構建了SLSB-LightGBM模型,對全球4片海域的海表鹽度進行反演。結果表明:SLSB-LightGBM模型的整體性能優于本地學習模型,全局模型和遷移模型在1 PSU條件下精度大于84%,0.8 PSU條件下精度大于76%,MSE和MAE值均小于0.58;在洋流環境復雜區的反演預測結果更能反映各海域的實際洋流系統環境,且在數據集減少、任務場景變化時仍能對海表鹽度進行準確、合理的反演預測。此外,SLSB-LightGBM模型在設計和執行過程上完全保證了數據的隱私性,實現了各區數據在互不相通情況下的聚合,直接提高了數據的可用性,為探索進一步跨邊界合作研究提供了思路和方法。