夏旭
(湖南安全技術職業學院,湖南 長沙 410151)
我國是世界上自然災害發生較多的國家之一,對災害進行提前預測和研判,并采取應對措施,能在最大程度減少災害帶來的損失。從研究現狀來看,對某一災種進行預警的技術已經較為成熟,然而,在災害發生時,通常會發生多種相關次生災害,并直接對災害風險等級和危害程度產生較大影響,在此背景下,“多災種”和“災害鏈”的概念被相繼提出,其中,“多災種”概念最早在1992年的聯合國環境與發展大會上被提出,認為隨著人類行為活動的日益豐富,所面對的風險和脆弱性劇增,應開展全面的多災種研究,“災害鏈”概念則最早由郭增建等在1987年提出,之后眾多學者對“災害鏈”開展了研究并闡述了不同理解,最近是由AGHAKOUCHAK等人提出全球極端災害的爆發與災害鏈關系密切,這種關系類似于多米諾骨牌的連鎖反應。由此可見,對多災種災害鏈的作用機制和預警模型開展研究,能有效提高災害預警的全面性和正確性,從而降低災害影響。
機器學習目前已經用于許多實際應用,包括計算機視覺、生物信息學等,可用于解決復雜系統問題的建模和推理,通過對大量數據進行訓練,生成預警模型,從而對災害以及造成的影響進行提前預測,例如,哈斯等人利用機器學習中的貝葉斯網絡構建草原干旱雪災災害鏈預警模型,對干旱造成的雪災影響程度進行預測。
但是,目前機器學習在災害鏈中的應用存在兩個方面問題,首先,大部分的研究是以單災種為主體,未充分考慮多個災害之間的關聯,當改變其環境數據后,這些預警模型無法使用;其次,多個災害發生時相互關聯的數據集難以獲取,無法訓練數據生成可用預警模型。針對上述情況,受到周志華教授所提出學件概念的啟發,本文提出利用多個災害之間內在的領域知識和已有的單災種預警模型,設計模型重用框架MRFA(Model Reuse Framework Algorithms),以解決現實問題。
在機器學習研究中,領域知識通常是指訓練數據之外,與所在領域密切相關的較高層次知識,它可以反映事物之間的內在本質關系,通常難以作為屬性特征在訓練數據集中出現。但是,對領域知識的合理應用能對機器學習建模產生較好的促進作用,例如,趙鵬等人在聚類分析中通過對領域知識的運用建模,獲得了較好效果。這種利用領域知識的方法,可以減少對數據集的依賴,提高預測效率,本文所設計的MRFA框架則是將災害鏈中不同災種之間的內在關系抽象為領域知識,并構建一種較為通用的形式,從而實現單災種預警模型的復用,并適應不同的任務。



可以將MRFA框架簡單的描述為如圖1所示的示意圖。

圖1 MRFA框架簡易示意圖
由此,可以展示MRFA框架下的數據與模型之間的關系,如圖2所示,其中,數據用矩形表示,模型用六邊形表示,按照預期,f是經過重新設計后的預警模型,由于它綜合考了領域知識以及其他單災種預警模型,因此,它應比初始預警模型f有更好的性能,具體驗證將在第2節中實現。

圖2 MRFA框架中數據和模型的關系
利用領域知識,將MRFA作為一種通用框架應用在災害鏈的預警模型中,損失函數、正則函數均可以靈活運用,即使在訓練數據較少的情況下,也可以有效避免過擬合帶來的問題。




假設領域知識可以表示為非負有權無向圖的形式,則先轉化為鄰接矩陣表示,然后,再使用經典的弗洛伊德算法計算其距離矩陣,再轉化為計算相似度矩陣,最后利用式(2)進行函數構造。
本節將利用MRFA框架運用到湖南省的山體滑坡、泥石流等山洪災害,以及其帶來的堰塞湖、內澇、房屋受損等災害預警中,以驗證該方法在訓練數據量小、場景多、災害多的情況下,與已有單災種預警模型相比較的優劣情況。
本研究的數據來源包括:中國地質調查局地質環境監測院(www.cigem.cgs.gov.cn)、湖南省自然資源廳(zrzyt.hunan.gov.cn)和EM-DAT(The International Disaster Database),采集數據的時間段為2010—2019年,共產生有效信息5 382條,可以繪制災害信息分布圖如圖3所示。將全部數據樣本分為兩個部分,其中80%作為訓練樣本,其余作為實驗樣本,利用訓練樣本構建預測模型,然后用實驗樣本來對預測模型進行準確率評估。

圖3 湖南省災害信息分布圖
查找Web of Sciences、知網等數據庫中,與滑坡、泥石流、山洪等單災種預警模型和災害之間關系為研究對象的文獻,構建領域知識關系,得到如圖4所示的知識領域關系圖。

圖4 多災種知識領域關系圖
按照貝葉斯網絡預測的方法,結合專家經驗,根據多種災害之間的關系,按照災害事件發生和不發生兩種狀態進行計算,可以得到如表1所示先驗概率。

表1 貝葉斯網絡預測多災種發生的先驗概率
假設降雨強度為200 mm/d、降雨歷時超過48小時,利用MRFA框架和領域知識結構,構造選擇函數,對訓練數據進行5次實驗,并將均值作為最終結果,可以得到如表2所示的對比結果,可見在堰塞湖和公共交通上,有一定偏差,采用MRFA框架預測結果較實際情況嚴重。

表2 測值與實際值對比
當訓練數據不足時,直接使用上述算法和模型將難以進行預測,此時,使用MRFA框架進行計算,并利用常用指標Hamming loss和F-measure作為評價標準,對4個數據集進行訓練和計算,可以得到如表3所示的結果。

表3 實驗結果
根據Hamming loss和F-measure的性質,前者的值越低越好,后者的值越高越好,從表3種可以看出,使用MRFA框架將能有效提升預警的準確性,同時,也提高了模型的通用性。
現有的災害鏈預警模型多針對單一災種,而且,對于環境數據變化、數據集較少的情況,適應能力不強。而在實際應用中,通常是多種災害相繼發生,不同的災害之間具有一定的內在關系,因此,多災種災害鏈的預警模型研究十分必要。
本文提出的MRFA框架嘗試通過利用領域知識實現對現有單災種災害鏈預警模型的復用,在數據集難以獲取的情況下,完成預警任務,利用湖南省滑坡、洪澇等災害數據對該框架進行測試,表面該框架能在一定程度上提升傳統模型的性能,在當前任務上取得了較好效果。但是,本研究僅針對滑坡、洪澇等災害的領域知識進行了分析,因此,針對其他領域的應用將是未來的研究方向。