李星星 段超
摘 要: 森林作為陸地上重要的生態系統,具有環境與資源雙重屬性。一旦發生火災,將對環境和大氣造成無法彌補的破壞。數據挖掘技術在森林防火中具有重要的的作用,能夠對森林火災進行預測,從而達到預防的效果。
關鍵詞: 森林火災;數據挖掘;應用研究
【中圖分類號】 TP311.4 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0027-01
一、研究背景及意義
森林是極其珍貴的自然資源,在凈化空氣、調節氣候等方面具有巨大的功能,對維持人類生活環境方面發揮著關鍵作用,且還是珍貴的野生動物的棲息地。一旦發生火災,將對環境和大氣造成毀滅性的、無法彌補的破壞(大氣中30%的二氧化碳來自森林火災),甚至造成重大人身事故和巨大的財產損失。破壞森林資源的自然災害除了火災,還有病災和蟲災,但是火災是破壞性和危害性最大的。
森林作為陸地上重要的生態系統,具有環境與資源雙重屬性,它提供了豐富多彩的資源產品,營造了優美的環境,維持著地球的生態平衡。火災的發生,不但會造成巨大的經濟損失和人員的傷亡,而且對整個大氣的污染是巨大的,將持續影響人們的健康生活。因此,對火災發生規律進行預測并對潛在危險區進行監測,及早發現火災,可以大大縮短反應時間,減少火災潛在損失和滅火成本。“預防為主,積極消滅”是我國森林防火方針。如何從大量的歷史森林火災數據中挖掘出有用的知識以供決策者參考是現在急需解決的問題。
二、數據挖掘技術在森林火災中應用研究
數據挖掘是一個融合了多項技術的研究范疇,它集成了數據庫技術、機器學習、人工智能、統計學、知識庫系統、信息檢索等最近技術的研究成果。還有許多與其相近的術語,如從數據庫中發現知識(Knowledge Discovery in Database, KDD)、數據分析(Date Analysis)、數據融合(Data Fusion)以及決策支持等。2001年,Gartner Group在一次高級技術調查中將數據挖掘和人工智能列為“未來三到五年內將對工業產生深遠影響的五大關鍵技術”之首,還將并行處理體系和數據挖掘列為未來的五年內投資焦點的十大新興科技前兩位[1]。
20世紀80年代末開始出現了發現知識(KDD)一詞,在1989年8月美國底特律市舉辦了第一屆KDD國際學術會議上第一次提到了該詞的概念。起初每兩年舉辦一次KDD 會議,到1993年后一年舉辦一次。直到1995年加拿大的蒙特利爾舉辦了首屆KDD &Data Mining的國際會議,才開始流行知識發現和數據挖掘。之后,在國外有關數據挖掘相關的論文發表得十分多,并形成了比較熱門的研究方向,比較集中發表的論文期刊如:《Data Mining and Knowledge Discovery》、《Artificial Intelligence Review》[1]。
在國內,1993年中科院合肥分院獲得我國自然科學基金首次在數據挖掘領域的研究的支持。通過檢索被科學引文數據庫(SCI)、工程索引數據(EI)和清華全文期刊數據庫(CNKI)收錄有關數據挖掘方面的文章,可知:1997年中國有關數據挖掘的文章在SCI收錄了2篇,CNKI中收錄了3篇,這說明在數據挖掘方向的研究,中國與國外在時間上相差不大。國內有關數據挖掘論文的發表也逐年增加,說明中國的數據挖掘研究也正在加強[1]。
數據挖掘是面向實際應用的技術。現已廣泛地應用在金融、電信、保險、農業、制造業、醫療衛生等領域,數據挖掘在農林火災中的應用研究也引起了國內外專家學者的關注。
Tao Cheng等探討了時空數據挖掘在森林防火中的應用,特別關注森林火災的時空預測,提出了一種集成時空預測ISTFF框架:使用一個動態遞歸神經網絡的空間預測,然后以加拿大森林火險區預測為例,與其他方法做了比較。Paulo Cortez等探索了數據挖掘方法來預測森林火災的燃燒面積,在基于最近葡萄牙東北部收集的真實數據,測試了五種不同的DM技術(如支持向量機(SVM)和隨機森林)和四種不同的特征選擇設置(使用空間、時間、火災森林指數(FWI)和天氣屬性)。最好的配置是使用了一個支持向量機(SVM)和四個氣象輸入(即溫度、相對濕度、雨、風),它能預測更加頻繁小火的燃燒面積。這對提高消防管理尤其有用。
劉芳[2]針對K均值中容易出現局部最優的缺點,引入了蟻群算法ICACA對其進行優化,提出一種改良的蟻群聚類算法,利用實驗對比,新的算法能夠在時間上和聚類的準確性上獲得一個平衡,然后運用在預測分析實際的森林火災中。蘇成偉[3]將模擬退火算法與遺傳算法結合起來,形成了模擬退火遺傳算法,將該算法應用于關聯規則的挖掘中,然后在森林火災數據中應用改良的算法。印世樂針對傳統的遺傳算法容易陷入局部最優和早熟的缺點,提出了一種改進的多種群遺傳算法,然后將算法應用于森林火災數據進行關聯規則挖掘。王軒為了能夠實時監控林中的溫度、相對濕度等火災因子,運用ZigBee無線傳感器網絡、Internet網絡、GPRS數據通信等技術構建了基于物聯網技術的遠程監測系統。許志卿在研究中運用半正規規劃建模方法,建立了自定義核函數的SVM模型,對比了線性核函數的模型、基于自定義核函數的SVM模型和基于高斯核函數SVM模型三種林火預測模型的預測效果,設計并實現了基于這三種模型的林火預測系統。
參考文獻
[1] 李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究[J].管理工程學報,2004(03):10-15.
[2] 劉芳.改進的蟻群聚類算法在森林火災預測中的應用研究:[碩士學位論文].阜新:遼寧工程技術大學,2009.
[3] 蘇成偉.一種改進的遺傳算法在數據挖掘中的應用研究:[碩士學位論文].合肥:合肥工業大學,2013.