北京航空航天大學 李昕冉
?
林業數據可視化技術及其應用
北京航空航天大學李昕冉
林業病害防治工作所共有的一些特征,如數據結構復雜、各因子間的制約關系難以挖掘等,給當前林業信息化提出了不少難題。因此我們引入了數據可視化這一技術,以期豐富林業信息化手段,更好地支持林業工作。本文設計并實現了云杉矮槲寄生調查數據可視化系統,輔助林業專家挖掘寄生病害的成災規律,實驗結果表明,本系統能夠更高效地指導災害防治工作,同時擴展性較強,可以為類型工作提供一定的參考。
數據可視化;林業;林業病害防治
在信息爆炸的今天,各個領域經過調研記錄,都積累了海量數據,如此龐大的數據量既給了我們發掘新知識的無限可能,同時,由于無用數據淹沒了有價值的信息,數據的結構也更加趨向于高維化、多態化,探索難度也明顯增加,給我們帶來了新的困擾。在數據處理方面,傳統的統計分析和數據挖掘方法往往只能進行單純的簡化或抽象,無法展示數據集的真實面貌,容易遺漏某些重要但無法通過降維來發掘的信息或規律。
當前林業領域調查數據的處理分析工作,也面臨著這樣的問題,目前并沒有一種得心應手的技術手段來組織和利用這些龐雜的、非結構化的調查數據。與此同時,可視化技術的興起、深入研究和廣泛應用,則針對這個問題為我們提供了一條令人興奮的解決途徑。可視化技術已經非常善于將不可見的、難以直接顯示的數據映射為可感知的圖形、符號、顏色、紋理等,再結合一定的交互操作,以此還原所研究數據的全局結構和具體細節,甚至可以達到突出重點數據,增強數據減重要關系的可見性的效果[1]。
1.1數據可視化
數據可視化旨在研究如何對大規模數據信息資源進行交互的視覺呈現以增強認知,可視化技術既可以滿足使用者縱觀全局的需求,也可以提供突出細節功能;既可以展示數據的直觀內容,也有助于分析和表達數據內部所遵循的組織結構。
數據可視化由于所研究的數據對象的不同而分為兩個分支,分別是科學可視化和信息可視化。科學可視化主要面向自然科學領域和工程領域的數據。而信息可視化所處理的數據對象則是文本、社交網絡、金融交易、地圖或高維空間中的點等結構化程度極低的抽象數據。對于這些數據集合的特點而言,信息可視化技術所面臨的最大難題就是如何在呈現高維、大尺度的復雜數據時,減少視覺混淆帶來的干擾,使可視化過程能夠充分發揮輔助知識發掘、輔助信息傳達的作用,令使用者能夠驗證預期,并從冗雜的信息中發現未預期的知識[2][3]。
多維與多元數據處理,在可視化過程中是一個普遍存在的基礎性問題,也是眾多學者研究的熱點。目前解決這個問題的主要方法包括增維方法、維對應方法和降維方法。每種處理思想都衍生出了多種具體的實現技術,例如雕形圖、多維重疊、星座圖等。在降維處理過程中大都依賴于數學分析方法,常用的包括主成分分析方法、多維尺度法、神經網絡等[4]。
1.2數據可視化
對于林業信息的管理工作,目前的成果主要集中在對林業工作人員的管理和對蓄積量等經濟利益指標的管理上,真正深入挖掘林本數據的工作相對較少。而針對病害數據,完整地做到采集、整理、分析、利用各個環節的,就更少了。
目前林業科研中的可視化應用主要分為兩個方法,一方面是針對于森林、林場等宏觀概念的森林資源管理,另一方面是針對于單株樹木的生長模擬和外形建模上。在林場等宏觀層次上的可視化應用,主要還是依托于一些較為成熟的軟件,如GIS軟件和CAD軟件等,然而這些軟件都是地理信息和工程設計領域較為通用的工具,并非針對于林業領域而設計的工具,所能達到的可視化效果遠不能支持林業領域更多方面的研究工作。
林業領域積累了充足的調查數據和實驗數據,然而無論是國際上還是國內,目前對于林業數據的利用都處于探索階段,大部分的應用研究工作仍然基于集中于相對簡單的統計與空間分析功能,隱藏在調查數據中的大量信息和知識有待深入探索。因此,更充分地解決高維數據、時序性數據、多重尺度和多個來源的數據集的利用問題,必將會深刻地推動林業領域可視化應用的發展。
以云杉矮槲寄生調查數據為例,將可視化技術應用到林業領域的調查數據的分析中,能夠有效地解決云杉矮槲寄生災害防控工作所面臨的問題。
2.1系統結構設計及數據可視化流程
本系統以JavaScript為開發語言,引用了d3函數庫,將數據以電子表格的形式存儲起來,在經過數據集成和數據清理等過程去除了數據中的無用或錯誤信息后,會進入可視化算法處理階段。針對不同對象采用不同的可視化表達模式,經過顏色、位置、形狀等表達方式的設計與點選、拖拽、縮放、切換等交互方式的設計后,完成對數據的處理。系統的數據流動過程如圖1所示:


圖2 展示病害現狀模塊
2.2可視化方法設計及選擇
可視化算法的設計是一個多次循環的過程,類似于軟件開發中的迭代開發,需要在暈乎需求描述、數據梳理、編碼、用戶使用和反饋等步驟中多次循環,在試用過程中發現新的需求和靈感并應用到算法設計中去,在數據整理過程中選擇合適的映射方式,在編碼設計過程中發現更多能傳達的信息等等,最終形成較完善的算法設計。對于本系統中所實現的可視化效果,主要使用二維空間,配合部分二點五維效果。


圖3 致病因子研究模塊
2.3可視化系統的實現
本系統中主要包括兩大模塊,一是病害分布情況可視化模塊,主要用來展示當前調查數據中所包含的云杉矮槲寄生發病嚴重程度和地理位置分布狀況;二是致病因子研究可視化模塊,主要功能在于研究云杉矮槲寄生的致病因子,以便于指導防治措施的制定。
展示病害現狀的功能模塊(圖2),主要向使用者提供選擇數據源和評價方式的功能,同時提供圖例向使用者說明當前可視化方法的映射原則,以遙感衛星影像為底圖,疊加以病害調查數據為基礎的顏色渲染,顏色差別明顯,易于辨認和理解。
致病因子研究的功能模塊(圖3),針對林業調查數據屬性類型較多、維較高的特點,設計了兩部分可視化過程,第一部分為初次可視化,用來展示所有屬性類型的調查數據,以及它們之間的相互關系,二部分為再次可視化,利用主成分分析結合多元線性逐步回歸分析方法,以主成分得分為解釋變量,以分析致病的關鍵因子。
2.4實驗結果與分析
由于篇幅限制,僅列出幾條記錄樣例,如表。從病害分布特征可視化模塊得知,云杉矮槲寄生病害的發生有一定的地域性,即如果某地有云杉矮槲寄生病害發生,則其附近地域也傾向于發生嚴重程度類似的云杉矮槲寄生病害。從致病因子研究模塊結果可以看出,感病指數、發病率、平均DMR三者之間的相互都有較強的關聯性,平均胸徑與冠幅的一致性很高,郁閉度與發病率的關聯性、平均DMR與冠幅的關聯性較為明顯。當然,可視化所得到的這些規律暗示都有待進一步的確認與分析,最終結果需要取決于林業專家的意見。

表1 實驗數據
將可視化技術應用到林業領域是一條值得關注且尚未成熟的技術路線,本系統在結構設計上根據可視化結果的功能進行劃分,較為合理,在代碼開發上具有較好的可擴展性和重用性,可以為類似的工作提供一些參考。
[1]Hansen C,Johnson C.2004.The Visualization Handbook[M]. Waltham Massachusetts:Academic Press.
[2]戴國忠,陳為,洪文學,劉世霞,屈華民,袁曉如,張加萬,張康.信息可視化和可視分析:挑戰與機遇——北戴河信息可視化戰略研討會總結報告[J].中國科學,2013,43(1):178-184.
[3]Spence R.2007.Information Visualization:Design for Interaction[M]. New Jersey:Prentice Hall.
[4]楊峰,李月華.高維信息可視化方法研究綜述[J].情報理論與實踐,2012,35(9):125-128.