藍學 韋緒 覃德文
摘 要:隨著大數據時代的來臨,生態林業、森林培育、森林經營等方面的應用,基于森林資源云計算的數據處理與應用模式,通過數據的整合共享,交叉復用,形成的智力資源和知識服務能力。基于大數據發展動態,大數據的性質和趨勢、林業部門的大數據應用三個方面,對大數據、云計算、物聯網等進行系統講解,深入分析當前信息化前沿技術的發展現狀與趨勢,結合生態林業民生林業的建設目標,闡述如何利用大數據為林業現代化服務。
關鍵詞:大數據;生態林業;民生林業;林業現代化服務
中圖分類號:F124.5 文獻標志碼:A 文章編號:1673-291X(2015)06-0055-02
大數據的興起(作者是英國《經濟學家》雜志數據編輯肯尼思·內爾·丘基爾、牛津大學互聯網研究院互聯網管理與法規教授維克托·梅耶—舍恩伯洛)[1]。近二年,大數據運用于生態林業風頭正勁,一時之間成為生態林業熱門主題。什么是大數據生態林業目前還沒有統一的定義。但是不能否認的是,互聯網和移動互聯網使得數據量陡然變大了很多,而云帶來的計算能力的變革,使得處理這些大數據成為一種可能,也使得云計算有了新的實用價值,還有更大的市場等著林業工作者去發現。
一、大數據的意義與內涵
每個人都知道互聯網改變了企業經營、政府運作以及人們生活的方式。但是一種新的、不那么明顯的技術趨勢卻有著同樣巨大的變革能力,那就是“大數據”(BigData)。大數據的趨勢發端于下面這個事實:如今到處傳播的信息比以往任何時候都多出了許多,而且這一趨勢正在應用于非同尋常的新用途。大數據與互聯網截然不同,雖然互聯網使數據的收集和共享方便了很多。大數據的意義并不僅僅是通信:其本質是我們可以從大量的信息中學習到從較少量的信息中無法獲取的東西。
二、國內外發展動態
在公元前3世紀,亞歷山大圖書館被認為收藏了全部的人類知識。而如果把今天全世界的信息平分給每一個活著的人,那么每個人擁有的信息量將足足超過當年亞歷山大圖書館全部藏書的320倍。如果把所有這些信息刻到光盤上并且分5摞疊起來的話,那么這些光盤可以一直堆到月球。而大數據的特征是它能夠用數據來表現世界的眾多層面,而這些層面以往從來都沒有被量化過—這種特征可以被稱為“數據化”[2]。
在國內,第七次全國森林資源清查暴露的問題也令人警惕——清查五年間隔期內,林地轉為非林地的面積數字有所上升,形勢十分嚴峻,但這些逆轉的林地主要發生在哪些地區?數據之大、復雜性是林業各個崗位上難以完成的嚴峻工作。但《全國林地保護利用規劃綱要(2010—2020年)》提出了大數據分析應用于林業生態統計,是林業有史以來可及時動態監測、及時決策的最全面、最細致、最先進的一項措施。大數據統計了全國林地,歸類成為了一張簡單的分布地圖,是高分辨率的遙感影像,全國林地落界數據、二類調查資料,基礎地理信息等多源數據集合,以林地界線為核心內容,構建的全國統一的林地資源管理系統[2]。為國家林業局各業務司局提供數據支撐服務,將推進在森林經營、工程建設、森林防火等業務上的應用提供了便利。
三、林業運用上的特點
大數據分析要求林業工作人員在三個方面徹底改變對數據的態度:第一是收集和使用大量數據,而不是像統計學家們在過去一百多年里所做的那樣,只滿足于少量的數據或樣本。第二是拋棄林業工作者對有條理和純凈的數據的偏愛,轉而接受雜亂無章——在越來越多的情形下,少許的不精確是可以容忍的。第三,在許多場合,我們需要放棄對事情原委的追究,而代之以對相關性的接納。利用大數據,而不是試圖弄懂發動機拋錨或藥物副作用消失的確切原因,研究人員可以收集和分析大量有關此類事件的信息及一切相關素材,找出可能有助于預測未來事件發生的規律。大數據有助于回答是什么、而不是為什么的問題——通常有這樣的回答就足夠了。
中國林業大數據處理需要建立完整的數據庫整合和新建了林業政策法規庫、歷年統計數據庫、林業年鑒庫、林業發展報告庫、自然資源和地理空間庫、林業檔案庫等多個專題數據庫,內容豐富,查詢便捷,是信息化服務林業的又一重要成果。中國林業數字圖書館依托國家林業局內外網平臺建設,將為林業行業提供豐富的圖書、期刊、論文等信息資源,為林業職工和廣大公眾提供更好的服務。國家衛星林業遙感數據應用平臺作為林業行業提供遙感基礎數據、數據處理平臺、數據產品發布平臺將大幅提高林業遙感應用水平。林業綜合辦公系統群將把國家林業局機關和直屬單位納入統一的辦公平臺中,真正實現辦公一體化。豐富了林業數據云的內容,增強了林業信息服務能力,將促進林業發展更上一層樓。
四、大數據分析在林業應用上存在的問題
生態林業數據資源和時間、空間資源有很大的不同。如何對林業資源變更數據帶來便利,但是數據卻不是這樣,并不是給你越多的數據對數據統計分析將會增加復雜系數。目前來看,越來越多的大數據分析會給林業生態資源的統計帶來越來越大的麻煩。因此我們必須找到一個解決這個問題的辦法,一種是統計學的方式,另外一種是計算的方式。統計學方式可能更微妙,所以林業工作者更需要正視大數據分析造成的弊端。
1.現在問題就是我們需要指數級的列和行增長的組合方式,隨著行數和列數的線性增長,我們考慮的數據就會呈指數倍的增加。我們來舉一個生態林業方面的案例,把列設想成人工林的信息—1是人工林,0是天然林;但是有一些列所描述的情況能夠很好地預測人工林的發生。假設如果東北平原地區分布,地勢平坦,光照充足,雨水充沛,適合進行人工林種植。如果在青藏高原等地區,由于地勢較高,天氣溫度變動較大,且林地土地瘠薄,適合進行人工林的種植。這當然是個假設。任何指令集里面都需要看這些數據,進行論證,找到有意義的模式。但當數據變得越來越大,找到有意義的模式和信息變得越來越難。所以,大數據并不是非常好的事情,并不是有更多的數據就會獲得更多的知識。大數據其實才是最大的麻煩。現在來看數據越來越難轉變成知識,如果我們想要獲得真正有意義的東西,我們需要采取一些行動。我們生態學家、林學家非常擔心:如何區分各個物種間的DNA數據,如何高效對DNA數據進行歸類[3]。統計學上的程序和算法,必須運行在計算機上。大的數據會花更多的時間運行,使我們不能快速地做決策了。真正有大問題的時候,我們不知道如何解決和運行統計的程序,做出快速的決策,因此我們發現了第二個解決方案。第一個是統計學上,第二個是計算方面。
2.第二個就是計算方面,算法需要時間運行,還要登錄、輸出等,需要幾秒鐘的決策,比如在線的拍賣需要幾秒鐘做決策,我們還需要給予一些林地種類、生長情況的數據,比如說統計馬尾松蓄積量的輸出的算法。當數據變多,這種方法可能會完成不了,或者是需要很多的運行時間,這是我們要怎么做?要把舍棄掉四旁樹和零散種植樹種。還是舍棄會造成怎樣的誤差。能使我的林業資源數據庫空間增加,如果我不斷地刪除原始的數據,更新林業資源動態數據。我應當讓數據運行慢一些,但是這樣就會使處理的時間過長。我們面臨很大的問題,我們將樹木生長時間時間、物種分布空間與數據、不斷增長的數據規模結合在一起,如果沒有很好地處理這些大數據的擴展算法。這確實是一個存在的問題,我認為這個問題是根本且基礎的。
五、大數據分析在林業上應用的措施
林業資源大數據分析的理論核心就是數據挖掘算法,各種林業資源數據挖掘的算法基于不同的物種數據類型和格式才能更加科學地呈現出數據本身具備的特點,也正是因為林業資源變更數據被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,才能體現大數據分析的便利。首先,大數據林業內涵與重要意義,包括大數據林業內涵特征、產生背景、關系分析、關鍵技術、新觀念分析;第二部分是大數據林業總體發展思路,包括大數據林業戰略定位、基本思路、基本原則、建設目標、總體架構;第三部分是大數據林業的主要任務與重點工程,包括加快建設大數據林業立體感知體系、大力提升智大數據林業管理協同水平、有效構建大數據林業生態價值體系、全面完善大數據林業民生服務體系、大力構建大數據林業標準及綜合管理體系;第四部分是大數據林業推進策略,包括大數據林業推進路線圖、保障措施。
數據化是大數據的基礎。在生態林業資源動態變化中,數字化和數據化大相徑庭。“數字化”指的是將生態林業資源變動中產生的信息、森林演替所產生的資源或環境變化的軌跡轉換成電子數據存入數據庫的過程;而“數據化”則是指在數字化的基礎上,利用數據來對森林變更進行描述,使之能同時被人和計算機所理解的結果[4]。生態林業資源信息大量數據來自于不同來源、數量龐大的結構化與非結構化數據群,大部分都不能直接用于預測和分析。而通過對數據有效的組織,能將大量來自不同源的異構數據量化組合,形成森林資源據化、森林類別數據化、生態資源使用量的數據化、森林屬性數據化等在信息化服務中管理者比較關心的數據化形式。數據化是將數據從無序到有序的加工階段,數據化的最終成果是將森林數據對象屬性量化,構建數據挖掘和服務的基本對象,簡化數據分析和利用過程。
六、展望大數據分析的應用
大數據是一種資源和一種工具。它的目的是告知,而不是解釋;它意在促進理解,但仍然會導致誤解——關鍵在于人們對它的掌握程度。我們必須以一種不僅欣賞其力量,而且承認其局限的態度來接納這種技術。大數據林業就是在數字林業的基礎上,全面應用云計算、物聯網、移動互聯、大數據等新一代信息技術,使林業實現智慧感知、智慧管理、智慧服務。通過大數據林業建設,形成信息基礎條件國際領先、生態管理與民生服務質量明顯提高、林業產業結構與創新能力優化發展的現代化模式。
參考文獻:
[1] 維克托·邁爾·舍恩伯格.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[2] 郭建斌,秦向華,萬志紅,等.大數據時代林業科普信息化發展研究[J].經濟師,2014,(9):40-41.
[3] 覃德文,云朝光,秦武明,等.PCR技術發展狀況研究[J].林業實用技術,2013,(6):6-8.
[4] 盧庸,覃德文,韋中綿,等.麻櫟人工林經濟效益分析[J].南方農業學報,2014,(7).
[責任編輯 劉嬌嬌]