王明常,丁 文,趙競爭,吳琳琳,王鳳艷,紀 雪
吉林大學地球探測科學與技術學院,長春 130026
病蟲害是林木健康生長面臨的挑戰之一,能夠導致森林產生退化現象[1]。常見的全球森林害蟲落葉松毛蟲(Dendrolimussuperans),是一種食葉害蟲,是中國東北部森林大面積覆蓋區危害較大的害蟲之一,對長白山地區構建安全、健康的森林生態屏障產生了重大威脅[2]。落葉松毛蟲通過幼蟲攝取針葉損害松屬植被,葉片的破壞會影響光合作用和水分傳輸,從而導致營養物質的流失,這也被稱為“無煙”火災[3]。落葉松毛蟲的侵害對農業和林業生產造成了嚴重破壞,限制了林業的持續發展,對生態系統的穩定性構成威脅,導致了巨大的經濟損失[4]。對于長白山區域的落葉松毛蟲害,實施有效的識別是防治的重點。早期發現并確定蟲害發生的范圍,有助于制定相應的防治措施,減少損失,并對保護森林生態系統具有重大意義[5]。
“圖譜”是對某一學科的資料進行研究,通過系統地編輯這些資料,構建出能夠描述實物的圖形[6]。知識圖譜的概念最早可以追溯到1960年代的語義網絡,但隨著互聯網和開放鏈接數據的快速發展,Google在2012年首次提出了知識圖譜的概念[7-8]。知識圖譜是人工智能的一部分,它是一種對大量信息進行有效組織的重要手段。目前,一些知名的通用知識圖譜包括Freebase、DBpedia、Wikidata和YAGO2[9-12]。在金融、醫療、情報等領域,知識圖譜也實現了特定的行業應用。在病蟲害領域的知識圖譜研究方面,前人已經取得了部分成果:有學者[2-4]專注于研究領域本體,構建病蟲害領域的本體模型,并通過這些模型來解決實際問題;還有學者[13-14]專注于研究領域數據,在對這些數據進行分析之后,使用知識抽取技術從數據中提取實體和關系,以實現對知識的提煉;另外一些學者[14-15]采用文獻計量手段,通過關鍵詞聚類來構建知識圖譜,對病蟲害領域的研究進行了可視化展示。
傳統的林業病蟲害監測主要依靠地面樣本調查,然而,由于森林生態系統的復雜性,快速、全面地開展林業病蟲害監測存在一定的困難。近些年,遙感技術在森林受損識別中得到了廣泛應用。通過利用衛星傳感器收集到豐富的濕地植被光譜信息和紋理信息,可以更準確地揭示林地植被的特性[16]。然而,精確檢測林業病蟲害仍然存在一定困難。如今,由于機器學習能夠有效地處理大量數據,并具有自動化和智能化的優勢,許多研究人員選擇使用機器學習算法來進行精確的林業病蟲害識別。Samuli等[17]利用在芬蘭赫爾辛基4個研究區域春季和秋季收集的基于無人機的多光譜圖像,采用隨機林森模型,對兩種季節中遭受小蠹蟲侵害的樹木進行了分類。Zhang等[18]提出了一種用于選擇無人機高光譜圖像中的最佳波段的算法,并將支持向量機與邊緣保持濾波器相結合,實現了對被油松毛蟲破壞的樹冠的自動識別。
隨著遙感技術的迅猛發展,獲取多源數據變得更加便捷。由于多源數據能夠提供更加全面、準確和多樣化的信息,因此其在林業病蟲害監測領域具有很好的應用潛力。Latifi等[19]采用陸地衛星TM(thematic mapper)和SPOT(systeme probatoire d’observation de la terre)遙感數據,運用隨機森林模型,探討了中分辨率數據在分類受小蠹蟲侵害區域方面的潛力,實現了對損傷類別的空間監測。N?si等[20]研制了一種新穎的遙感系統,該系統由基于FPI(fabry-perot interferometer)的微型高光譜相機和配備RGB波段的彩色相機構成,可以獲取單個數據的三維信息和光譜數據;并且通過運用K-最近鄰(K-NN)方法對收集的數據進行分類,可識別出受到云杉樹皮甲蟲侵害的單個異常樹木。Oumar等[21]將WorldView-2的光譜波段、植被指數以及地形數據的坡度和坡向分別導入一種回歸模型,以監測和繪制南非夸祖魯豐納塔爾桉樹人工林因青銅蟲侵害所造成的損害。這些研究人員在林業病蟲害識別工作中都采用了多源數據,并強調多源數據在林業病蟲害識別領域具有巨大潛力。
面對森林生態保護與管理工作的需求,針對傳統方法無法應對森林系統的復雜性,僅依靠遙感數據無法全面、準確地利用多樣化的信息等問題,本研究使用知識圖譜來提取識別落葉松毛蟲害的特征,并與多源數據相結合,運用隨機森林模型對研究區的落葉松毛蟲害進行識別。此外,本研究選擇不同的特征組合來構建蟲害識別模型,探討最佳特征組合以實現蟲害識別。本研究的主要創新之處包括:1)構建知識圖譜以提取落葉松毛蟲害的特征;2)建立落葉松毛蟲害的遙感識別模型;3)研究不同特征組合對蟲害識別效果的影響。
如圖1所示,研究區位于中國東北部吉林省長白山國家級自然保護區中,面積約為418.04 km2。研究區為溫帶大陸性季風氣候,年降水量在700~1 400 mm之間,年平均溫度為3.54 ℃,海拔高度為828~1 633 m[22],地勢以山地和丘陵為主。長白山林區經常遭受病蟲害的侵襲,導致林業方面巨大的經濟損失,并對長白山森林生態的健康和可持續發展產生了嚴重影響。

圖1 研究區地理位置
合成孔徑雷達(synthetic aperture radar, SAR)數據所提供的地物特征信息更為豐富,可在分類過程中作為光譜數據的補充,為蟲害識別提供了更有利的輔助數據。哨兵1號(Sentinel-1A)衛星因具有較短的重訪周期、雙極化特性、快速的生產效率以及精確的衛星定位等優勢而備受矚目[23]。Sentinel-1A通常能夠實現高空間分辨率和高時間分辨率的監測。單顆衛星的最短重訪周期為12 d,其空間分辨率可達到1.73 m(距離向)×4.3 m(方位向)。研究區Sentinel-1A數據如圖2所示,干涉寬幅(IW)模式參數如表1所示。

表1 Sentinel-1A數據影像IW模式參數

a. VV數據;b. VH數據。V. 垂直;H. 水平。
哨兵二號(Sentinel-2A)衛星由歐洲航天局開發并發射,該衛星配備了一臺多波段成像儀,能夠捕捉土壤、水域、植被、沿海地區和內陸水道的圖像,同時還為應急救援提供支持。Sentinel-2A由兩顆衛星組成,分別是2A和2B。Sentinel-2A具備寬刈幅、高空間分辨率和短重訪周期等特點,該衛星系統的投入使用后,每5 d對赤道區域進行一次全面掃描,而對于高緯度的歐洲地區,只需要3 d[24]。這顆衛星距離地球786 km,配備了13個光譜波段,幅寬達到290 km,并具有3種空間分辨率,覆蓋從可見光到短波紅外的范圍,分別為10、20和60 m[25]。根據研究需求,可以在可見光(B2—B4)和近紅外(B8)波段選擇10 m的分辨率,在紅邊(B5—B7)和短波紅外(B11、B12)波段選擇20 m的分辨率[26]。在這些波段中,紅邊波段對植被狀況反應敏感,對于植被監測具有關鍵作用。Sentinel-2A是目前唯一包含3個紅邊波段的遙感數據。
地形數據對松毛蟲的地理分布和樹木生長狀況有影響,通過對各種地形數據進行統計分析,可以研究蟲害在不同地形因子上的發生規律[27]。本研究獲取了兩個研究區域30 m空間分辨率的ASTER GDEM(advanced spaceborne thermal emission and reflection radiometer global digital elevation model)數據,可用于生成高程、坡度、坡向等地形環境因子。ASTER GDEM是一種數字高程模型,具有30 m的全球空間分辨率,是高分辨率高程影像數據[28]。數據的有效性范圍介于83°N和83°S之間,涵蓋了全球陸地表面。DEM數據的預處理過程包括鑲嵌、裁剪和重采樣,處理后的DEM數據分辨率為10 m。DEM數據參數如表2所示。

表2 DEM數據參數
2.2.1 圖譜構建
1)知識圖譜原理
語義網絡在20世紀50—60年代被提出,這是知識圖譜概念的起源。20世紀70年代,知識圖譜的前身逐漸出現,例如“專家系統”“語義網”和“語義鏈接”等[29]。在數據時代,知識圖譜作為人工智能領域的一部分,是一種重要的信息組織方法。構建網絡化的知識庫是知識圖譜的基礎,其中帶有屬性的實體通過關系連接,形成一個具有有向圖結構的知識庫[30]。為了實現知識網絡的可視化,需要找到一種通過圖的形式描述知識內部關系和發展進程的技術方法。邊和節點是知識圖譜的主要組成部分,節點代表概念或實體,而邊表示概念/實體之間的語義關系[31]。目前具有代表性的開放域知識圖譜包括YAGO、BaleNet和CN-DBpedia等。這些圖譜的優點在于語義豐富、質量高、規模大且結構友好。基于知識圖譜的輔助分析和決策支持功能,通過知識推理實現目標專業領域知識的掌握,從而實現這些功能。
2)構建知識圖譜的數據源
構建森林蟲害遙感識別特征知識圖譜的數據主要來源于國內外相關文獻。中文文獻主要來自知網(https://www.cnki.net)數據庫,英文文獻主要來自web of science(http://webofscience.com)數據庫平臺,這些數據均為非結構化數據。在知網上,以“蟲害監測”和“蟲害識別”為關鍵詞搜索,共找到58篇關于森林蟲害遙感識別的文章,本研究共使用42篇。在web of science上,以“monitoring of forest insect”為關鍵詞搜索到4 853條結果,以“recognition of forest insect”為關鍵詞搜索到693條結果,本研究篩選出符合要求的英文文獻62篇。以上104篇文獻構成了本研究數據源。
3)圖譜構建流程
依據所獲得的國內外文獻,運用知識圖譜相關技術和理論構建森林蟲害遙感識別特征圖譜的設計思路如圖3所示。圖譜在邏輯上分為數據層和概念模式層。數據層是概念模式層的映射,也稱為實例表達,通過知識收集、抽取、融合與存儲最終構建數據層。概念模式層是知識圖譜的基礎,通過構建本體對概念模式層進行存儲和表達。

圖3 知識圖譜構建流程
本文通過對數據庫中與蟲害識別相關的國內外研究文獻進行收集和整合,再根據文獻研究內容設計概念模式層。在該層次中,首先抽取了“地區”“蟲害”“識別特征”“特征類別”等實體知識,以及“發生”“使用”和“包含于”等關系知識;接著將抽取的實體、關系和屬性進行進一步融合和整理;最終將其存儲在圖數據庫中,并對森林蟲害遙感識別特征圖譜進行可視化,借助知識圖譜的檢索功能,實現特征篩選。
2.2.2 特征選擇
針對光譜數據的應用,本研究選取了Sentinel-2A多光譜遙感數據。構建基于Sentinel-2A的蟲害識別模型,需要借助Sentinel-2A影像獲取由知識圖譜篩選出的特征,包括8個光譜波段、16個光譜指數特征(表3)和8個紋理特征(表4)。此外,還選取了地形特征(表5)。在Sentinel-2A進行數據預處理時,已經將B5、B6、B7、B8波段重采樣至10 m分辨率,并對分辨率相同的波段進行了重新組合。鑒于8個波段數量較多,統計紋理特征會產生大量數據,因此本文首先對Sentinel-2A的8個波段進行主成分分析,然后提取紋理特征。根據主成分分析結果,前兩個主成分占據了重新組合的Sentinel-2A影像8個波段信息的98.95%;因此,選擇第一和第二主成分進行紋理分析。通過灰度共生矩陣法分別獲取兩個影像的8種紋理特征,移動窗口大小為5×5,差分值為(1,1),灰度量化級為64。

表3 光譜指數特征描述

表5 地形特征描述
2.3.1 模型構建
1)隨機森林算法原理
隨機森林(random forest, RF)是一種當前較為流行的機器學習方法,主要通過集成多個決策樹對樣本進行分類[32],其原理如圖4所示。RF因其學習過程具有靈活性高、速度快、分類精度高且不易過擬合的優點,被廣泛應用于圖像分析、信息提取等領域。RF算法屬于Bagging算法,是集成算法的一種,決策樹是RF的基本單元。根據Bagging算法的特性,多個決策樹之間相互獨立[33]。分類結果的數量由決策樹的數量決定,通過投票機制確定最終的分類結果。通過目視識別方式選取2 400個像元作為訓練樣本數據,包括受災區1 200個、健康林1 000個及其他區200個。

圖4 隨機森林原理圖
2)不同特征組合的落葉松毛蟲害識別模型
本研究通過結合不同數據源對長白山落葉松毛蟲害進行識別。選擇Sentinel-2A多光譜遙感數據,結合由知識圖譜篩選出的Sentinel-2A光譜指數特征、波段特征和紋理特征構建模型一;選擇Sentinel-2A光譜指數特征、波段特征和Sentinel-1A紋理特征(VV和VH極化數據)構建模型二;綜合使用Sentinel-1A、Sentinel-2A和地形數據,即在模型二的基礎上增加了地形特征,構建模型三。通過構建3種不同模型,分析了在識別落葉松毛蟲害時,單一數據源和多源數據綜合使用對蟲害識別精度的影響。圖5為構建模型三的流程圖,模型三的數據輸入比模型一多了Sentinel-1A雷達數據和地形數據,比模型二多了地形數據。

圖5 基于Sentinel-2A、Sentinel-1A和地形數據的落葉松毛蟲害識別模型
2.3.2 精度評價
研究采用總體精度和Kappa系數來評估精度。總體精度是正確分類的準確性;Kappa系數用于驗證預測土地覆蓋分類與地面真相之間的一致性??傮w精度和Kappa系數的取值范圍是0~1,值越大,分類的效果越好。計算公式如下:
(1)
(2)
(3)
式中:κ為Kappa系數;Po為總體精度,為正確分類的像素在整個圖像所有像素中的占比;n為類的數量;Pii為預測每個類的正確像素數;N為總像素數;Nip為預測為i類的所有類的像素總數;Nit為所有i類的像素總數。
利用知識圖譜作為先驗知識,挖掘前人在特定區域和特定森林蟲害研究中的經驗遙感特征。首先, 針對森林蟲害監測任務,融入森林蟲害識別相關知識,并通過地理學知識來豐富與森林蟲害識別相關的認知。然后,進行特征篩選,以我國東北地區的落葉松毛蟲害為例,確立長白山落葉松毛蟲害的特征;依據包含關系判斷識別特征所屬的特征類別,完成知識圖譜選擇特征的目標。最后,在知識圖譜中根據空間對象的語義特征篩選出識別特征,可以評估我國東北地區落葉松毛蟲害識別特征的研究狀況。圖6展示了我國東北地區落葉松毛蟲害知識圖譜的提取結果。

EVI1. 增強型植被指數1;EVI2. 增強型植被指數2;PSSR. 顏料特定的簡單比率;CRI2. 改進型類胡蘿卜素反射指數;ARI2. 改進型花青素反射指數;RVI. 比值植被指數。
在相同的檢驗樣本下,評估研究區3種落葉松毛蟲害識別模型的識別結果分類精度。研究區的檢驗樣本包括受災林300個像元、健康林250個像元及其他區域50個像元。各模型的分類精度如表6所示。

表6 研究區3種落葉松毛蟲害識別模型精度對比
圖7展示了落葉松毛蟲害模型識別結果??梢园l現,3種模型在識別落葉松毛蟲害發生的大致區域方面表現存在一定差異。

a. 模型一;b. 模型二;c. 模型三。
模型一的識別效果產生了部分噪聲,導致誤分類現象的產生;僅基于Sentinel-2A數據的遙感識別模型還存在云遮擋的問題,這也會導致識別精度的降低,不能夠很好地區分健康林和受災林(圖7a)。由表6可知,模型一總體精度為88.39%,Kappa系數為0.802 2,在精度上遠低于模型二、模型三的模型識別精度。
模型二比模型一更好地區分了健康林和受災林; Sentinel-1A雷達數據可以不受云雨等復雜天氣的影像,補充了僅基于Sentinel-2A數據的不足,對識別整體效果產生了積極作用(圖7b)。由表6可知,模型二的總體精度為91.70%,Kappa系數為0.859 0,在精度上較模型一有較明顯的提升。
模型三的識別效果較模型一、模型二都好,說明多源數據能夠對僅基于Sentinel-2A數據產生的錯誤識別現象起到抑制作用;模型三還利用了地形數據,其識別效果較模型二也有所改善(圖7c)。由表6可知:模型三的總體精度為92.78%,Kappa系數為0.876 6;較模型二總體精度提升了1.08%,Kappa系數提升了0.017 6。這表明地形數據對模型的識別效果起到正面作用。
在不同數據集下,知識圖譜提取的特征都展示出了較高的穩定性。利用知識圖譜技術,可以迅速地將不同研究區域的落葉松毛蟲害特征進行提取,應用于不同地區的落葉松毛蟲害識別。本研究將知識圖譜技術應用于林業病蟲害的識別,能夠有效地從知識中挖掘松毛蟲的特征,并提取適用于研究區域的特征,通過構建落葉松毛蟲害知識圖譜,進行落葉松毛蟲害特征的篩選,并將這些特征作為識別長白山地區落葉松毛蟲害的關鍵要素。在將知識圖譜技術提取的特征與多光譜數據、雷達數據結合的過程中,發現落葉松毛蟲害的遙感識別效果明顯改善,精度明顯提升。這意味著生態和害蟲信息對于提升識別精度具有顯著作用。知識圖譜中包含了豐富的生態和生物信息數據,可以提高識別和定位落葉松毛蟲害的準確性。這一結論突顯了知識圖譜在生態系統觀測和害蟲防治方面的潛在作用。
本研究旨在探討知識圖譜與遙感技術融合在蟲害識別任務中的表現,以及多源數據融合對落葉松毛蟲害識別精度的提升作用。遙感數據通過知識圖譜獲得了豐富的語義信息和上下文背景,從而有助于更準確地識別和劃分地物。遙感技術通過獲取高分辨率和廣泛覆蓋的數據,為知識圖譜的建立和保持提供了重要幫助。這種綜合應用在各種地理環境和地物類型中都得到了證實,展示了其通用性和適用性。本研究發現,知識圖譜與遙感技術之間有相互補充作用。知識圖譜為地物提供了語義信息和關聯知識,有助于彌補遙感數據的一些不足,例如數據不完整和噪聲問題等。遙感技術以其高分辨率和實時性為知識圖譜的不斷更新和保持提供了強大助力。因此,這種相互補充的關系使得知識圖譜與遙感技術的融合具有更大的優勢,能夠更全面地揭示地物的特性和變化。
綜合運用多源數據來識別病蟲害的效果優于僅使用單一數據源,多源數據能夠彌補單一數據源的不足。由表6可知,綜合使用多源遙感數據顯著提升了識別落葉松毛蟲害的精確度。本研究中,采用了多種遙感數據,如衛星信息和航空影像等。總體而言,在識別落葉松毛蟲害信息方面,多源遙感數據的綜合利用展現出了巨大的可能性。進一步的研究和開發可以使多源遙感數據的利用更加高效。
1)通過整理大量文獻,構建了知識圖譜,實現了對森林蟲害信息與特征識別信息的可視化整合。該研究能夠獲取不同地區各類森林蟲害的遙感識別特征,并為尚未開展研究的地區或蟲害提供了參考。
2)結合知識圖譜與遙感技術,將知識驅動轉換為數據驅動,為構建蟲害識別模型提供了有效的特征。
3)經對比分析,發現基于Sentinel-1A、Sentinel-2A和地形數據結合的落葉松毛蟲害遙感識別模型表現最好,總體準確率達到了92.78%,Kappa系數為0.876 6。