王子龍 陳偉杰 付 強 姜秋香 印玉明 常廣義
(東北農業大學水利與土木工程學院,哈爾濱 150030)
土壤特性與其變異性研究必須以科學的采樣策略為依托。抽樣策略的本質即尋求經濟投入與實驗精度間的優化平衡,以最小的經濟投入所換取的離散樣本集來估測連續總體集的主要信息而不失其精確性[1]。建立集代表性、準確性和經濟適用性為一體的土壤采樣設計不但有助提高工作效率,而且也是研究的關鍵。采樣設計一般建立在統計非全面調查的基礎上,根據實際工作所研究對象的性質和相關工作的目的而采用與其相適用的方法。各種采樣設計會形成各異的采樣結果,由此產生的抽樣誤差也有較大的差別[2]。相對于實驗室分析誤差而言,不科學的采樣設計帶來的誤差影響更為顯著[3]。
目前,國內外土壤采樣的常用方法主要包括簡單隨機采樣、嵌套采樣、分層采樣、系統采樣和整群采樣等方法[4-8],采樣點分布策略的研究主要集中在基于地統計學的插值模型對采樣點空間位置和采樣數目的優化[9],如李潤林等[10]和李楠等[11]基于輔助變量運用克里格法進行了采樣數目優化;VAT等[12]和韓宗偉等[13]通過模擬退火法對樣點空間布局進行了優化,但其缺陷在于不適用于初步采樣,而偏重于為多次采樣和后期監測點的布置提供參考,同時,支撐其理論的初步采樣數據,往往遵循隨機抽樣,忽略了空間相關性,在一定程度上造成了結果偏差。除傳統的插值模型外,侯建花等[14]提出了MDI空間采樣策略來提高采樣點估算精度,但沒有考慮地形和地貌的影響,其效果受到一定影響。在利用先驗知識輔助采樣方面,曾也魯等[15]提出了基于NDVI先驗知識的LAI地面采樣方法;江雨佳等[16]利用濕度與碳通量的相關性提出了一種基于輔助因子空間分布特征的小尺度空間采樣策略,在碳通量采樣設計中取得較好效果;劉京等[17]基于土壤景觀模型認為土壤景觀越相似,其所對應的土壤越相似,提出了基于樣點個體代表性的采樣制圖方法。此外,YANG等[18]和孫孝林等[19]運用基于土壤景觀模型理論的代表性等級采樣法在土壤制圖方面可得到一系列代表性較好的采樣點,但其存在如下缺陷:忽略了各協同因子對目標屬性空間分布的影響差異;在確定代表性樣本時,多協同因子的聚類會因為隸屬度閾值的選擇而導致有效信息的流失;協同因子局限于定量因子的范疇(如坡度、地形濕度指數、沿等高線曲率等)無法加入定性因子(如土地利用形式)。本文建立一種可賦權、信息傳遞完整、包容性強(可涵蓋定性、定量兩類協同因子)的基于優先級指數的土壤采樣設計方法(簡稱優先級采樣法)。
土壤景觀學[20]系統論述了土壤成因與景觀類型的必然關系,土壤景觀學模型結合空間分析成為土壤調查方法研究的主要趨勢,并在國內外相關研究中得到驗證[21-24]。優先級指數采樣法的基本思路是分析與目標土壤屬性直接相關的協同因子的空間分布,通過賦予其權重并疊加計算優先級指數,將研究區域分割成為具有各自優先級指數的區域,優先級指數越高則越能表現研究區土壤屬性變化的主要特征,而優先級指數低的點則是目標土壤屬性變化特征的細化補充,在合理采樣數的限定下,依照優先級指數從高到低選取采樣點,即可較好地平衡采樣的代表性和全局性,也可為多次采樣提供依據。
為保證土壤性質空間分布預測具有較高精度,將定量和定性因子相結合作為輔助變量,對于提高土壤性質空間分布預測精度有較好的效果[25]。協同因子選取的合理性直接影響分析結果的科學性和可靠性。因此,在已有研究的基礎上,選取與目標土壤屬性相關因子作為研究集合,通過Pearson相關性系數應用MAXTED等[26]的標準刪除冗余信息,以確保相關因子都能反映一個獨立的信息。由于定性協同因子無法通過Pearson相關性系數來與定量因子做相關性分析,在聚類處理后,可以借助信息熵的概念來評判兩者攜帶信息的獨立性。
為了綜合考慮各協同因子對目標土壤屬性空間分布的不同影響,可通過粗糙集理論予以賦權,其原理和步驟詳見文獻[27],或采用專家打分法等策略。在各協同因子中,通過聚類方法又可劃分為多個子集,其各子集所占空間決定了其在一定空間范圍內的景觀類型的主要特性,由此,以信息尺度設定的柵格為單位,可通過計算各子集所占總空間面積比與其所歸屬協同因子的權重之積,作為其對目標土壤屬性空間分布預測的貢獻值。將賦有貢獻值的各協同因子圖層作為輸入層,可疊加計算同一空間位置下柵格貢獻值之和,即得到賦有采樣優先級指數的報告層。其中,具有相同優先級指數的相鄰柵格可進一步看作一個代表性圖斑,其數值越大,即表明該圖斑覆蓋的地理空間位置越具備研究區空間范圍內的樣本特性。將該優先級指數由高到低排序,其序列的順次,即優先級別。圖層疊加原理如圖1所示。圖中,EA為協同因子子集的貢獻值;SP為優先級指數。

圖1 各協同因子圖層疊加原理圖Fig.1 Layers overlapping principle sketch of synergistic factors
采樣點布設一般遵循以下原則:①根據圖斑的優先級別設置采樣點,優先在優先級別高的圖斑內布設。②根據路網緩沖區級別設置采樣點,在具有相同優先級別的圖斑間決定取舍時,優先在具有較高級別路網緩沖區的圖斑內布設。③每個圖斑內的樣本容量可以是一個或者多個,也可以為零,根據采樣點緩沖區半徑、合理采樣數和采樣預算來決定。
路網緩沖區級別是在報告層上疊加各級路網圖,根據實際采樣需求,沿國道、省道、縣道、鄉道對應生成具有一定半徑的Ⅰ、Ⅱ、Ⅲ、Ⅳ級緩沖區。為使采樣點盡可能地分散布置,需要設定采樣點的緩沖區,以避免采樣點集聚造成局部信息冗余。設研究區面積為M,采樣點的緩沖區半徑為
(1)
式中,N為合理采樣數,可通過Cochran公式初步計算,具體算法可參照文獻[28]。
以嫩江縣土壤飽和導水率空間變異性研究的采樣方案為例,驗證基于優先級指數的土壤采樣設計方法的實用性及采樣點的代表性。
嫩江縣地處松嫩平原黑土區嫩江流域上游,隸屬黑龍江省黑河市,共轄8鎮6鄉,總面積達1.51×104km2,約占松嫩平原黑土區的1/8,如圖2所示。嫩江縣屬中溫帶半濕潤大陸季風氣候,多年平均氣溫-1.4~0.8℃,無霜期80~130 d,土壤多為壤土,速效氮質量比平均為220.7 mg/kg,速效磷質量比平均為61.9 mg/kg,速效鉀質量比平均為172.7 mg/kg,飽和導水率在3.88~86.27 cm/min之間,均值為23.15 cm/min,標準差11.27 cm/min。土壤養分豐富,保水、保肥力強,適合多種作物的生長,是重要的商品糧基地。

圖2 研究區地理位置Fig.2 Geographical location of study area
飽和導水率反映了水在土壤中流動的阻礙作用。影響飽和導水率的因素較多,目前已有諸多文獻對此進行了研究[29-34]。基于前人研究結論及先驗知識的可獲取性,本研究協同因子涵蓋有機質含量、碎石含量、粉粒含量、沙粒含量、粘粒含量、土壤容重、土地利用情況、坡度。其中,土地利用數據來源于Earth Science Data Interface (ESDI),坡度數據來源于地理空間數據云,其余數據均來源于聯合國糧農組織(FAO)和維也納國際應用系統研究所(IIASA)所構建的世界土壤數據庫(Harmonized World Soil Database version 1.1)中第2次全國土地調查南京土壤所提供的1∶1 000 000土壤數據。
由相關性分析可知(表1),沙粒與粉粒(相關系數-0.935)、粘粒(相關系數-0.791)、土壤容重(相關系數0.939)的信息重疊程度以及土壤容重與粉粒(相關系數-0.773)、粘粒(相關系數-0.926)的信息重疊度均達到了篩選標準(相關系數絕對值大于0.75),則從協同因子中剔除沙粒與土壤容重。
由土地利用方式信息熵(2.170 4)和協同因子坡度、碎石、粉粒、粘粒、有機質信息熵1.999 8、1.958 2、1.989 2、1.978 0、1.756 9得到聯合熵與K值如表2所示,可知土地利用方式與坡度、碎石、粉粒、粘粒、有機質之間相關性弱,具有極好的信息獨立性。最終,確定坡度、碎石、粉粒、粘粒、有機質及土地利用方式為協同因子。

表1 協同因子相關性分析(N=258)Tab.1 Correlation analysis between synergistic factors (N=258)
注:** 表示顯著水平為P<0.01;*表示顯著水平P<0.05。

圖3 各協同因子輸入層圖Fig.3 Input layer diagrams of synergistic factors

表2 土地利用方式與協同因子聯合熵與K值Tab.2 United entropy and K-value of land use patterns and collaborative factor
基于先驗知識的圖層柵格均為30″(緯度差)×30″(經度差),故而設定柵格大小為1 km×1 km,以此作為后續運算的基本單元。由于土壤屬性的先驗知識來源于第2次全國土地調查南京土壤所提供的1∶1 000 000土壤數據,其數據并不完全連續,因此可根據數據集中的幾個區間進行聚類。通過ArcGIS分別計算各協同因子的輸入層,如圖3所示。
由粗糙集理論可得到有機質含量、碎石體積含量、粉粒含量、粘粒含量、坡度、土地利用方式的權重分別為0.129、0.185、0.089、0.096、0.217、0.284。為探究不同權重設定對采樣方案的影響,同時考慮到該法涉及種別差異的定性因子,故而另外采用專家打分法計算權重進行對比,由收集到的20份調查問卷結果可得有機質含量、碎石體積含量、粉粒含量、粘粒含量、坡度、土地利用方式的權重分別為0.146、0.246、0.200、0.216、0.077、0.114。
將各協同因子的輸入層通過ArcGIS的柵格計算器按各自權重疊加計算即可得到對應的報告層,將優先級指數從高到低排序,依次賦予其優先級別,如圖4所示。對研究區域柵格化處理后,其柵格總量可視為樣本總量。根據所適用的不同合理采樣數計算公式,Cochran采樣數法、由樣本方差替代總體方差條件下的Cochran采樣數法、小樣本平均極差替代標準差條件下的Cochran采樣數法、小樣本均值替代總體均值條件下的Cochran采樣數法分別得合理采樣數計算結果為86、31、44、82個。其中,Cochran采樣數法與小樣本均值替代總體均值條件下的Cochran采樣數法所得的合理采樣數較為接近,綜合考慮采樣尺度和范圍的條件下,選取Cochran采樣數為最終合理采樣數。

圖4 優先級別及采樣點分布圖Fig.4 Priority and sampling points distribution
由式(1)可計算得,嫩江縣采樣點的緩沖區半徑為7.47 km,與王衛華等[35]提出的飽和導水率采用間距7.14 km較為契合。疊加嫩江縣范圍內的國道、省道、縣道和鄉道后,綜合考慮采樣所選用的交通工具及人力可及程度,自主選擇半徑生成Ⅰ、Ⅱ、Ⅲ、Ⅳ級緩沖區,并遵循前文提及的采樣原則進行布點。以基于粗糙集理論的優先級指數采樣法為例,最后得到的采樣點分布如圖4所示。
本研究采用普通克里格法作為飽和導水率空間插值算法,并通過獨立驗證以均方根誤差作為評價指標。本文在研究區范圍內隨機選取20個點作為獨立樣本。此外,該方法所需的飽和導水率均以第2次全國土地調查南京土壤所提供土壤數據為基礎由Campbell土壤轉換函數計算所得。

圖5 基于不同采樣方法的飽和導水率插值結果比較Fig.5 Comparison of saturated hydraulic conductivity interpolation between different sampling methods
本研究采用包含600個樣點的總集通過GS+7.0選擇半方差函數,將基于粗糙集理論的優先級指數采樣法、基于專家打分法的優先級指數采樣法、分層采樣法和隨機采樣法得到的點集分別作為已知數據,通過ArcGIS中的Geostatistics模塊進行克里格插值來預測獨立樣本點的數據,并與獨立樣本值作比較,如圖5所示。由結果可知,基于粗糙集理論的優先級指數采樣法、基于專家打分法的優先級指數采樣法、分層采樣法、隨機采樣法得到的預測值相對于獨立樣本而言,其均方根誤差分別為51.930、46.901、54.772、55.980 cm/min。
由表3的對應點均方根誤差均值及標準差可知,優先級指數采樣法相對于分層采樣法和隨機采樣法均最小,即優先級指數采樣法插值得到的預測值與獨立樣本值最接近。就空間分布而言,由圖6可知,優先級指數采樣法在一定程度上比分層采樣和隨機采樣更加接近樣點總集。基于粗糙集優先級采樣法與基于專家打分法在空間分布上較隨機采樣法和分層采樣法更為接近,由圖6可知,基于專家打分法得到的空間分布信息比基于粗糙集優先級采樣法得到的信息略為豐富。在表3中對應點均方根誤差的統計信息可知,基于專家采樣優先級采樣法最接近真實值,其變異系數最小,即得到的數據集最為收斂。

表3 基于不同采樣方法的獨立驗證點統計參數對比Tab.3 Comparison of statistical parameter of independent verification point based on different sampling methods

圖6 基于不同采樣方法的空間分布對比Fig.6 Comparison diagrams of spatial distribution between different sampling methods
相對于傳統采樣法而言,優先級指數采樣法能夠較好地捕捉研究區土壤信息的主要特征,在允許條件下,可以多批次增加采樣密度,滿足于靈活變更采樣計劃對研究區細部信息進行補充。目前采樣點分布策略多運用克里格插值、模擬退火法等模型進行優化,該方法需要在隨機抽樣等傳統方法為初步采樣的基礎上進行,目的更偏重于后期監控點布設,相比之下,優先級指數采樣法在協同因子可獲得的情況下,能滿足初步采樣設計和后期監測點布置的任務需求,其所花費的人力物力在一定程度上性價比更高。相對于土壤景觀理論的代表性等級采樣法,優先級指數采樣法具有可賦權、信息傳遞完整及包容性強的特點。
優先級指數采樣法旨在利用有效協同因子的情況下靈活把握研究區的整體屬性分布特征,優先級指數較高的區域對研究區整體特征的把握能力較好,而優先級指數較低的區域則更能反映局部特性的細節,隨著優先級指數從高到低依次增加采樣點,采樣精度會在一定程度上有逐步上升的過程。但由于優先級指數較低的點位對全局的代表性相對較小,在一定程度上僅能表征局部范圍的空間分布特性,若以采樣精度變化量和采樣成本變化量之比來定義采樣效益,那么樣點數隨著優先級指數從高到低依次增加,對整體采樣效益而言在一定程度上會有逐步上升達到峰值又轉而回落的過程,該峰值所對應的采樣數,在經濟效益上能夠為合理采樣數目進一步的確定提供一定程度指導。
(1)優先級指數采樣法考慮了各協同因子對目標屬性空間分布的影響差異,同時能夠容納多種定性定量因子;在確定優先級別時,不會因為聚類數的選擇而導致有效信息的流失。
(2)相比于傳統隨機采樣和分層采樣法,優先級指數采樣法能夠在一定程度上避免局部最優,能更好的反映研究區的主要信息。此外,在兼顧樣點布設均勻性和隨機性的同時,與路網相關聯能夠極大地改善實際采樣的便捷性,為采樣路線的設計提供一定的依據。
(3)協同因子的權重對優先級指數采樣法的結果在空間分布及預測的準確性上都有一定程度的影響。相比于傳統的分層采樣和隨機采樣,基于不同權重優先級指數采樣法得到的結果較為接近。