唐宗,周悟,楊顥,謝曉瑜,胡月明*
1. 華南農業大學資源環境學院,廣東 廣州 510642;2. 廣東省土地利用與整治重點實驗室,廣東 廣州 510642;3. 廣東省土地信息工程技術研究中心,廣東 廣州 510642;4. 自然資源部建設用地再開發重點實驗室,廣東 廣州 510642
耕地與人類的生活息息相關,是農作物賴以生存的土地,直接決定了糧食的產量、質量和農業生產的可持續性(毛雪等,2019)。中國耕地質量問題日益突出,一方面,隨著進入城市化、工業化和全球化快速發展的新階段,大量耕地被占用、非農化和非糧化利用,中國1.2億公頃耕地“安全底線”面臨嚴峻考驗;另一方面,工業廢氣廢水排放、農業面源污染等加劇了耕地環境的惡化,導致土壤退化,作物生產能力下降,威脅糧食安全,并影響生物多樣性(German et al.,2017)。在耕地數量和質量不斷下降的背景下,積極開展耕地質量評價研究,成為中國未來耕地保護和糧食增產的優先選擇和關鍵途徑之一。
在耕地質量評價工作中,根據所選指標和分析目標的不同,評價方法也不盡相同,據目前研究來看,主要可以分為3種,第一種方法是基于樣本信息,主要包括特爾菲法(明亮,2016)、經驗判斷指數和法(彭一平等,2019)、層次分析法(明亮,2016;汪雨琴等,2017)、灰色關聯度分析法(葉青等,2008)、模糊評價法(蘭民均等,2015)等,國土資源部開展農用地分等工作多采用這種方法,但是這種方法在對評價指標權重設定上以及相關信息的取舍上需要依靠專家經驗來確定,主觀性較強,影響評價結果準確性(林子聰等,2020)。第二種方法主要是利用GIS空間分析和RS快速監測技術,GIS為標準化耕地數據的銜接、時空分析提供了基礎,RS技術用于耕地質量評價,能不斷提供地表信息,對耕地進行動態監測,但第二種方法評價步驟較為繁瑣,數據處理工作量大,人工成本高。第三種是利用數據挖掘技術,從數據挖掘的角度來看,耕地評價實質上屬于分類預測問題,如應用關聯規則(楊敬鋒等,2008)、決策樹模型(張孟容等,2016)、遺傳算法、神經網絡模型(吳利等,2019;葉云等,2018)等對耕地質量進行等級劃分,這些方法在處理耕地質量各種指標綜合作用的非線性關系時具有良好的適用性,其避免了設置指標權重,人為因素影響較小(葉云等,2018),借助于計算機技術的迅猛發展,擁有良好的評價效率。因此,探索基于數據挖掘技術的耕地質量評價方法已成為當前研究的熱點。其中,Logistic回歸模型是數據挖掘的一項重要技術,也是解決分類問題的常用方法。
在地學研究領域,對Logistic回歸模型的研究多集中于利用二元Logistic回歸模型的良好適用性(自變量可以是定性數據或是定量數據),進行土地利用變化模擬(周晨晴等,2018;林曉丹等,2017;田義超等,2019),對于多分類Logistic回歸模型在耕地質量評價工作中的應用研究還少有報道。該模型同樣適用于多個自變量與一個類別變量的非線性問題處理,通過對一組自變量和一個類別變量進行回歸分析確定該類別變量發生的概率大小,該模型的計算量僅和變量特征的數目相關,因此較于其他數據挖掘模型有易于實現、訓練高效等特點,在社會學(梁琪等,2014)和醫學(劉立忠等,2017)等領域廣泛應用。然而耕地質量系統是一個自然、經濟、生態等因素相互作用相互影響的巨系統,各指標間并不是相互獨立的,當某一指標(如耕地土壤pH值)對耕地質量的影響因第二個指標(如地形坡度)的不同而不同時,指標間就存在交互效應。目前大多數耕地質量評價方法中指標的選取都基于指標之間的獨立性原則,未能考慮到耕地質量指標間的交互效應。因此,本文以從化區耕地為研究對象,在使用Logistic回歸模型預測耕地質量等別時,考慮指標間的交互效應,將指標與指標間的交互效應同時納入Logistic回歸模型,對耕地質量進行評價,旨在解決現行耕地評價方法中受人為主觀影響因素大的問題,探尋一種準確、高效的耕地質量評價方法。
從化區位于廣東省中部(圖 1),珠江三角洲北緣,是廣州市最北部的一個市轄區,全區總面積1974.5 km2。其經緯度為 113°17′—114°04′E,23°22′—23°56′N。東與增城區、惠州市龍門縣接壤,南與廣州郊區白云區、黃浦區毗鄰,西面和廣州市花都區、清遠市接壤,北面與清遠市佛岡縣、韶關市新豐縣相連,以珍稀溫泉聞名于世,素有“中國溫泉之都”的美譽。該區地勢自北向南傾斜,東北高,西南地,地形呈階梯狀,東北部以山地、丘陵為主,中南部以丘陵、谷地為主,西部以丘陵、臺地為主。轄區有耕地1.36萬公頃,主要利用方式為水田、水澆地和旱地。
1.2.1 數據來源
本文采用 2015年廣州市耕地質量評價指標數據庫,數據主要來源于國民經濟統計數據、第二次全國土壤調查數據以及實地測量結果。其中,廣州市耕地質量評價指標數據庫記錄了包括從化區在內的廣州市 11個下轄區耕地的地形狀況、土壤條件、水資源狀況、農田基礎設施條件,包括耕地利用類型、地形坡度、田面坡度、地下水位、有效土層厚度、表層土壤質地、剖面構型、土壤有機質含量、土壤酸堿度、地表巖石露頭、障礙層距地表深度、鹽漬化程度、灌溉保證率、排水條件 14個指標,數據綜合體現了廣州市耕地質量現狀及其影響因素的實際情況,是保證廣州市耕地質量評價研究順利開展工作的基礎。本研究以從化區 2015年耕地質量評價數據庫劃定的 16664個耕地圖斑為評價單元。

圖1 從化區地理位置Fig. 1 Geographical location map of Conghua District
1.2.2 樣本選取
為保證數據挖掘的樣本數據具有代表性,采用分層抽樣法,依據數據庫內用因素法劃定的耕地質量等別在從化區依比例隨機選取不同等級的耕地作為樣本,同時考慮樣本屬性,總共選取6000個訓練樣本,訓練樣本用于交互效應的發現與Logistic回歸模型的構建,測試樣本采用全部的耕地評價單元,即16664個評價單元。
為方便對數據進行交互效應Logistic回歸建模,首先進行評價指標分級量化,對從化區耕地質量評價數據庫中的數據進行分級。該數據庫中所采用的指標大部分來源于《農用地質量分等規程 GBT 28407—2012》(以下簡稱規程)中的指標體系,其中包括有效土層厚度、表層土壤質地、剖面構型、鹽漬化程度、土壤有機質含量、土壤pH值、障礙層距地表深度、排水條件、地形坡度、灌溉保證率和地表巖石露土,其因子級別臨界值和等級劃分標準參考規程。地下水位與田面坡度為區域性指標,其標準劃分參考《廣東省縣級耕地質量等別更新評價技術規范》(以下簡稱規范)(2012)。一般來說,耕地利用類型不影響耕地質量,因此將其作為一個分類變量,不進行分級。部分指標的說明如下:
地表巖石露土:是指基巖出露地面之間的間距,規程根據露頭之間的間距來進行等級劃分,其間距越高表明對耕作的干擾程度越低,規程將其分為3個等別。
鹽漬化程度:該指標一般根據土壤中易溶鹽的鹽分含量和其與作物生長的關系劃分,1級表示土壤無鹽化,作物沒有因為鹽漬化引起缺苗斷壟現象,表層土壤鹽含量根據土壤易溶鹽類型分別為蘇打、氯化物、硫酸鹽,標準分別為:小于0.1%、小于0.2%、小于0.3%。其他等級規程依照其含量劃分為輕度鹽化、中度鹽化和重度鹽化。
障礙層距地表深度:土壤障礙層指在耕層以下出現的阻礙根系伸展或影響水分滲透的層次,其距地表距離越遠,則對耕作影響越小,規程根據其距地表的距離分為3個等別。
灌溉保證率:指預期灌溉用水量在多年灌溉中能得到充分滿足的年數出現的幾率。規程將其分為4個等級,1級表示可隨時灌溉的耕地,2級為在關鍵需水生長季節有灌溉保證的耕地,3級表示有灌溉系統,但在大旱年不能保證灌溉的耕地,4級屬于無灌溉條件的耕地,為惡劣范圍。
排水條件:耕地受地形、排水體系兩者共同影響下地表積水狀況,很多農作物在雨水充足時也會減產甚至絕收,因此該項指標也很重要。依據規程劃分為4個級別,一級表示有健全的干、支、斗、農排水溝道,無洪澇災害;2級表示豐水年暴雨后有短期洪澇發生(田面積水1—2 d);3級表示豐水年大雨后有洪澇發生(田面積水2—3 d);4級表示一般年份在大雨后發生洪澇(田面積水≥3 d)。
地下水位:是指地下含水層中水面的高程,該項指標是一個正向指標。依據規范劃分為3個等別,1級屬于優質水位,2級屬于及格水位,3級屬于危險水位。
其余指標等級劃分情況如表1所示。
2.2.1 交互效應的定義
目前學術界對交互效應有多種定義方法,使用最廣泛的一種方法是將交互效應置于因變量、自變量和調節變量(Moderator variable)的框架中進行討論(Lewis et al.,2014)。其中,因變量是結果變量,由自變量決定或者受到自變量的影響。自變量被認為是因變量的原因,當自變量對因變量的影響因為第三個變量的取值不同而不同時(第三個變量稱之為“調節變量”),認為兩者間存在交互效應。
2.2.2 尋找交互效應
Logistic回歸中的交互效應分析一般采用多層次完全(Hierarchically Well-Formulated,HWF)模型,該模型包含了最高階交互項的所有低階組成部分(Kleinbaum,2011)。例如,我們要研究X和Z兩個自變量的交互效應,多層次完全模型就包含了X、Z和XZ。如果X包含虛擬變量X1和X2,那么多層次完全模型就包括了X1、X2、X1Z、X2Z。由此可見,耕地質量影響因素包含15項指標,隨著主要效應的增長,此時若利用常規的多層次完全模型,最后將得到包含 15個主效應以及所有階數交互效應在內的32767個變量,這不僅加大了計算機的運算量,而且得出的Logistic回歸結果無法進行判讀和解釋,因此,利用多層次完全模型無法分析耕地質量的交互效應。
Changpetch et al.(2013)提出利用數據挖掘中的關聯規則分析幫助從大量可能性中選擇變量之間潛在交互效應的方法,其對 MONK數據集的驗證表明關聯規則能有效發現主效應間的潛在交互效應,將關聯規則應用到耕地評價中,可有效提高耕地評價知識的可解釋性(楊敬鋒等,2008)。因此,本研究采用關聯規則方法挖掘耕地質量影響因素間的潛在交互效應。

表1 從化區耕地質量評價因子級別指標值Table 1 Grade index value of cultivated land quality evaluation factors in Guangzhou
關聯規則分析中,參數的閾值對于關聯規則結果尤為重要。由于影響耕地質量的變量較多,須通過不斷調整參數,即關聯規則的最小支持度和置信度來獲取滿意的挖掘結果(Pradhan et al.,2017)。關聯規則是形如X→Y的蘊含式,其反映X中的項目出現時,Y中的項目也跟著出現的規律。支持度(support)指的是同時包含X和Y的事務集數與所有事務集數之比;置信度是包含X和Y的事務集數與所有包含X的事務集數之比,其反映了包含X的事務中,出現Y的條件概率。
通過對數據進行統計分析發現,從化區耕地鹽漬化程度、地表巖石露土度均為等級 1,障礙層距地表深度為等級3,因此不將這3個影響因素納入分析。本研究中,將耕地質量等別(Y)作為后項,各項評價指標作為前項,通過MATLAB實現FP-G(Frequent Pattern-Growth)算法挖掘關聯規則,該算法通過構造一個樹結構來壓縮數據記錄,使得挖掘關聯關系只需要掃描兩次數據記錄,且不需要生成候選集合,對于屬性較多的耕地質量數據較于以往的關聯規則算法有更高的處理效率,由于該算法已十分成熟,讀者可參考相關文獻(邱小倩等,2020;Lin et al.,2011),此處不再贅述。本研究以最小置信度為 95%時,逐漸降低最小支持度并觀察其結果。結果發現當最小支持度分別設置為0.05、0.03、0.01時,挖掘出關聯規則數分別為8、35、78條,涉及到的交互效應個數分別為6、32、75個。由于文章篇幅有限,僅列出在最小支持度為0.05的情況下,挖掘出的8條關聯規則,如表2所示。
根據強關聯規則表,第1、3條規則表示表層土壤質地、土壤酸堿度與耕地質量存在強關聯關系,提示表層土壤質地與土壤酸堿度之間可能存在某些潛在交互效應,同理,第4、8條規則分別提示耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度之間可能存在某些交互效應,與檀滿枝等(2007)基于信息熵原理得出的土壤酸堿度影響因素的結論類似,因而針對這3項交互效應,分別將表層土壤質地、耕地利用方式、有效土層厚度作為調整變量。第2、6條規則提示地形坡度與土壤有機質含量之間可能存在某些潛在交互效應,與周一鵬等(2019)對土壤有機質空間變異性及其驅動因素間交互效應的研究結論類似,因此將地形坡度作為該交互效應的調整變量。第5條規則提示耕地排水條件與灌溉保證率之間可能存在潛在交互效應,通過對廣州市耕地實地走訪調查發現,從化區耕地的灌溉系統與排水系統是密切配合的,在布置灌渠時,就同時布置了排水系統,因此將灌溉保證率作為該交互效應的調整變量。此外,第7條規則提示,表層土壤質地、土壤酸堿度、地形坡度三者之間存在三階交互效應,將表層土壤質地與地形坡度作為該三階交互的調整變量。

表2 耕地質量影響因素的強關聯規則Table 2 Strong association rules of influencing factors of cultivated land quality
2.2.3 交互效應Logistic評價模型
耕地質量等別是一個多分類變量,耕地質量評價的目的就是依據耕地質量的好壞進行有序分類。因此研究采用有序多分類 Logistic回歸模型對耕地質量進行評價。
對于有序多分類Logistic回歸,模型首先定義了因變量的某一個水平為參照水平(SPSS軟件默認最后一項為參照水平),其他水平均與其相比,建立水平數-1個廣義Logit模型。
基于廣州市耕地劃分為6個等別,即反應變量有6個水平,分別取值為1、2、3、4、5、6,以等別6的耕地單元為參考類別,相應概率為P1、P2、P3、P4、P5、P6,對n個自變量擬合成5個模型。

式中,Gi為解釋變量X1,X2, …,Xn的線性函數。

式中,βi1,βi2…,βin為耕地質量等別為i時,各個解釋變量的回歸系數,αi為截距。
對Pi進行Logit變換,則有:

最后,運用極大似然估計法可求得各個等級模型的參數估計系數αi,βi1,βi2,…,βin(Zhang et al.,2010;Del Hoyo et al.,2011)。
在分析交互效應時,我們需要有清晰的理論假設來界定何為調節表量,以及何為關鍵自變量(focal independent variable),即對因變量的作用受到調節變量影響的自變量。根據關聯分析所得到的結果,此處以地形坡度和土壤有機質含量之間的交互效應為例,說明如何在Logistic回歸中加入交互效應。
在Logistic回歸中加入交互效應最常見的方法就是加入一個乘積項(James,2014)。以下是耕地質量等別為1的全局Logistic回歸模型(不包含交互項),其中X1表示土壤有機質含量,X2表示地形坡度,已知二者存在交互效應,其中X2是調節變量,X1對結果變量的影響因X2取值不同而不同。

為了表示這種關系,我們可以將β11(反映了X1對結果變量的影響)寫成一個關于X2的線性函數:

這個公式表示,X2每變化一個單位,β11就變化β1(n+1)個單位。將公式代入原方程并整理轉換得到含交互項的方程:

最后,運用極大似然估計法求得包含交互效應的Logistic回歸模型的參數估計系數。
對于一個交互項是否有必要納入模型,通過比較兩個模型——包含該交互項和不包含該交互項的模型擬合優度即可,對于本實驗,我們使用赤池信息準則(Akaike Information Criterion,AIC)和決定系數R2來衡量一個模型的擬合優度,AIC值越小,R2越接近于1,表示損失的信息越少,模型擬合程度越好。如果兩個模型的擬合優度有顯著差別,就說明交互項是有意義的;如果差別不大,就沒有必要加入交互項。通過直接檢驗交互項的Logistic系數的統計顯著性,如果該系數在統計上不顯著,就說明該交互效應在統計上不顯著。
2.2.4 模型驗證
Logistic回歸模型對測試樣本的分類結果可通過混淆矩陣(confusion matrix)反映。本研究涉及到的耕地分類等別較多,應用模型劃分需要注意多個類別是否混淆,因此需要對該算法的分類結果做出總結。混淆矩陣也稱錯誤矩陣,是精度評價的一種標準格式,其應用特殊的矩陣來呈現Logistic模型的精度,主要用于比較分類結果和實際測得的值,每一列代表Logistic模型的預測值,每一行代表等別數據庫中運用因素法劃定的實際等別,模型分類精度可直觀地反映于該矩陣。
ROC(Receiver Operating Characteristic Curve)即受試者工作特征曲線,該曲線的橫坐標為特異性指標假陽性率(False Positive Rate,FDR),縱坐標為其敏感性指標真陽性率(True Positive Rate,TDR)繪制而成的曲線,本文根據 ROC曲線計算出的假陽性率和真陽性率,可求得約登指數,約登指數=假陽性率+真陽性率-1,進而計算出各個耕地質量等別的最佳臨界值(cut-off值)。以1等地的ROC曲線為例,如果某塊評價單元其1等地模型預測概率P1大于該臨界值,則模型判別該塊耕地為1等地,小于該值則認為該塊耕地不是1等地。此外,通過這條曲線可以反映多分類Logistic模型和因素法兩者的關系,可直觀看出受試工作的準確性情況。該曲線越靠近左上角,ROC曲線下方面積大小即(Area Under ROC Curve,AUC)越接近于1,受試者工作越準確,說明該模型性能越好,一般AUC的值超過0.9時說明該模型具有較高的準確性。
圖2為模型性能曲線,即納入不同交互效應個數的模型性能對比圖。其赤池信息準則與決定系數的變化情況如圖2所示,將關聯規則篩選得到的75個耕地質量交互效應逐個加入Logistic模型,在加入前5個交互效應時,R2上升趨勢明顯,AIC值不斷下降,模型擬合度變化明顯,在第5個交互效應時,R2超越了 0.95,達到了 0.998,模型擬合度良好。當加入第6個交互效應時,模型擬合度開始下降,但總體變化不大,此外,擁有5個交互效應的Logistic回歸模型,交互效應系數的顯著性水平都滿足P≤0.05,分別為0.00、0.00、0.00、0.01、0.00,因此得出從化區耕地質量評價指標間交互效應有 5個,分別是:表層土壤質地與土壤酸堿度、耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度、地形坡度與土壤有機質含量、排水條件與灌溉保證率之間的交互效應。

圖2 交互效應Logistic模型性能曲線Fig. 2 Performance curve of logistic model based on interaction effect
為驗證基于交互效應Logistic模型的適用性與準確性,將未加入交互效應的全局Logistic模型與基于5個交互效應的Logistic模型進行對比,結果見表3。

表3 模型參數結果對比Table 3 Comparison of model parameters
PE為模型對訓練樣本中耕地單元等別預測誤差。關聯是預測等別與因素法劃分等別之間的斯皮爾曼關聯(Spearman’s correlation),其值越高,說明預測等別越接近常規法劃分的等別,模型效果就越好。赤池信息準則通過考慮模型的自由度,對比不同模型的差異性(張金牡等,2010),其值越小則模型擬合度越高(梁慧玲等,2017),損失的信息越少。
由表3可知,交互效應Logistic模型的R2優于全局Logistic模型,即模型的擬合優度較高。更小的預測誤差和更大的相關性表明該模型能更好地解釋自變量和因變量間的關系,模型的精度更高。由于考慮了耕地質量評價指標間的交互效應,所以模型的AIC值明顯下降。從模型的綜合表現看,該模型比全局Logistic模型更能反映耕地質量指標與耕地質量之間相互作用相互影響的關系,用于耕地質量評價損失的信息更少,從而更加準確地對耕地質量進行評價。
因此,選取加入前5個交互效應的Logistic回歸模型作為本次耕地質量評價最優模型,進行耕地質量等別劃分。
對基于5個交互效應的Logistic回歸模型進行精度評價。

圖3 等別劃分混淆矩陣Fig. 3 Confusion matrix of gradation
如圖 3,對角線上的值是各類別應用基于最優Logistic回歸模型方法分類正確的數量占比。各等別劃分正確率均達到了95%以上,其中1等耕地和3等耕地劃分準確率為100%,而2等地、4等地、5等地和6等地劃分正確率分別為97%、98%、97%、99%。
從圖 4a—f可以看出 ROC曲線趨勢均向左上偏,1、2、3、4、5、6等耕地的 AUC值分別為1.00、0.990、1.00、0.9985、0.9983、0.9999。說明包含5個交互效應的Logistic回歸模型性能良好,得到的結果精度高。
將 16664個測試樣本耕地單元輸入到所建立的交互效應Logistic回歸模型中,進行耕地質量等別計算。經過等別的計算,統計應用因素法和應用交互效應 Logistic模型的耕地質量等別一致性數量。該模型對16664個耕地評價單元的評價準確率為92.2%。雖然該模型在區分不同等別耕地區分上仍然存在一些問題,但總體來看,耕地質量等別的劃分結果準確度較高。

圖4 不同等別耕地的ROC曲線圖Fig. 4 Receiver operating characteristic curve of cultivated land of different grades
分類情況如表 4,對于 1等地、4等地、5等地、6等地這四類耕地單元較多的樣本來說,其分類正確率均達到了90%以上,4等耕地的劃分正確率最高,達到了97.26%。根據劃分錯誤情況,其中1等地錯劃為2等地和3等地,4等地錯劃分為3等地和5等地,5等地錯劃分為4等地和6等地,6等地部分被劃入5等地,由此可見,大多數等別劃分誤差都集中在1等別,跨級誤差占比極小。但對于2等地和3等地這兩類耕地單元較少的樣本,正確率分別只有66.63%和76.63%,跨級誤差也較大,分類精度不理想。因此,樣本數量的不均衡將影響模型的分類精度。
耕地質量評價工作中指標體系的構建是重點難點。耕地質量評價指標體系構建已由偏重于自然屬性向較為全面考慮自然與生態環境、社會經濟等眾多方面完善(沈仁芳等,2012)。然而,由于耕地質量的影響因素較多,各因素之間也會相互產生影響,耕地質量所呈現的實際上是各種驅動因素作用共同疊加的結果。
本研究通過關聯規則分析與Logistic回歸模型得知耕地表層土壤質地與土壤 pH、耕地利用方式與土壤pH、有效土層厚度與土壤pH、地形坡度與土壤有機質含量之間存在交互效應,這與近年來有些學者針對耕地質量中的幾個主要驅動因素的交互效應研究結論類似。如黃平等(2009)通過DEM模型圖與土壤有機質空間分布圖進行空間疊置分析以探討坡度、坡向對耕地土壤有機質空間變異的影響,結果表明坡度對土壤有機質含量的影響比坡向更明顯,部分地區存在坡度與坡向交互影響顯著的情況。王亞男等(2018)利用ArcGIS軟件和地統計學方法對耕地土壤pH的空間分布特征進行半變異函數分析,結果表明土層厚度和土壤類型對耕地土壤pH影響較大,坡度對耕地土壤pH的影響呈弱相關。檀滿枝等(2007)基于信息熵原理對土壤pH與母質、地形和土地利用方式之間的空間相關性進行定量分析,結果表明其相關性順序為土地利用方式>地形>母質。因此,關聯規則與Logistic回歸模型對于耕地質量評價指標間交互效應的發現是一種行之有效的方法,該方法針對傳統多層次完全模型在尋找交互效應時自變量數量較多時的局限性,通過關聯規則分析找到了耕地質量指標間的交互效應,將其作為Logistic回歸分析的待選解釋變量,這樣既克服了全局Logistic回歸分析無法發現變量間交互效應的問題,也解決了關聯規則無法給出模型和參數估計值的缺陷。當然,可用于檢測耕地質量指標間(低階和高階)交互效應的其他方法也可以在這里使用,關于和其他交互效應發現的方法比較有待下一步的討論分析。
耕地質量評價結果的可靠性高低依賴于評價方法的優劣。在耕地質量工作中,雖早有學者針對耕地質量相關影響因素間的交互效應開展研究,但未見將交互效應理論應用于實際耕地質量評價工作,其根本原因在于傳統的耕地質量評價方法難以對耕地質量與耕地質量影響因素間的交互效應進行有效表達,數據挖掘方法為其交互效應的表達提供了可能性。本文采用基于納入具有統計學意義的5個交互效應的多分類Logistic回歸模型對耕地質量等別進行劃分,該模型在對耕地質量數據的擬合優度和預測準確率上均優于全局 Logistic回歸模型,用于耕地質量評價準確度更高。但該模型在對個別等別的耕地質量識別準確率較其他等別偏低,原因在于訓練樣本的選擇上,對于訓練樣本較小的耕地質量評價單元的精度不理想,本文僅采用分層抽樣法選擇樣本,因此下一步可討論不同方式的樣本選擇方法進行深入對比分析。

表4 多分類Logistic回歸模型劃分耕地質量等別分布表Table 4 Classification of cultivated land quality by multi-classification Logistic regression model
耕地質量的影響因素眾多,要保證耕地質量等別的科學劃分,就必須對各類因素給予客觀評價。傳統的耕地質量評價方法大多采用特爾菲法、層次分析法、指數和法、灰色關聯度分析法和GIS方法等,這類方法在評價過程中主觀性大,易受人為因素干擾,且工作量大。據此,本研究引入一種基于交互效應的Logistic回歸模型評價方法,將其應用到耕地質量評價中,得到以下主要結論:
(1)通過構建基于交互效應的耕地質量評價指標體系,將關聯規則技術與Logistic模型結合,既可快速挖掘耕地質量影響因素間的交互效應,又可通過Logistic回歸模型驗證交互效應是否具有統計學意義,從而得到從化區耕地質量評價指標的交互效應:表層土壤質地與土壤酸堿度、耕地利用方式與土壤酸堿度、有效土層厚度與土壤酸堿度、地形坡度與土壤有機質含量、排水條件與灌溉保證率之間的交互效應。
(2)對于耕地質量這一綜合系統而言,基于交互效應的Logistic回歸模型比全局Logistic回歸模型擁有更好的模型擬合優度。將該模型應用到耕地質量評價領域,最終選取具有 5個交互效應的Logistic回歸模型,應用此模型進行耕地質量等別劃分,評價結果精度為92.2%,達到了較高的精度等級,可滿足實際應用需求。