□魏 赟
(蘭州城市學院電子與信息工程學院 甘肅 蘭州 730070)
甘肅省土地面積約占全國總土地面積的4.7%,域內有黃河、長江、內陸河三大流域,處于黃土高原、內蒙古高原和青藏高原的交錯地帶,境內河谷縱橫,山多川少,海拔除局部低于1 000 m 外,一般在1 000~3 000 m 之間,是山地型高原區,自然條件復雜,有山地、高原、丘陵、盆地、河谷、平原等多種地貌,各市(州)區域間差異性較大。降雨量從西向東逐步增加,西部降雨量最低在50 mm 以下,最高在隴南市和甘南藏族自治州部分,在600 mm 以上,有干旱、半干旱、半濕潤、濕潤四大類型地帶。由于地區差異較大,發展理念不同,從而導致農業生產水平、農作物種植方式、農業生產資料投入量、農業生產產出、土地承載力、農民勞作方式等方面存在很大差異。
為了分析甘肅省各市(州)農業綜合實力的動態變化以及對農村居民人均可支配收入帶來的影響,利用動態聚類分析法、貝葉斯準則多類逐步判別分析方法對1995 年、2005 年、2015 年、2018 年甘肅省14 個市(州)農業綜合生產力的動態變化進行分析。
動態聚類又稱為逐步聚類方法,其聚類的步驟是,先按照一定的方法選取一批凝聚點,然后讓其余樣品向凝聚點凝聚,這樣由點逐漸凝聚成類,得到初始的分類。但由于初始的分類不一定合理,必須進行修改,常用的辦法是按照最近距離原則修改不合理的分類,直到分類趨于合理為止[1-3]。動態分類凝聚點的選擇與分類方式如下。
(1)凝聚點的選擇。凝聚點是一批被當成類中心的具有代表性的點。第一種方法是根據經驗選擇凝聚點,即依據專家經驗,預先將樣品分為若干類,并從每一類中選擇一個具有代表性的樣品作為凝聚點。第二種方法是只確定預分的類,然后通過計算得到每一類的重心,將這些重心作為凝聚點。第三種方法是用密度法選擇凝聚點,即以某個整數d為半徑,在m維空間中,落在以d為半徑的球體內的樣品數,稱為以該樣品為中心的空間中點的密度。當計算好所有樣品點的密度后,首先選擇密度最大的樣品作為第一凝聚點,并且人為地確定一個整數D,然后選出第二大密度的點,如果該點與第一凝聚點的距離大于D,則作為第二凝聚點,否則該點就不能作為凝聚點,這樣依次進行,直到全部樣品選擇完畢。第四種方法是用前K個樣品作為凝聚點。本研究采用第二種方法進行動態聚類分析。
(2)初始分類。第一種方法是憑經驗人為地將樣品進行初步分類。第二種方法是選擇凝聚點后每個樣品按照與其最近距離的凝聚點進行歸類。第三種方法是選擇一批凝聚點后每個凝聚點自成一類,將樣品依次歸入其距離最近的凝聚點的第一類,并立即重新計算該類的重心,以代替原來的凝聚點,再計算下一個樣品的凝聚點,直到所有樣品都歸類為止。第四種初始分類方法先將樣品的原始數據進行標準化處理,用Xij表示已標準化處理后的第i個樣品第j個指標。采用第四種初始分類方法進行處理。
欲將全部樣本分為K類,對于每一個樣本計算見下式。
如果與這個數接近的整數為k,則將樣本xi歸入第k類。
(3)分類函數。動態聚類的方法很多,有按批修改法、逐個修改法和等混合法。動態聚類的不同方法主要是以修改分類的不同原則來區分。下面主要討論按批修改方法。在按批修改法中,每一步修改都將使對應的分類函數縮小,并且分類函數最終趨于定值,即計算過程是收斂的。
假定x1、x2、…、xn表示n個樣品點,初始分類為K類,即G1、G2、…、Gk,重心記為,每類樣品數記為n1、n2、…、nk。
定義Xi與類GJ的距離,見下式。
定義分函數,見下式。
式中:L(i)表示xi所屬類的標號。
按批修改的原理就是,使式(6)的分類函數逐漸減小,直至不能再減小為止。該式所定義的分類函數,實質上是系統聚類中的離差平方和。
根據動態聚類分析法,得出對某類樣品的分類結果,但分類的結果是否完全合理,需要利用其他方法進行驗證分析,利用貝葉斯準則多類逐步判別分析方法,對動態聚類分析結果進行判別分類。具體計算過程:根據威爾克斯統計量挑選對分類影響最大的變量,在貝葉斯準則下建立判別函數,進行多類判別,從而確定樣品的最可能歸類。
對于一個具有p個指標的樣品,要判斷其歸類于m個組中的哪一組。判別分析的任務是把p維空間按照某種準則劃分為互不相交的g個區域R1、R2、R3、…、Rg,并把待判樣品X看成是p維空間的一個點,通過計算該樣品屬于m個組的條件概率大小,經比較后將這個樣品歸入概率最大的一組內。
分析計算中對于給定的總體先驗概率,平均損失為最小的劃分空間規則稱為貝葉斯準則,劃分結果的Ri稱為關于總體先驗概率的貝葉斯解。
對于第i個總體的第t個子樣,一般采用下面的計算公式得到總體參數均值向量和協方差矩陣,具體見下式。
對于所建立的判別函數的檢驗,可采用維爾克斯統計量∧。
式中:W為組內方差協方差矩陣,B為組間方差協方差矩陣,X為總體的均值向量,計算公式如下。
為了實現逐步計算,同樣利用矩陣變化法,對于T、W作如下變化,以W為例,見下式。
式中:r為待處理變量號,l為變換的步數。
如果在第l步時已入選L個變量,現在要檢驗第r個變量是否應入選,應計算下列F統計量,見下式。
如果F≤F2,則認為該判別能力不顯著,應予以剔除,F2亦事先規定。在規定了F1和F2以后,利用上述方法一直繼續到既無已選變量可舍去,又無未選變量可入選為止。利用入選的一組判別變量,可按照貝葉斯準則建立判別函數。
在實際計算分析時,分以下兩個過程進行。先進行動態聚類分析,在此基礎上,將已分類的結果作為貝葉斯準則多類逐步判別分析的預分類,再進行判別分析。分析時所用的數據從1995 年開始,到2018 年結束,均采用《甘肅年鑒》《甘肅發展年鑒》中的數據。農業綜合實力由甘肅省14 個市(州)的農業人口(萬人)、耕地面積(hm2)、農作物播種面積(千hm2)、糧食總產量(萬t)、當年出欄牛豬羊總數(萬頭只)、農林牧漁總產值(萬元)、農業總產值(萬元)、農村居民人均可支配收入(元)、社會消費品零售總額(萬元)、農林牧漁從業人員(萬人)、農業機械總動力(萬kW)、農村用電量(萬kW·h)、化肥施用折純量(t)等13 個指標構成。
甘肅省14 個市(州)的農業綜合實力的動態聚類分析采用第二種方法,預先分為4 類,即農業綜合實力分為強、較強、較弱、弱[4]。利用甘肅省1995 年《甘肅年鑒》《甘肅發展年鑒》中的農業生產數據,由式(1)~式(6),對甘肅省14 個市(州)的農業綜合實力進行動態聚類分析,所得結果見表1。
根據表1 的分類結果,酒泉市、張掖市、威武市為第4 類,農業綜合實力為強;天水市、定西市、隴南市、平涼市、慶陽市為第3 類,農業綜合實力為較強;蘭州市、白銀市、臨夏回族自治州為第2 類,農業綜合實力為較弱;嘉峪關市、金昌市、甘南藏族自治州為第1類,農業綜合實力為弱。

表1 1995 年甘肅省14 個市(州)農業綜合實力動態聚類分析結果
為了驗證上述分類結果的正確性,將動態聚類分析的分類結果作為貝葉斯準則多類逐步判別分析的預分類進行判別分析,分析所用的原始數據和動態聚類分析的數據完全一樣。由式(7)~式(16),對甘肅省14 個市(州)的農業綜合實力進行貝葉斯準則逐步判別分析,所得結果見表2、表3、表4。在貝葉斯準則逐步判別分析的計算過程中,挑選變量和剔除變量所用的F1、F2值均為1。2005 年、2015 年、2018 年的F1、F2值完全相同。

表2 貝葉斯準則逐步判別分析挑選變量的結果(1995 年)

表3 判別系數(未選入變量系數為0,1995 年)

表4 貝葉斯準則逐步判別分析結果(1995 年)
1995 年對甘肅省14 個市(州)的農業綜合實力進行貝葉斯準則逐步判別分析時,按照弱、較弱、較強、強4 種類型進行分類,與之對應的有4 類判別函數。在表3 中,第1 類、第2 類、第3 類、第4 類這4 列的14 個判別系數,分別構成農業綜合實力為弱、較弱、較強、強4 種類型的判別函數,其中對應當年出欄牛豬羊總數、農業總產值、農村用電量這3 個指標的判別系數為0。
由于威爾克斯統計量的分布函數相當復雜,一般采用巴特萊特近似式將其與χ2分布聯系起來。威爾克斯統計量和χ2的計算結果見表2 的第5 列、第6列。表2 引入變量的自由度為10×(4-1)=30,近似服從于分布χ2(30)。查表得χ20.001(30)=59.703,計算出威爾克斯統計量的檢驗值χ2=100.801 271 8>χ20.001(30),說明表2 引入的10 個變量構成的判別函數達到極顯著水平,完全能夠對甘肅省14 個市(州)農業綜合實力進行判別分析。
在表4 中,第3 列“回判后新的樣品分類號”的數據是貝葉斯準則逐步判別分析的結果,可見利用動態聚類分析所得結果與貝葉斯準則多類逐步判別分析的結果完全一樣。由此說明,1995 年甘肅省14 個市(州)農業綜合實力的分類結果準確。
動態聚類分析、貝葉斯準則逐步判別分析所采用的原始數據為2005 年甘肅省14 個市(州)的農業生產數據,分析方法與前面相同,計算結果分別見表5、表6、表7、表8。

表5 2005 年甘肅省14 個市(州)農業綜合實力動態聚類分類結果

表6 貝葉斯準則逐步判別分析挑選變量的結果(2005 年)

表7 判別系數(未選入變量系數為0,2005 年)

表8 貝葉斯準則多類逐步判別分析結果(2005 年)
根據表5 的最終分類結果可知,張掖市、威武市為第4 類,農業綜合實力為強;天水市、平涼市、慶陽市、定西市、隴南市為第3 類,農業綜合實力為較強;蘭州市、白銀市、酒泉市、臨夏回族自治州為第2 類,農業綜合實力為較弱。與表1 相比,酒泉市的分類由第4 類變為第2 類,農業綜合實力由強下降為較弱;嘉峪關市、金昌市、甘南藏族自治州為第1 類,農業綜合實力為弱。
表6 中引入變量的自由度為5×(4-1)=15,近似服從于分布χ2(15)。查表得χ20.001(15)=37.697,計算出威爾克斯統計量的檢驗值χ2=58.950 695 99>χ20.001(15),說明表6 中引入的5 個變量構成的判別函數達到極顯著水平,對甘肅省14 個市(州)農業綜合實力進行判別分析,結果可信度高。
2005 年對甘肅省14 個市(州)的農業綜合實力進行貝葉斯準則逐步判別分析時,分類方法同前。在表7 中,第1 類、第2 類、第3 類、第4 類這4 列的14 個判別系數分別構成4 類判別函數。其中,對應耕地面積、當年出欄牛豬羊總數、農林牧漁總產值、農村居民人均可支配收入、社會消費品零售總額、農林牧漁從業人員、農村用電量、化肥施用折純量8 個指標的判別系數為0。
根據甘肅省14 個市(州)2005 年農業生產數據,利用貝葉斯準則多類逐步判別分析進行判別分類,與動態聚類分析的結果一致。因此,2005 年甘肅省14 個市(州)農業綜合實力的分類結果同樣是可信的。
動態聚類分析、貝葉斯準則逐步判別分析計算時所用的原始數據為2015 年甘肅省14 個市(州)的農業生產數據,計算方法同前,具體的結果見表9、表10、表11、表12。

表9 2015 年甘肅省14 個市(州)農業綜合實力動態聚類分析結果

表10 逐步挑選變量過程結果(2015 年)

表11 判別系數(未入選變量系數為0,2015 年)
根據表9 的最終分類結果,與表5 的分類結果相同,說明從2005—2105 年,甘肅省14 個市(州)的農業綜合實力沒有出現變動。
表10 中引入變量的自由度為7×(4-1)=21,近似服從于分布χ2(21)。查表得χ20.001(21)=46.797,計算出威爾克斯統計量的檢驗值χ2=69.778 028 8>χ20.001(21),說明表10 引入的7 個變量構成的判別函數達到極顯著水平,對甘肅省14 個市(州)農業綜合實力進行判別分析,所得結果可信度高。
2015 年對甘肅省14 個市(州)的農業綜合實力進行貝葉斯準則逐步判別分析時,分類方法同前。在表11 中,由判別系數構成的4 類判別函數中,對應當年出欄牛豬羊總數、農林牧漁總產值、農村居民人均可支配收入、社會消費品零售總額、農林牧漁從業人員、農業機械總動力6 個指標的判別系數為0。
據表12 可知,動態聚類分析、貝葉斯準則多類逐步判別分析的分類結果完全相同。說明用動態聚類分析、貝葉斯準則多類逐步判別分類后,2015 年甘肅省14 個市(州)的農業綜合實力所得結果的可信度高。

表12 貝葉斯準則多類逐步判別分析結果(2015 年)
根據2018 年甘肅省14 個市(州)農業生產數據,利用動態聚類分析、貝葉斯準則逐步判別分析法,對2018 年甘肅省14 個市(州)的農業綜合實力進行分類,結果見表13、表14、表15、表16。

表13 2018 年甘肅省14 個市(州)農業綜合實力動態聚類分析結果

表14 貝葉斯準則多類逐步判別分析挑選變量的結果(2018 年)

表15 判別系數(未入選變量系數為0,2018 年)
由表13 動態分類的分析結果可知,到2018 年,白銀市的動態聚類由2 變為3,說明白銀市的農業綜合實力由較弱提升為較強,其余市(州)的農業綜合實力與2015 年相同,沒有出現變化。
表14 中引入變量的自由度為4×(4-1)=12,近似服從于分布χ2(12)。查表得χ20.001=32.909,計算出威爾克斯統計量的檢驗值χ2=45.130 499 73>χ20.001(12),說明表14 引入的4 個變量構成的判別函數達到極顯著水平,利用判別函數對甘肅省市(州)農業綜合實力進行判別分析,所得結果可信度高。
2018 年對甘肅省14 個市(州)的農業綜合實力進行貝葉斯準則逐步判別分析時所用分類方法同前。4 類判別函數中對應市(州)的農業人口、耕地面積、當年出欄牛豬羊總數、農業總產值、農村居民人均可支配收入、農林牧漁從業人員、農業機械總動力、農村用電量、化肥施用折純量9 個指標的判別系數為0。
根據表16 貝葉斯準則多類逐步判別分析的結果可以看出,在2018 年,利用動態聚類分析、貝葉斯準則多類逐步判別分析,對甘肅省14 個市(州)的農業綜合實力進行聚類分析和判別分析,結果完全一致,因此,2018 年甘肅省14 個市(州)農業綜合實力的類型劃分很準確。

表16 貝葉斯準則多類逐步判別分析結果(2018 年)
利用動態聚類分析、貝葉斯準則多類逐步判別分析,對甘肅省14 個市(州)1995—2018 年的農業綜合實力分別進行了4 次聚類分析和判別分析,結果完全一致,說明對甘肅省14 個市(州)的農業綜合實力劃分類別是可信的。經過24 年的發展變化,14 個市(州)的農業綜合實力屬于強類別的是武威市、張掖市。白銀市的農業綜合實力,截至2018 年,分類號由2 變為3,農業綜合實力也由較弱提升為較強。到2018 年農業綜合實力屬于較強類別的是白銀市、天水市、平涼市、慶陽市、定西市、隴南市。酒泉市的農業綜合實力起初為第4 類,屬于農業綜合實力強的一類,但到2005 年下降為第2 類,屬于農業綜合實力較弱的一類。農業綜合實力屬于較弱類別的是蘭州市、酒泉市、臨夏回族自治州。嘉峪關市、金昌市、甘南藏族自治州3 個市(州)農業綜合實力在1995—2018 年間未發生變化,一直屬于弱類別。中國是農業大國,農業綜合實力提升對當代中國發展具有重要意義。通過相關數據分析可以看出,甘肅省14 個市(州)中,有的市(州)農業綜合實力由弱變強,有的市(州)農業綜合實力由強變弱,這與當地政府的農業發展策略、資源水平等因素有關,如何從中汲取具有價值及意義的策略,正是研究者亟待研究與解決的問題。