安尼卡爾·艾斯卡爾 祖來克孜·米吉提



摘要:本論文在研究各類系統聚類法的基礎上,并運用在實例中說明其方法在具體問題中的應用。即通過最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平法和法等方法對新疆各地州生產總值進行分類,分析并找出分類質量最好的分類結果,提出其方法所體現的優缺點,以及在運用各類系統聚類算法時會存在的弊端等,再對最終研究結果依據相關領域實際情況進行解析,進而提出進一步提高各地州經濟發展的對策建議。
Abstract: On the basis of studying all kinds of system clustering methods, this paper illustrates the application of the method in concrete problems by using examples. By the shortest distance method, the longest distance, middle distance, average method, gravity method, dispersion method and the method of classifying product throughout xinjiang states, analyze and find out the best quality classification classification results, reflect the advantages and disadvantages of the method is put forward, and the use of all kinds of system the insufficiency of clustering algorithm, etc., to finally analyze the results according to the actual situation in related fields, and then put forward countermeasures and suggestions to enhance the economic development across the state.
關鍵詞:聚類分析;系統聚類法;算法的比較
Key words: cluster analysis;system clustering method;comparison of algorithms
中圖分類號:F061.5? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)17-0254-05
0? 引言
聚類分析中最常用的方法之一就是系統聚類法,系統聚類法又稱層次聚類法是統計學中聚類分析的一個重要分支,具有操作簡單、快速準確、易于實現等功能,所以系統聚類法在實例中的應用也變得非常普遍。比如在生物學領域中,系統聚類法被用來對動植物分類和對基因進行分類,獲取對種群固有結構的認識;還有在研究機動車司機違法駕駛行為中也有系統聚類法的應用,通過其方法得出機動車司機違法駕駛行為等導致交通事故的影響因素的聚類結果和其影響程度。[1]隨著計算機及互聯網技術的高速發展,推動了大數據時代的來臨,隨之而來的就是人們對大數據的分析、管理和利用的迫切需求,而聚類分析在這數據挖掘的過程中扮演著至關重要的角色。
目前無論在任何領域人們所要面對的需要處理的數據比歷史以往任何時期都要多,難度也變得越來越大。而聚類技術作為人們處理這些問題時的重要手段,掌握它的意義所在和正確地運用在實例中也是關鍵所在,所以在這對其進行深入系統的研究和應用說明都將具有非常重要的意義。本文也是在研究系統聚類法的六種聚類方法的基礎上將其應用在實例中,通過系統聚類法的六種聚類方法對新疆各地州市的生產總值進行聚類分析,再通過比較六種分類結果找出分類質量最好的聚類方法,并著重對其研究分析提出各類方法的優缺點,再根據相關領域知識對最終分類質量最好的研究結果進行評價進而提出進一步提高各地生產總值的對策建議。
1? 研究背景及意義
隨著現代社會的高速發展,科技發達,人與人之間的交流越來越密切,再加上計算機及互聯網技術的飛速發展,所有的事物都變的越來越信息化,就不可避免隨之而產生的不斷增加的數據量。對這些大量數據進行分析和利用就會成為現代社會中各個領域的一種現實性需求,隨著需求的不斷增多,它必然會成為解決經濟社會各類問題不可缺少的一個過程。
在這樣一個背景下,加上現代互聯網技術的快速發展,就會不斷地推動大數據的衍生和數據挖掘技術的發展,傳統的統計分析方法這時就會顯得并沒有太大的效率。隨之學術界就研究出了聚類分析技術,它能夠滿足人們對于大數據的管理和利用,聚類分析就成了現代經濟社會中數據挖掘的重要手段,作為最常用的數據分析方法,在面對這些大量數據時,聚類技術會發揮出至關重要的作用,隨之它的運用也變越來越普遍。
在如今一個飛速發展的經濟社會中,所有事物都變得越來越信息化,這也推動了大數據時代的來臨,隨之人們對數據的管理和利用的需求也在不斷增加,而聚類分析在這過程中充當著重要的角色,在各個領域的發展過程中聚類技術都有很深入的應用。比如在生物學領域中,聚類分技術被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識;在經濟學領域中,聚類技術也可用來對不同水平生產總值區域的相關指標進行分類分析,獲取對其經濟指標的可靠信息并有助于提供對策建議,所以對聚類技術進行深入的研究和應用都具有非常重要的意義。
2? 系統聚類法介紹[2]
系統聚類法基本思想是首先把所有的樣品或者變量(指標)看成是n類(一種樣品或是變量/指標即為一類),隨后將從這些n類中性質、屬性等相似程度較高的兩類合成新的一類,這樣就會得到n-1個類,再從這n-1個類按上述依據找出兩類合成一類,就可以得到n-2個類,如此進行下去每次都會較少一類,進行到最后所有的會在一類,再把上述合成的過程畫成圖(即稱為聚類圖),再根據自身需要決定分多少類。
①最短距離法(nearest neighbor或single linkage method)。
即:表示在類Gk和類GL中的最鄰近的第j個和第i個樣本之間的距離。例圖1說明:
②最長距離法(farthest neighbor或complete linkage method)。
即:表示在類Gk和類GL中的距離最遠的第j個和第l個樣本之間的距離。例圖2說明:
③中間距離法(Intermediate distance method)。即指上述中的最短距離和最長距離的中間距離;假設某一步把Gk和GL合并成一類為GM,再取GKL、GLJ、GKJ為組成三角形的三條邊,把DKL邊的中線當做前合并的新類GM到任意一類GJ的距離GMJ,再依據初等平面幾何定義就可得:
即這類的系統聚類算法就稱為中間距離法。
④類平均法(group average method)。類平均法存在兩種形式的定義,第一種定義是類與類間的距離即表示樣品間的平均距離,表達式為:
DKL表示類和類間的距離,等號右邊表示樣品間的平均距離(n為類中的樣品個數),其遞推公式為:
類平均法的第二種定義是類與類間的平方距離即表示樣品間平方距離的平均值,即表達式為:
各字母代表含義與第一類的表達式相同;其遞推公式為:
類平均法也有優于其它系統聚類算法的點,即類平均法對提取所有樣本間的信息會比較完善。
⑤重心法(centroid method)。重心法表示類和類的重心點間的Euclid距離(即為歐氏距離),即歐氏距離表達式為:
即: K和 L為類Gk和GL的重心;此類聚類算法就稱為重心法。
其遞推公式表達式為:
重心法優于其它聚類算法的點在于其處理異常值是更穩健,但在別的方面卻不如其它聚類算法的效果好。
⑥離差平方和法(sum of squares method)。離差平方和法就是運用于方差分析的基本思想,當其分類結果合理時,其離差平方和的區別很大,同一類樣品的離差平法和很小,而不同類之間的離差平法和很大,聚算過程如下:
先假設把Gk和GL合并成一新類為GM,再把GK、GL、GM的離差分別表示為:
于是運用此類聚類算法的表達式即為:
或者可以改寫為如下式也同樣實用
不難看出離差平法和的聚類算法表達式與重心法的聚類算法表達式差一個常數,這就表示前者計算類間距離的大小與樣本數有直接關系,而后者的類間距離大小與此無關。也表示了離差平方和法相對于重心法來說更能符合實際需求,這是一種比較完善的聚類算法。
3? 聚類分析的應用研究
選用的研究數據來源于中國統計局官網新疆統計年鑒——新疆各地、州、市、縣(市)地區生產總值數據表。為了使研究結果更加清晰地表達分類結果,去掉了此數據中各個地、州、市所包含的縣(市)的數據,只對各地州和直轄市進行系統聚類法分析。按照上述提出的要求將數據整理后,再通過SPSS.22統計軟件運用系統聚類法的六種聚類算法:最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平法和法對研究數據進行聚類研究。
通過運用六類系統聚類法對研究數據進系統聚類,即各類方法譜系圖為圖3-圖5。
通過上述圖中六類系統聚類法聚類過程的譜系圖,以紅線為參考線將研究數據分為了5類,各類算法的分類結果比較即如表1。
通過上述表1各類分類方法結果比較,不難看出最短距離法的分類結果與其它系統聚類算法的分類結果有所不同,其中最長距離法、中間距離法、類平均法、重心法、離差平均法的分類結果都是一樣的。阿克蘇地區、喀什地區、塔城地區和克拉瑪依市的數據最為接近,五種聚類算法都將其四個地區(市)分為了一類。所以最長距離法、中間距離法、類平均法、重心法、離差平均法的聚類質量是較為好的。
最短距離法就是逐次將距離最短的類合并成新一類,再依此進行下去直到分類結束,這樣來說的話它逐次聚類的類與類間的距離可能會越來越短,會出現距離收縮的情況,只要是類于類之間的距離短就并為一類,卻并不管其樣本之間的相異度如何,這也是此方法的不足之處。所以最短距離法適合在本身樣本間差異性就并不是很大的情況下使用。而最長距離法與最短距離法的算法剛好是相反的,出現的情況也會是相反的,所以最長距離法進行到后面會出現距離擴張的情況,也會形成同種的較為緊密的類,可能產生違背“閉合類”的類。
中間距離法是采取了兩類間的中間距離,并取其中線作為計算類與類之間距離的依據,中間距離法則完全地避免了上述中最短距離法和最長距離法中會出現的弊端,所以它的分類質量和效果是較為好的。但是在面對一些大規模的需要聚類的數據時,它聚類的類與類之間的差異性就會越來越小。重心法的缺陷也正與中間距離法的這一點一樣。
類平均法是傾向于形成比較緊密的類,但類平均法對距離有好幾種的定義,能覆蓋的面較廣,所以它的聚類效果和分類質量都是很好的,應用性也是非常的廣泛,是一種很實用的聚類算法。離差平方和法使用的是平方歐式距離法,它每聚一類離差平方和就會增大,在實際應用中它的分類效果和質量都是較好的,但是離差平方和法只能得出局部的最優解,而且計算相對較多。
總體來說系統聚類法作為聚類分析的最常用的方法之一,聚類算法靈活多樣,能適用于不同性質的樣本,而且操作簡單適應面廣泛。通過上述的對六種系統聚類法的分析概述,六種聚類算法都有一些或大或小的缺陷,也有各自的優點,在實際應用中都有一定的操作性和實用性。但對于如何選擇最好的系統聚類法上,需要去深入研究各類系統聚類法的聚算方法的性質,再進行比較擇優。這也是一個比較有意義的,更是待于進一步深入研究的課題。
4? 結果與建議
自改革開放以來,中央對新疆工作高度重視,做出了一系列加快發展新疆經濟的重要部署,明確了新疆是西部大開發的重中之中,加大扶持力度,確定新疆經濟發展的戰略目標,給新疆的經濟發展指明了方向。通過不斷努力,近些年新疆經濟發展也取得了很大的進步,經濟社會保持又好又快的穩定發展趨勢。但是新疆各地區間的發展水平也有明顯差異,天山南北各地區之間的發展水平不平衡。南北疆各地州的地理位置、資源等方面的優劣勢都不同,主要的高發展經濟區都在北疆東北部,而經濟發展較差的地域主要在南疆西南部。
所以經過第三章內容對系統聚類法的概述分析,本論文分析的最終聚類結果如表2所示。通過上述的聚類算法的分類結果再依據各地州的樣本數據,將分為的五類聚類結果依次命名為低發展地區、中低發展地區、中發展地區、中高發展地區和高發展地區。將其列表3。
在低發展地區中大部分都是南疆地區,而且根據研究數據不難看出此類中的南疆地區第一、二、三產業比重與同類的其它地、州、市相比還是有一定差距的,不管是在建筑業、工業還是在人均生產總值上南疆西南部地區都普遍較低。而此類其中石河子和吐魯番是地級市,所以在地域、人口基數、資源條件等基礎上是與同類中的其它地州是有差距的。
中低發展地區和中發展地區的經濟社會發展是比較穩定的,發展前景也很好,近幾年也是在穩步跟進。此兩類中有南疆地區也有北疆地區,它們的各個產業比重是有一些差距,但是在總體上的差別并不是很大。阿克蘇地區和喀什地區都有各自的有利資源來促進各自的發展,近些年也是取得很有效的成果,但是這些南疆地區的人均生產總值是確實是比較低的。
高發展地區和中高發展地區都是在北疆地區,烏魯木齊作為新疆首府,在各方面的發展都很好,與許多內地省份的二線城市的發展也不分上下。伊犁哈薩克自治州位處于北疆西北部,地處邊境與多國相鄰,所以伊犁哈薩克自治州的進出口貿易也是促進它發展的重要因素。
在全國范圍內相對于內地省份來說新疆整體的經濟社會發展確實是較落后的,疆內各個地州市的經濟發展基礎也不盡相同,沿邊的地區縣域距離經濟核心區遠,尤其是一些南疆地區,所以這些地域會在資金、技術和人才等生產發展核心要素方面會有所欠缺,使得優勢難以很好發揮。在最近的十幾年間新疆各個產業發展速度較快,社會經濟穩步跟進,與十幾年前的新疆有了翻天覆地地變化。但目前在疆內的各地區經濟發展水平差異較大,尤其是南疆地區與北疆地區間的差異,南疆地區地理位置偏遠,自然環境較為惡劣,尤其是沙塵較多,交通不便,會導致與外界的交流聯系會較為閉塞,但是南疆許多地區資源豐富,有些地區內部富裕的優勢產品的出去也可能會較為困難,外面許多優勢的資源、信息進不來[4],因此建議在保持目前的對各個地州市發展的大力財政支持力度上、實施各項有關各地區經濟發展的有利政策上和經濟發展戰略目標上,再努力去解決部分存在的交通不便、信息交流閉塞的問題,讓更多內部擁有富裕的優勢產品的地區能夠通過有利的交通和順通的外界信息交流,獲得更多的促進本地區各產業發展的有利機會。
參考文獻:
[1]秦鳴,寧建標,鄧明君.系統聚類法在機動車司機違法駕駛行為中的應用[J].公路與汽運,2017(04):45-51.
[2]何曉群.多元統計分析[M].四版.北京:中國人民出版社,2015.
[3]新疆統計年鑒——中國統計網.
[4]趙麗婭.財政支持對新疆縣域經濟發展的影響研究[D].新疆農業大學,2015.
[5]劉世薇.1989-2010新疆經濟發展差異的區域分析[J].經濟地理,2012,32(9).
作者簡介:安尼卡爾·艾斯卡爾(1997-),男,維吾爾族,新疆阿克蘇人,學士,研究方向為應用統計;祖來克孜·米吉提(1988-),女,維吾爾族,新疆阿克陶人,碩士,研究方向為資源統計。