陳江麗
(滇西科技師范學院信息科學與技術系,云南臨滄677000)
基于類平均聚類法的普通高等專科學校辦學規模區域差異研究*
陳江麗
(滇西科技師范學院信息科學與技術系,云南臨滄677000)
在市場經濟的背景下,全國各地的普通高等專科學校呈現出區域發展的趨勢。在學校招生規模、培養規模和畢業生規模等指標的基礎上,采用類平均聚類法對各地區普通高等專科學校的辦學規模進行分析,利用Matlab平臺進行仿真,生成不同區類的劃分,有利于進一步研究不同區域間學校發展的戰略和因地制宜的人才培養方向。
類平均聚類法;高等專科學校;辦學規模;系統聚類樹;不一致系數
《中國教育大辭典》中指出:高等專科學校的主要宗旨是實施全日制高等職業技術教育,培養專門技術人員,注重實際知識和理論的掌握及實際技能的訓練,以培養適應經濟和社會發展的技能型人才為目標[1]。因此,普通高等專科學校的畢業生主要面向和服務社會的技術和應用型崗位,輻射較廣泛,社會需求較大,在經濟發展和社會進步中起到巨大的促進作用。
但由于經濟和文化條件不同,各地普通高等專科學校辦學規模的差異較大,區域差異在總體上呈擴大趨勢。區域教育發展不協調,帶來了許多經濟問題和社會問題。它不僅嚴重制約了我國經濟的可持續發展和社會的全面進步,而且造成了教育機會和教育過程的不公平,對社會和諧、政治穩定構成了潛在威脅,同時也進一步加劇了技能型人才的流失。
因此,準確分析和全面把握高等專科學校辦學規模區域發展的差異性,有利于國家立足于本地區的經濟現狀、社會需求和自身實際情況,準確定位學校的人才培養目標、服務面向和辦學特色,更好地推動區域經濟和社會的發展。
類平均聚類法是將類與類間的距離定義為樣品間平方距離的平均值,將距離最近的兩類合并為一類,最終實現聚類的目的[2]。假設存在類GK、GL,則GK和GL之間的平方距離的計算如公式(1)所示[3]。

若某一步類GK和GL合并成新類GM時,GM與另一類GJ間的平方距離可以推廣為公式(2)。

從公式(1)、(2)中可以看出,類平均法充分地利用了所有樣品之間的信息,同一類中的平均距離小,表示樣本間的相似度高;而不同類間的平均距離大,表示樣本間的相似度低。因此,類平均法是一種較合理有效的系統聚類法。
普通高等專科學校辦學規模的評價主要參照學校招生規模、培養規模和畢業生規模等指標,如表1列出2013年全國31個省、市、自治區和直轄市高等專科學校的各項數據。利用類平均聚類法進行聚類分析,將地區按辦學規模劃分為不同的類,根據同一類地區普通高等專科學校辦學規模的相似性,不同類地區間的差異性,為區域間普通高等專科學校辦學規模的差異性研究提供重要依據,對全面提高普通高等專科學校辦學能力、促進區域協調發展提供科學的指導。

表1 2013年全國各地區普通高等專科學校辦學規模指標數據

數據來源:中華人民共和國國家統計局網站,2014年《中國統計年鑒》
2.1 類平均聚類分析各地區普通高等專科學校辦學規模的Matlab實現
利用MATLAB對各地區普通高等專科學校的辦學規模進行聚類分析。需要先讀取表1中的招生數、在校生數、畢業生數和預計畢業生數4個變量數據放入矩陣X中,X就是一個31×4的矩陣。再讀取表1中的地區名稱放入矩陣area中,area是一個包含31個元素的列向量。完成數據的準備工作后,接著按以下四個步驟進行分析處理。
2.1.1 樣本的預處理
為了保證分析結果的準確性,需要對樣本數據進行一些預處理,如平滑處理、標準化變換和極差歸一化變換等。在實際應用中,可根據數據特征選擇相應的處理。
針對學校辦學規模指標數據各變量的量綱和數量級不一致的情況,采用zsocre函數對原始指標數據進行標準化處理,如式(3)所示。

2.1.2 計算樣本間距離
聚類開始時,先將31個地區樣本各自作為一類,接著計算各個樣本間的距離,為接下來對距離最近的兩類進行合并提供依據。
樣本間距離的計算方法包括明氏距離、蘭氏距離、馬哈拉諾比斯距離和斜交空間距離等。其中最常用的是明氏距離中的歐式距離。第i個樣本和第j個樣本之間的歐式距離計算如公式(4)所示[4]。

MATLAB中使用pdist函數計算樣本間的歐式距離,對于各地區的指標數據X,調用函數格式為y= pdist(X),輸出y是31個樣本間的距離向量,分別對應第i個(其中i=2,3,…,31)和第j個(其中j=1,2,…,30)樣本間的距離。
2.1.3 利用類平均聚類法創建聚類樹
創建聚類樹是聚類分析中的關鍵環節,可以完整地反映聚類的過程。MATLAB工具箱中提供了linkage函數創建系統聚類樹,對31個地區指標樣本的距離向量y,調用函數格式為Z=linkage(y, 'average')。其中'average'表示使用類平均法進行聚類。輸出Z是創建的各地區專科學校辦學規模聚類樹,包含個元素的矩陣,它的每一行對應一次聚類。
為了清晰直觀地反映創建的聚類樹,可利用MATLAB工具箱中的dendrogram函數生成聚類樹形圖,對聚類樹Z,地區名稱area,調用函數格式為H= dendrogram(Z,0,'orientation','right','labels',area),生成的聚類樹形圖如圖1所示。圖中的倒U形線用來連接聚類對象,線的高度表示聚類距離,距離的遠近反映聚類的先后順序。聚類樹形圖的方向從右至左,地區名作為葉節點標簽,顯示在圖的左側。通過聚類樹形圖,可以完整和清晰展現聚類的過程。

圖1 聚類樹形圖
2.1.4 計算聚類樹的不一致系數
系統聚類樹的不一致系數可用來確定最終的分類個數,可使用MATLAB工具箱中的inconsistent函數進行計算。對上一步創建的聚類樹Z,調用函數格式為T=inconsistent(Z),輸出參數T是一個包含30×4個元素的矩陣,其中的第4列為每一次聚類的不一致系數,T(:,4)=[0,0,0,0.7071,0,0.7071,0, 0.7071,0,0,0.7071,1.0928,0.7071,0,0.7071,0, 0.7071,1.1418,0.7071,0,0.7071,1.0843,0.9893, 1.1488,0.7071,0.7071,1.1293,1.1544,1.0867, 1.0233]’。
若某一次聚類的不一致系數較上一次有大幅增加,則說明這次聚類的效果并不好,而上一次的聚類效果比較好。通過觀察和比較不一致系數T(:, 4)。考慮倒數第4、5次聚類的不一致系數的變化,不一致系數大幅增加0.4222,說明倒數第5次的聚類效果是比較好的,對照圖1的系統聚類樹形圖可看出,此時樣本被劃分為5類。因此,可明確將各地區專科學校的招生規模指標數據聚為5類是最合適的。
2.1.5 生成聚類結果
最終根據創建好的系統聚類樹和確定的聚類個數生成聚類結果并輸出,以完成整個聚類過程。
聚類結果的生成可利用MATLAB工具箱中的cluster函數實現,由創建的聚類樹Z和聚類個數5,調用函數格式為C=cluster(Z,’maxclust’,5),輸出參數C為每一個樣本的所屬的類序號。每個聚類所包含的地區如下所示:
(1)第1類地區:海南、西藏、青海、寧夏;
(2)第2類地區:北京、天津、內蒙古、吉林、黑龍江、上海、重慶、貴州、云南、甘肅、新疆;
(3)第3類地區:河北、安徽、湖北、湖南、四川;
(4)第4類地區:山西、遼寧、浙江、福建、江西、廣西、陜西;
(5)第5類地區:江蘇、山東、河南、廣東。
2.2 分析結果
利用類平均聚類法對全國31個地區的普通高等專科學校辦學規模進行聚類分析,最終劃分為5類地區。通過分析每類地區間的差異,可以發現普通高等專科學校的辦學規模與地理位置、經濟發展水平、人口數量、教育發展水平等客觀因素有關。
第1類地區的招生規模最小。首先四個省份或自治區的地理位置屬偏遠地區,人口較少,教育水平相對較差。尤其西藏、青海和寧夏地區的經濟發展水平較落后。這些因素都客觀地影響著普通高等專科學校的辦學規模。
第2類地區的招生規模處于較低水平。其中,北京、上海、天津作為國際化的大都市,是中國政治、文化、科教的中心,對學歷層次的要求較高,因此在一定程度上也制約了專科學校的發展。重慶、貴州、云南、甘肅、新疆、內蒙古等省份作為西部地區城市,吉林和黑龍江位于祖國的東北,地理位置和經濟發展水平等因素都制約了普通高等專科學校的辦學規模的發展。
第3類地區的招生規模處于中等水平。河北、安徽、湖北、湖南、四川均處于中部地區,地理條件較好,教育發展水平在全國處于前列,這些客觀因素都促進了普通高等專科學校辦學規模的擴大。
第4類地區的招生規模處于中上水平。這些地區大都處于東部或西部工業較發達的城市,對技能型和應用型人才的需求量較大,在很大程度上促進了專科學校畢業生的就業。因此,在一定程度上推動了普通高等專科學校辦學規模的發展。
第5類地區的招生規模最大。其中的江蘇和廣東都是全國工業發展水平最高,經濟實力最強的城市,對專科型應用技能人才的需求量最大。河南和山東分別是中國人口的第一和第二大省,人力資源豐富,對專科學校的辦學需求量較大。
利用類平均聚類法對全國各地區普通高等專科學校的辦學規模進行聚類分析,劃分為不同的區類,進而研究區域間差異的因素,有利于國家立足于本地區的實際,促進專科學校區域辦學的協調發展,更好地推動經濟和社會的可持續發展。
注釋及參考文獻:
[1]李曉娟.東西部高等教育協調發展研究[D].石河子:石河子大學,2010.
[2]Jiawei Han,Micheeline Kamber著,范明,孟小峰等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2010.
[3]于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,2008.
[4]鄭紅英.數據挖掘聚類算法的分析和應用研究[D].沙坪壩:重慶大學,2002.
[5]趙光龍.中國高等教育資源配置空間分布研究[D].上海:華東師范大學,2014.
[6]袁靜.區域高等教育與經濟的協調發展研究[D].蘇州:蘇州大學,2008.
Study on the Regional Differences between Higher Specialty Institutions Based on the ClassAverage Clustering Method
CHEN Jiang-li
(Department of Information Science and Technology,Dianxi Science and Technology Normal University, Lincang,Yunan 677000)
The development of higher specialty institutions in our country shows regional tendency under the market economy background.On the basis of the scale of enrollment,training and graduates and other indicators,weuse the class average clustering method to analyze school running scale of higher specialty institutions in every region,use MATLAB to simulation,and then we get different class divisions.The research is conducive to the further study of the school development strategy and local talent training direction between different regions.
class average clustering method;higher specialty institutions;school running scale;system clustering tree;inconsistent coefficient
TP301.6;G648.2
A
1673-1891(2015)03-0046-03
2015-03-25
云南省教育廳科學研究基金資助(項目編號:2013C037);臨滄師范高等專科學校自然科學、基礎應用研究基金資助項目(項目編號:LCSZL2013009)。
陳江麗(1984-),女,云南大理人,講師,碩士,研究方向:數據倉庫和數據挖掘。