摘要:文章對全國各省份進行大概的聚類分析,來分析當前全國教育發展情況。首先建立好分類指標體系,找好數據,之后通過SPSS的聚類分析功能來得出結論。
關鍵詞:教育指標;聚類分析;SPSS
一、引言
教育是發展科學技術和培養人才的基礎,在現代化建設中具有先導性全局性作用。全國各地教育的發展存在著不少差異。下面,根據全國各省的教育狀況進行區域的劃分,以便進行分類的指導。利用世界著名的統計軟件SPSS進行聚類分析功能,對各省份進行聚類分析,以便很好地歸類。
二、聚類分析簡介
(一)聚類分析概述
聚類分析是根據研究對象的個體特征,對其進行分類的方法。分類在經濟、管理、社會學、醫學等領域有著廣泛的應用。例如,有p個指標,n個對象在p個指標下的數據,對這n個對象進行聚類。
(二)聚類分析作法
1、將數據標準化
為了消除不同變量單位對聚類結果的影響,應當首先對所有的數據標準化:xij=
2、計算對象之間的距離
計算對象之間的“距離”,得到對象之間的“相似關系”矩陣R(rij)。“距離”有多種表達:
(1)歐氏距離(的平方):r2ij=(xik-xjk)2
(2)偏差距離:rij=xik-xjk
(3)相關系數:
rij=
(4)明考夫斯基距離(的q次方):rijq= xik-xjkq
(5)馬氏距離(的平方):r2ij=(xi-xj)TV-1(xi-xj)
3、選擇類與類之間的距離定義
類與類之間的距離可用“代表點”之間的距離表示。下面列舉其中兩種方法:
(1)用兩個類之間的距離最近(或最遠)的點,分別作為這兩類的代表點。
(2)用兩個類(類S和類T)中所有點的距離(平方的)平均值,作為兩個類之間的距離(的平方):d2(S,T)=d2ij,這種方法也叫組間連接法(本文采用的方法)
4、聚類
(1)把每個點(對象)作為一類。
(2)找出距離最小(或者最大的)dij,從而得到距離最近(或最遠)的兩類i和j,把它們合并為更高的一類。這樣不斷重復,知道所有點都并入一個大類。
5、分類
分類的數目符合使用的目的。
三、建立指標體系
全國各地教育發展水平差異較大例如各省份的教育水平、教育觀念、師資力量、教育手段和設備都不相同。經濟發達地區教育發展水平較高。這里討論的教育發展水平主要是從教育的“硬件設備”來討論。聯合國教科文組織(UNESCO)出版的《世界教育報告》對各國教育狀況的數據和資源進行適當分析、篩選、整理和再加工,匯集出與特定指標相關的信息。它提出了幾個方面評價教育發展水平:教育供給(資源)、入學與參與、人力資源、教育內部效率、教育產出等。
本文根據這幾項概括中選出一些指標用來對全國各省份進行聚類。教育經費是教育供給的主要方面。對人力資源可用師生比代表,入學與參與采用升學率,教育內部效率可用升學率代表,教育產出利用文盲人口占15歲以上比重表示,入學與參與采用每10萬人口平均在校生表示(本文采用的數據來自中國統計年鑒2007年)。
其中升學率的公式采用教育統計常用公式:升學率= ×100%
本文中升學率采用了普通小學升學率、普通初中升學率、普通高中升學率。每十萬人口平均在校生和師生比選取了小學、初中、高中、高等學校4個類型。
根據中國統計年鑒2007年,教育經費投入到普通小學、普通初中、普通高中、普通高等學校的比例大概是3∶2∶1∶2,因此可以近似把它當作權重,再利用公式:
人均在學生指數
=
權重的選擇很好解決指標間數量級的等方面的矛盾。
人均在校學生數也是一個百分比值。用這個指標代替每10萬人口平均在校生數來進行聚類。
教育經費與地區生產總值之比是因為國內有學者曾對教育經費支出與GNP的Pearson相關系數很高。教育經費與GNP存在著內在的密切聯系。并且認為教育投資與GNP存在著因果關系。
師生比是某待定教育層次在指定年份中的學生人數與同年同一教育層次工作的教師人數之比。它反映某特定教育層次在某年每位教師平均負責教育學生的人數。
四、聚類分析
利用SPSS根據指標對全國各省份進行聚類。
對31個省和直轄市進行聚類。選擇了組間聚類的方法。
表3給出了聚類的過程,表格中部的coefficient列給出了合并時類間的距離。而且可以看到類間距離越來越大。在該列左邊給出了第幾步誰和誰并成一類。在該列后邊,給出了個體首次被聚類的步驟號。
圖1清楚地表示了聚類的全過程,它將實際的距離按比例調整到0-25的范圍內,用逐級連線的方式連接性質相近的個案或新類,直到并為一類。在該圖上部的距離標尺上根據需要(粗分或細分)選定一個劃分類的距離,然后垂直標尺劃線,該垂直線與水平連線相交,則相交點數即為分類的類別數,相交水平連線所對應的個案聚成一類。
五、分析與結論
對全國所有省份和城市進行的教育發展水平進行劃分,并不是劃分約多越好,也不能太少。基本上,可以對其分為4類。首先看到西藏(2)和北京(28)地區。西藏地區經濟不發達,人民生活比較貧困,教育事業還處在起步階段,教育設施還不完善。政府應該多投入教育經費到西藏支持其建設。至于北京,首都北京是全國文化中心,這是它的城市職能,很重要的表現之一就是名校云集。北京的學生能相對較容易地考入清華北大,升學率高。政府對其教育經費投入也比較大。因而北京可以說是全國教育水平最強的城市。青海、寧夏、甘肅、貴州、云南、安徽歸為一類前四個省份的都算是欠發達地區.欠發達地區經濟落后,窮省辦大教育,面臨極大的困難和挑戰;欠發達地區經濟發展狀況與高等教育規模不對稱,存在諸多矛盾現象.重新審視高等教育財政投資理論,針對欠發達地區高等教育財政投資的困境,需建立貧困地區高等教育成本中央財政投資補償制度和地區間投資補償制度.至于安徽,經濟發展中等,但其文盲率居然占很大比重。安徽要調整好農村產業結構,提高農村人口素質。剩下的省份歸為一類,各省的教育發展指標沒有太大差異。廣東、上海、江蘇等地雖然經濟發達,但教育投入比例和其他省份相差不大,所有歸一類。當然,還可以對這一類進行細分來分析。
所以一個地區的教育水平跟該地區的經濟還是有很大關系的。教育的投入比例也是與教育水平有關系的。
參考文獻:
1、馬慶國.管理統計——數據獲取、統計原理 SPSS工具與應用研究[M].科學