賀 勇,鐘映竑
(廣東工業大學 管理學院,廣州 510520)
在社會經濟系統建模與分析中,需要進行系統分解,即目標系統要劃分為若干個子系統。這會面臨兩個問題:第一,如何劃分;第二,劃分多少個子系統。這實質上是一個聚類問題,涉及到聚類算法的選取和聚類數的確定。模糊C均值(Fuzzy C-Mean,FCM)聚類算法[1,2]作為無監督數據分類和分析的一個重要工具,已成功地用于模式識別及系統建模等領域。社會經濟系統是個邊界不明晰的軟系統,相對于層次聚類法和快速聚類法等而言,模糊C均值劃分更加適合處理此類系統,且可以獲得更加豐富的知識。但FCM算法必須事先給定聚類數,在未知情況下,一般通過聚類有效性函數可來確定,而已提出的聚類有效性函數眾多,不同的聚類有效性函數往往得到不同的聚類數。聚類有效性函數可分為兩類:一類是以Bezdek的vPC[3]和vPE[4]為代表的基于數據集模糊劃分的觀點;另一類基于數據集的幾何結構,以Xie和 Beni的vXB[5],Fukuyama和 Sugeno的 vFS[6]及Kwon的vk[7]為代表。然而,對于UCI上的標準數據集,沒有一個有效性函數能保證都得到正確的分類數。這樣,在現實的復雜經濟系統中,將目標系統采用模糊C均值劃分為若干個子系統時,應當選取哪個有效性函數沒有任何根據,其最佳聚類數難以確定。
在現實目標系統中,如果僅僅依靠某個聚類有效性函數來確定聚類數,其結果可能并不理想,應當引入專家經驗。可以這么認為,一個好的聚類應該滿足:其一,其聚類數合理,符合解決問題的需要,這需要通過專家經驗來判斷;其二,聚類結果科學、可信,需要通過經典的聚類有效性函數來檢驗。將專家知識和科學計算結合起來,針對社會經濟系統,本文將提出一種模糊軟劃分聚類數的確定方法,主要步驟是:首先進行數據分析,幾何結構上,觀察數據集是否可聚;其次,專家根據問題給出聚類數集合;最后,對可供選擇的每一個聚類數,采用聚類有效性函數集來評價,滿足有效性函數最多的聚類數被認定為最佳聚類數。
若實際產出為Y,有n個投入要素,則生產函數的一般形式為[8]:

它代表產出與投入要素之間的某種依存關系。為了實現對廣東省21個地區的科技進步水平進行軟分類,遵循柯布-道格拉斯(C.W.Cobb-D.H.Douglas)[9]:

式中α、β是常數,K,L分別代表資本投入、勞動投入,A代表技術進步水平。從(2)式得到:

式(3)表示一個地區的技術進步與該地區的產出、資本投入、勞動投入具有一定的依存關系。基于這種關系,這里科技進步人均產出、固定資產投入和人力資本來反映,根據2001~2009廣東省統計年鑒相關數據進行處理得到人均GDP(單位:萬元)、人均固定資產(單位:萬元)及人力資本數據(計算方法詳見文獻10),得到表1。

表1 各地區指標值
對聚類有效性函數的研究可分為兩類:一類是基于模糊劃分的方法,認為好的聚類對應于數據集是較分明、較明晰的,代表函數如Bezdek提出的分割系數vPC和分割熵vPE;另一類是基于幾何結構的方法,認為每個子類應當是緊致的,子類與子類相互間盡可能分離,代表函數有Xie和Beni的vXB,Fukuyama和Sugeno的vFS,Kwon的vK等。上面提到的5個有效性函數如表2所示。在評價聚類結果時,這5個有效性函數并不一定同時達到最優。可以這樣認為:多個有效性函數取得最優值的聚類結果為較優的結果,該結果對應的聚類個數為最佳的聚類數。

表2 聚類有效性函數
從圖1中,我們可看到21個地區固定資產、人力資本和GDP構成的三維數據散點圖,可看出待分析的數據是存在聚類趨勢的,具有可聚性[11]。由散點圖及實際研究問題的需要,我們將聚類數區間定為c={2,3,4,5,6}。在不同類別下,5個有效性函數值都在時達到最優。由此我們可得出結論:2000~ 2008年期間廣東省各地區按科技水平劃分的最佳類別數為3類。

圖1 21個地區數據散點圖
設定分類數為3,對廣東省21個地區按技術進步水平進行軟劃分,即對三維向量集{(Yt,Kt,Lt)}模糊分類,結果如表3及圖2所示。

表3 科技進步水平分類表

圖2 分類結果

表4 類中心矢量
可見,分類結果比較好地反映了廣東省的經濟發展情況。事實上,第一類包含兩個廣州、深圳兩個副省級城市、珠海特區及經濟重地佛山,是珠三角的龍頭,科技進步水平最高;第二類均為珠三角城市,區位優勢突出,經濟發展潛力巨大;第三類主要是東西兩翼及粵北地區,雖然這些地區之間以及各個地區內部的科技進步有明顯差異,但它們都具有農業人口比重大,貧困人口多,科技進步水平整體上偏低。表4列出的是各類的類中心矢量(均為歸一化后數據),表5列出的是各個地區屬于各類的程度。

表5 隸屬度表
從隸屬度矩陣(表 5)發現:廣州屬于第一類的程度是0.9876,而佛山是0.7023,表明雖然它們的科技進步水平可以認為屬于同一類,但廣州的科技進步水平高于佛山。中山屬于第一類及第二類的程度分別0.4031和0.5062,相對比較劃歸第二類;而江門屬于第二類及第三類的程度分別是0.6129和0.3511,相對比較劃歸第二類,但是屬于第一類程度僅為0.0360,說明盡管中山、江門同屬第二類,但中山科技水平要比江門高。第三類地區屬于第三類的隸屬度均超過0.7以上,都劃歸第三類。可見表3是科技進步的粗分類,而表5正好反映的是每一類中更細致的劃分。兩個表綜合反映了廣東省各地區科技進步水平的分類,符合廣東省的實際情況。
在對社會經濟系統進行聚類時,應將專家知識和科學計算相結合。一個好的聚類應不僅符合客觀現實,即聚類數合理,而且應盡量滿足經典的聚類有效性函數,即聚類結果科學。本文在給定合理可行的聚類數集合的基礎上,采用多個聚類有效性函數對對各個聚類數進行優選的方法,以科技進步水平對廣東省21個地區進行了劃分:首先,確定衡量科技進步水平的數據集;進而對數據集進行分析,判斷是否具有聚類趨勢;然后采用所提出方法進行聚類,得到了滿意的聚類數及聚類結果。研究顯示,廣東省按科技進步水平應分為3類,分類結果符合實際。
[1]Dunn J.C.Some Recent Investigations of a New Fuzzy Partition Algorithm and Its Application to Pattern Classification Problems [J].J.Cybernetics,1974,(4).
[2]Bezdek,J.C.Pattern Recognition with Fuzzy Objective Function Algorithm[M].NY:Plenum Press,1981.
[3]Bezdek J.C.Cluster Validity with Fuzzy Sets[J].J.Cybernetics,1974,3(3).
[4]Bezdek J.C.Mathematical Models for Systematic and Taxonomy [C].In:Proceedings of 8th International Conference on Numerical Taxonomy,San Francisco,1975.
[5]Xie X.L,Beni,G.A.Validity Measure for Fuzzy Clustering[J]. IEEE Trans.Pattern Anal.Machine Intell,1991,3(8).
[6]Fukuyama Y.,Sugeno,M.A New Method of Choosing the Number of Clusters for the Fuzzy C-means Method[C].In:Proceedings of 5th Fuzzy System Symposium,.1989.
[7]S.H.Kwon.Cluster Validity Index for Fuzzy Clustering[J].Electron.Lett.,1998,34(22).
[8]Solow.R.M.A Contribution to the Theory of Economic Growth [J].Quarterly Journal of Economics,1956,39(1).
[9]Rome.P.Endogenous Technological Change[J].Journal of Political Economy,1990,98(5).
[10]賀勇,諸克軍.基于軟計算的生產要素對地區經濟影響分析[J].系統管理學報,2009,18(3).
[11]高新波.模糊聚類分析及其應用[M].西安:西安電子科技大學出版社,2004.