楊世箐 ,楊成鋼,
(1.西南石油大學 文法學院,成都 6100501;2.西南財經大學 人口研究所,成都 610074)
宏觀統計指標數據可以從量化層面向人們全面展示一國或地區國民經濟和社會發展的具體狀況,但眾多豐富繁雜的統計指標又往往相對重疊,在邏輯歸屬上也較為模糊,并不能直觀呈現各子系統特定的發展實際。因此眾多研究者往往會對官方公布的宏觀統計指標進行篩選和賦權進而構建能夠專門評價某個經濟社會子系統發展狀況的指標體系模型并通過收集截面數據加以實證應用,從研究的針對性和科學性而言,這確實是一種可行的思路,也形成了一套相對成熟的研究范式,如布萊克(Cyril E Black)[1]、英克爾斯(Alex Inkeles)[2]等人的現代化水平測度指標體系,聯合國開發計劃署的HDI[3]指數等。目前,國內也出現了基于統計指標選取的系統評價模型構建和應用的研究熱潮,眾多學者紛紛借鑒不同的模型構建及應用方法對我國或各地區的相關經濟社會領域進行發展水平評價的實證分析,但介于宏觀統計指標數據的諸多特性,相關指標體系模型的構建及應用方法仍然有待仔細推敲和具體商榷。
依據宏觀統計指標構建測度模型與眾多經濟學和社會學等統計分析模型不同,其不需要去發展指標,研究者所需要做的重要工作就是從已有指標中去篩選能夠反映某一子系統發展狀況的特定統計值指標。在這一環節,已有研究基本是在一定的學理探討或經驗分析的基礎上主觀確定最終的測度指標,并不會采取相應的定量手段加以補充,在指標選取的原則上,也通常沿用豐富性、代表性等原則。這也會引申出兩個值得商榷的問題,一方面,宏觀統計指標數據是一個典型的時間序列,其在數理上會呈現出典型的連帶性特征,如果期望通過追求指標的豐富性而達成全面測度的目的實際是一種不可取的思路,因為對大量在數據上連帶性的指標(如GDP、人均GDP;人口出生率、死亡率和自然增長率等)進行賦權匯總而產生的重復計算很可能會導致統計結果的失真;另一方面,如果側重代表性原則,那么經驗分析后選取的少量代表性指標可能不具備可收集性,就必須進一步探尋對其具備可替代性的指標,而通過這種途徑最終主觀選取的指標很可能又不能全面反映特定子系統發展的全貌(反映社會公平程度的基尼系數目前不具備可收集性,用城鄉收入比指標替代,而該指標波動性較強,并不能全面客觀反映當前社會公平狀況)。
在基于統計指標選取的系統評價模型構建過程中,要解決在指標篩選層面存在的上述局限,針對宏觀統計指標的特性,應該以代表性為首要原則,兼顧可收集性和豐富性,通過主客觀相結合,以定性和定量相互輔助的方式進行指標篩選。具體操作可以分為兩步,第一步是通過定性闡述方式篩選出參考指標,進而引入變量R型聚類這一統計分析手段,具體的步驟方法[4]是:
首先,在每一類參考指標中依據可收集性原則篩選出可收集完整數據的指標進而收集數據并進行相關數據數據處理;
其次,計算指標的相關指數:

其中,r為指標i與其他指標間的相關系數,mi為指標i所在類的指標個數;
最后,比較各指標相關指數,最大的相關指數對應的指標即可以選取為該類的代表性指標。如分別有指標X1、X2和X3構成一類,那么其對應的相關指數分別為和,如果-R1最大,則選取 X1作為能夠該類狀況的代表性指標。
在社會統計學中,變量R型聚類適用于在大變量集中尋找代表性變量的情況,其完全根據變量數據的內在數理關系,通過降維的手段簡化變量集的同時也可以充分減少數據信息的損失。在基于統計指標選取基礎上的測度模型中,通過這一方法得出的代表性變量,既可以有效消減同一類別中眾多變量數據間的重復計算局限,也能節省測量時間,在數據損失較少的情況下保持測度的有效性,達成研究目的。
在指標體系賦權上,目前學界大都采用專家意見法(德爾菲法)或熵權法進行。由于上述兩種賦權方法在國內研究中被大量應用和說明,本文在此不作贅述。在基于宏觀統計指標篩選構建的評價模型賦權層面,也可以針對具體的研究狀況,采用因子分析法和模糊綜合評判法這兩種具體手段進行。
1.2.1 因子分析法
所謂因子分析即是指探討在存在相關關系的各統計指標變量之間,是否存在不能直接觀察到,但對觀測指標變量的變化起支配作用的潛在因子(可以視為觀測指標隸屬的要素層)。假設有統計指標x1,x2,x3,x4,……,xm。各指標變量與其所屬要素層的關系可以表述為:

其中,xji為具體指標變量,Fj為對具體指標變量起支配作用的特定因子(要素層),aji為指標變量對該因子的因子載荷,因子載荷表示變量xji對公共因子Fj的依賴程度,反映了變量在公因子上的負荷,其絕對值大小即說明變量對其公因子的相對重要性程度。而在各指標變量的賦權操作中,從特定指標變量對其所屬要素的因子載荷的絕對值大小可以判斷該指標變量在其所屬要素中的重要性程度,換句話說,因子載荷絕對值大小即可作為指標賦權的實際參考。
1.2.2 模糊綜合評判法
模糊綜合評判法是國內學者[5]于上世紀80年代提出的一種基于模糊數學的綜合評價方法。其在思路上類似于專家意見法,但具體計算步驟和方法略有不同。其主要是運用模糊數學對受到多種因素制約的事物或對象做出一個總體的評價,將定性的評價轉換為定量的評價結論,近年來在國民經濟社會發展領域的宏觀模型構建中得到廣泛的應用。其具體步驟為:
首先,確定評判系統指標集和指標權重集:
U=(U1,U2,U3, ···,Ui)
A=(A1,A2,A3, ···,Ai)
其中,Ui為第i個指標,Ai為對應指標的權重。
其次,確定類指標評價等級:
V=(V1,V2,V3,·V4)(假設為四等級評判)
第三,確定評判矩陣Ri:

第四,收集各類評價并形成按類評價矩陣R:

最后,求總評價結果
B=R×A
應用模糊綜合評判方法,可以通過測量不同人對某個事物或現象的態度和看法,從而最終對該事物或現象進行模糊評判,如對某個發展系統內部要素(U1、U2、U3)進行權重分配,可通過設計問卷調查若干名專家學者對此三個要素重要性的認知情況,最終結果為在U1方面,有50%的專家認為其最重要,40%的專家認為非常重要,10%的專家認為比較重要,沒有專家認為其不重要,可記為VU1=(0.7,0.3,0.0,0.0);同理假設VU2=(0.5,0.4,0.1,0.0),VU3=(0.3,0.4,0.3,0.0),通過特定的模糊變換關系可知依據專家評價后將三個要素分別為賦權為0.6、0.4和0.3,進行歸一化處理后的權重最終分別為0.4615,0.3077和0.2307。
在指標體系模型的應用上,研究者一般會根據研究需要,通過相應的統計分析方法考察指標或系統間的互動關系,最常見就是運用回歸分析考察指標體系中各指標變量或其反映的系統發展量化狀況間的因果關系(影響效力大小),根據不同的研究目的和適用性,傳統的回歸分析應用目前主要是采用最小平方法(OLS)原理進行的多元線性回歸和曲線估計等。
由于統計指標變量均為定距層次的連續型變量,因此運用回歸分析具備先天的契合性,在指標體系模型的應用中,用一個指標(指數)變量作為因變量,其他多個指標(指數)作為自變量進行多元線性回歸分析,可以從數量層面考察不同指標(指數)變量間的非確定性因果關系,其數學表達式可以寫作:

其中b為回歸系數,即每個自變量對因變量影響力大小,其數值沒有固定上下限,受制于自變量的運算單位,如果要進一步比較不同自變量對因變量的影響強度,只要將b轉換成標準回歸系數β即可。
多元線性回歸對于考察任意指標(指數)變量的因果關系非常方便,但需要注意的是:
首先,必須重視前期的相關理論分析和經驗論證。在線性回歸中,因果關系的設定不是由統計方法決定的[6],哪些指標變量為因,哪些為果,關鍵取決于統計之前的理論和經驗分析,例如勞動力人口數和GDP指標,在統計分析上可以得出互為因果的結論,但從經驗上分析則明顯不能選取GDP指標為自變量而勞動力人口數為因變量。
其次,必須要對回歸模型進行全面的檢驗。實際上,對于任何不同的指標變量,不管其是否具有線性關系,都可以用線性回歸的統計方法做出一個回歸模型,但如果不同的指標變量間根本就不存在線性關系,那么這一模型就沒有任何意義,因此要對模型的線性擬合度進行檢驗,其一般包括對回歸系數和常數項的顯著性檢驗、方差齊性檢驗、殘差正態性檢驗和多重共線性診斷等環節,在進行回歸分析前,根據指標變量數據勾畫散點圖,觀察其是否存在線性關系也可以是前期直觀判斷是否需要建立回歸模型的一個常用方法。
最后,必須解決共線性問題。在多元線性回歸方程中,自變量由于彼此相關而會導致共線性問題,這就給考察自變量對因變量的凈影響力帶來一定的困難,當一組自變量存在共線性時,就應該剔除引起共線性的一個或多個變量,由此才能保障模型的擬合優度。共線性問題是建立回歸模型過程中必須面對而又較難解決的問題,而統計指標(指數)變量相互之間會帶有較強的相關性,因此共線性診斷在指標體系模型應用中的回歸分析層面更顯重要。一般而言,共線性診斷通過容許度(Tolerance)和方差膨脹因子(VIF)的數值來判斷,容許度定義為Tol=1-Ri2,方差膨脹因子定義為VIF=1/Tol,二者呈倒數關系,從公式中可以看出,某個自變量與其他自變量的相關性越大,容許度(VIF)就越?。ù螅溟g的共線性就越強。
此外,在指標體系模型應用中,OLS算法的回歸分析雖然存在典型的易用性,但遇到指標間存在交互影響或者需要探討指標間更為復雜的因果關系時,這種統計方法的適用性不足就凸顯出來,此時應該根據不同的情況和實際的研究需要,適當引入二階段最小平方法回歸分析或路徑分析加以解決。
2.2.1 二段最小平方法應用說明
用宏觀統計指標(指數)作為自變量與因變量在很多情況下會存在變量間的交互作用(如反映經濟增長的GDP與反映人口素質的人口受教育年限指標,反映物價水平的CPI與眾多人民需求指標等),此時用普通的最小二乘法(OLS)算法會忽視因變量對自變量的影響,其建立的回歸模型也是在假設誤差項與自變量間不存在相關關系基礎上得出的,而實際上正是由于因變量對自變量的反饋作用而導致誤差項與自變量間存在相關關系,這就破壞了OLS回歸的假設條件,從而使模型產生一定的偏差。要解決這個問題,可以使用二段最小平方法(2SLS)建立回歸模型,即使用兩階段最小平方法,用其他的變量(工具變量)對自變量進行預測,然后用預測值再進行回歸,這樣就可以有效解決OLS回歸的局限,消減回歸模型的偏差。在二段最小平方法回歸模型中,工具變量具有重要意義,其可以被理解為模型的外生變量,即在模型中不受其他變量影響,但影響模型中某些變量的變量,這就決定了工具變量雖然與模型中某個內生變量高度相關,但與誤差項則不相關,因此引入工具變量進行第一階段預測就可以滿足OLS回歸分析的經典假設。當然,單靠統計方法是無法確定工具變量的,其也需要在充分的定性探討后發現??偟膩碚f,二段最小平方法回歸的原理如圖1所示。

圖1 二段最小平方法回歸分析路徑示意圖
2.2.2 路徑分析的適用情況
路徑分析是回歸分析的拓展,回歸分析只有一個因變量,因此只要構建一個回歸方程,而路徑分析則針對多個因變量通過構建一組回歸方程來分析多個變量組成的因果網(圖2)。如圖2的多元線性回歸方程:

其可以分解為方程組為:



圖2 變量間的因果網示意(單向)
從上述過程可以看出,路徑分析的實質是就是將一個回歸方程分解為多個回歸方程,并由此來觀測各自變量對因變量的遞歸因果關系,其在分析原理上與回歸分析是一致的。
基于宏觀統計指標篩選的的指標體系測度模型的構建是針對性考察和評價某一經濟社會發展子系統發展狀況的有效手段,只有通過科學嚴謹的思路方法,定性和定量相結合的研究手段,對代表性指標進行篩選和賦權,并根據具體情況運用對應的統計分析手段進行應用分析,才能保障系統評價的有效性和合理性。涉及具體的分析方法和步驟在眾多研究中也有詳實介紹,本文在此不作贅述,僅針對模型構建的宏觀思路方法及其應用分析層面的適應性統計手段進行了初步的分析和討論,以期望對后續適應不同情況的相關研究起到一定的借鑒啟發。
[1]C·E·布萊克著.現代化的動力[M].段小光譯.成都:四川人民出版社,1988.
[2]阿列克斯·英克爾斯,戴維·H·史密斯著.從傳統人到現代人——六個發展中國家中的個人變化[M].顧昕譯.北京:中國人民大學出版社,1992.
[3]聯合國開發計劃署.2006年人類發展報告[R].2006.
[4]盧紋岱.SPSS for Windows統計分析(第2版)[M].北京:電子工業出版社,2002.
[5]汪培莊.模糊集合論及其應用[M].上海:上??茖W技術出版社,1983.
[6]翁定軍.社會定量研究的數據處理——原理與方法[M].上海:上海大學出版社,2002.