靳劉蕊
(河南財經學院 統計學系,鄭州 450002)
與多元統計分析中的多變量數據相比,函數性數據分析面臨著更大的“維度災”。函數性主成份分析能起到降低維度的作用,可以用來探索函數性數據資料的變異性,例如曲線的重要變化形式、曲線類型、代表特定函數的典型形態等。文章對函數性主成份分析的思想、方法進行了詳細闡述,并將其應用于國家財政主要支出項目的變化模式的探索。
函數性數據;主成份分析;降維;主要變化模式
函數數據分析是從函數角度對數據進行分析,把函數數據看成單個整體,表示為光滑曲線或連續函數ui(t)(i=1,2,…,n),其中n表示觀測對象(曲線)的個數,t可以表示時間,也可以表示時間以外的其它變量。當t表示時間時,函數ui(t)的觀測序列即為時間序列。實際情況中,關于ui(t)的信息是在有限個點(Ti)上收集的,因此觀測數據向量可表示為yi=(yi1,…,yiTi)'。函數數據分析的基本統計模型為:

這里,對于所有的觀測對象i=1,…,n,不要求它們的觀測點tij和觀測次數Ti相同。
在多元統計分析中,多變量統計數據是在同一時期或時點上對每一個觀測對象觀測多個變量的數據信息,為了使分析簡化,通常把大量的原始變量綜合為少數幾個綜合變量。多元主成份分析就是把多個變量轉化為少數幾個綜合變量的一種通常適用的統計分析方法。在函數性數據分析中,函數性變量記錄了每一個觀測對象的同一個變量某個區間上很多個時刻的數據信息,如果將函數性數據的變量看作是與多元數據對應的時間(不變因素),而時間看作與多元數據對應的變量(變化因素),則發現函數性數據分析面臨著更大的“維度災”。基于這種特點,可以將多元主成份分析技術引入函數性數據分析中,稱為函數性主成份分析(FPCA)。根據對觀測對象測度變量的個數,函數性主成份分析可分為一元函數性主成份分析和多元函數性主成份分析。
在傳統的多元統計分析中,對N個觀測對象的p個觀測變量 xi1,xi2,…,xip進行觀測,觀測矩陣 X為 N×p矩陣。 多元主成份分析采用簡單的線性組合方法將這p個變量綜合成一個綜合變量,即

其中 βj為加權系數,β=(β1,β2,…,βp)',x(xi1,xi2,…,xip)'。 fi的值稱為第i個觀測對象的主成份得分。記fk為x1,x2,…,xp的第k主成份,βk為第k主成份的加權系數,V為方差矩陣,可以證明觀測變量p個主成份的加權系數向量βk分別為V的 p 個特征向量,k=1,2,…,p,即滿足

在函數性數據背景下,函數值xi(s)(s∈T)對應于多元主成份分析中的多變量數據xij(j=1,…,p),但 s是連續的而 j是離散的,i=1,2,…,N。將區間T上的x(s)綜合為一個綜合變量的方式為:



可以證明,函數性主成份的權重函數β(s)滿足以下特征方程



則(6)式可表示為

可見函數性主成份分析的特征方程與多元主成份分析的特征方程相似,不同的是(3)式中的β為向量而(8)式中的β(s)為函數。另外一個重要的區別在于其特征值及對應特征向量的最大對數。多元主成份分析中觀測變量的個數p決定了(3)式的特征值及特征向量的最大對數為p,進而滿足約束條件的主成份的最大個數為p;函數性主成份分析中x(s)是無限的,觀測對象的個數N決定了協方差算子V的秩為N-1,因此(8)式的非零特征值的最大個數為N-1,進而滿足約束條件的主成份的最大個數為N-1。
當馬老師給我描述李之恒家里多窮,他是多么努力,多么有出息的時候,我走神了。如果現在叫我去努力回憶李之恒是個什么樣的人,我眼前浮現的形象卻是我大學一個室友的模樣。
函數性主成份的選取思想與多元主成份的選取相同,根據所研究問題的需要確定累積貢獻率,然后選擇合適的K使得達到所確定的累積貢獻率,一般要求累積貢獻率不小于85%。
由前面的分析過程可知,函數性主成份分析問題就是求解(6)式的特征值和特征函數問題。一種求解策略就是將連續的函數性特征分析問題轉變為近似等價矩陣的特征分析問題。求解的一般步驟如下:
第一步,對觀測得到的曲線進行曲線套準、標準化(xi(s)-等初步處理,得到的曲線記為。
第二步,對函數進行離散化處理,或進行基函數展開,或采用一般的數值積分方法,找到近似等價矩陣并求解其特征值和特征向量,再根據特征向量求解權重函數β(s)。
最簡單的離散化方法就是在區間T上等間隔地取n個點sj,各點對應的函數值為,表示為 N×n矩陣X*,其樣本方差記為V,從而問題轉變為n個變量的多元主成份分析:

其中,對應于特征值λ的特征向量u為n維向量。由于n可能比N大,所以不采用n×n矩陣V求解(9)式,轉而通過求X*的SVD UDW'可以得到V的特征值λ及其對應的特征向量u。再將求得的向量u轉化為特征函數β(s)。令,然后對特征向量采用任一種合適的插值方法來計算特征函數的近似形式。
基函數展開法是對函數xi進行基函數展開,即


問題轉化為下面所示的等價對稱矩陣的特征分析問題:

解得u之后根據b=W-1/2u計算 b,將b代入(11)式即求得主成份權重函數β(s)。
為了避免計算得到的主成份的權重函數β(s)可能會比較粗糙,從而導致主成份分析結果的可解釋性降低,需要在函數性主成份分析過程中引入平滑方法,施加某種正則化,從而得到較平滑的主成份權重函數。常用的方法包括:用粗糙懲罰法對主成份進行平滑;用粗糙懲罰法對原始數據進行平滑和逐步粗糙懲罰法。
第三步,將求得的 βk(s)代入(4)式可計算第 i個觀測對象在第k主成份上的得分。
在客觀現象中,一種現象的數量變化總是與特定的其它現象的數量變化緊密聯系,這多個變量的變動之間往往存在著一定的規律。針對相對于同一個變量(例如時間t)測度的、計量單位相同的多個函數,可以用主成份分析來研究它們之間的聯立變動。當對N個觀測對象測度P個函數變量x1(s),x2(s),…,xp(s)時,記 x(s)=(x1(s),x2(s),…,xP(s))'。多元函數性變量的主成份f定義為:

其中,主成份 f的權重函數 β(s)=(β1(s),…,βp(s))'為 P 維向量函數,βp(s)表示 xp(s)的變動權重,p=1,…,P。 記為xp(s)的協方差算子,為 xp(s)和 xq(s)的交叉協方差函數,p,q=1,…,P;p≠q。 有。 類似的,多元主成份分析問題可轉化為特征方程系統Vβ=λβ的求解問題,實際計算方法與一元情形下相似。
從國內外財政的具體實踐上來看,財政支出結構受社會資源配置總體的直接制約,其發展變化還與經濟發展階段、經濟發展程度以及該階段政府所追求的主要經濟政策目標密切相關。財政支出結構的變化是對經濟、社會不斷發展和政府之能變化的一個反映。隨著經濟的發展,我國的財政支出結構也發生了很大的變化。下面利用函數性主成份分析來研究我國1978~2005年的國家財政主要支出項目的發展變化趨勢。
國家財政主要支出項目包括基本建設支出,增撥企業流動資金、挖潛改造資金和科技費用,地質勘探費,工、交、流通部門事業費,支農支出、文教科學衛生支出、撫恤和社會救濟福利費,國防支出、行政管理費,政策性補貼支出等。利用MATLAB編寫函數性分析程序,首先對數據進行平滑、描述、顯示,并進行更深一步的函數性主成份分析。圖1繪制出了國家財政各項主要支出項目的平滑曲線,并可根據平滑曲線求出其變化速度曲線,即一階導數曲線。根據各財政支出項目曲線可以看出國家財政各主要支出項目在1978~2005年期間總體趨勢都是增長的,但增長速度差異很大。1989年之前,基本建設支出高于其它支出項目,為財政支出最多的項目,但其增長速度慢于文教、科學、衛生支出項目,后者從1986年開始快速增長,1989年之后超過了基本建設支出,成為財政支出最多的項目。此外,行政管理費支出的增長速度也比較快,支出額逐漸接近基本建設支出額,并在2003年之后超過了基本建設支出;其次變化較大的支出項目是國防支出、支農支出、挖潛改造資金和科教三項費用和政策性補貼。相對這些項目支出而言,其它項目如增撥企業流動資金支出項目變化不大。這種支出結構的變化是符合我國國民經濟的發展要求的。在改革開放初期,通過擴大基本建設支出,促進經濟發展,擴大經濟規模和就業機會,提高人們生產生活條件;隨著經濟的發展和市場機制的完善,財政可配置資源增加,國家財政加大對滿足人民群眾日益增長的難以通過市場機制實現的物質、文化等方面的支出,其中重要的一項就是文教、科學、衛生支出項目;此外還有國防支出和為縮小城鄉差距的支農支出等。



圖2描述了國家財政11個主要支出項目的均值曲線和標準差曲線。從均值曲線可以明顯地看出財政支出各主要項目的平均變化趨勢是逐年遞增的,且增長速度加快。由標準差曲線可以看出,各項目支出額之間的差異隨著時間的變化越來越大。
圖3顯示了國家財政11個主要支出項目的中心化財政支出曲線,即從各項目的財政支出曲線中減去它們的均值曲線。該圖清晰地表明各個支出項目偏離均值曲線的情況:相比較而言,1988年之前11個國家財政主要支出項目之間的差距不大,之后差距增大。其中文教、科學、衛生支出越來越高于平均水平,此外高于平均水平的支出項目有基本建設支出和行政管理費;而增撥企業流動資金,地質勘探費,工、交、流通部門事業費和撫恤和社會救濟福利費越來越低于平均水平;其余項目的變化保持與平均水平大體相同。



圖4顯示了四個主成份(PC)的權重函數。為了清晰地顯示各主成份所代表的變化模式,將均值曲線、分別在均值曲線上加上和減去各個主成份權重函數合適倍數后得到的兩條曲線繪制在一個坐標圖中,如圖5所示,分別用實線、虛線(…)和長劃線(--)表示。第一主成份(PC1)解釋了數據95.4%的變異,其權重函數始終為正,且隨時間變化越來越大。第一主成份得分越高的財政支出項目,受到在1978~2005年期間高于平均支出水平趨勢的影響越大,例如文教、科學、衛生支出,基本建設支出,行政管理費等;得分越低則說明受到低于平均支出水平趨勢的影響越大,例如增加企業流動資金,地質勘探費,工、交、流通部門事業費和撫恤、社會福利救濟費等。第二主成份(PC2)解釋了數據2.8%的變異,其權重函數的波動表現為先下降后上升再下降,時正時負。第二主成份得分越高的財政支出項目,例如政策性補貼支出、基本建設支出等,受到如圖4右上角所示趨勢的影響越大,即在1978~1990年期間高于平均支出水平的程度逐漸減少,1990年之后低于平均支出水平越多,1998年之后又開始縮小與平均支出水平的差距,之后又增大縮小增大;得分越低的財政支出項目,例如行政管理費,受到與前面相反趨勢的影響。圖6為財政各支出項目的PC1和PC2得分圖,可清楚看出它們受到PC1和PC2的影響狀況。文教、科學、衛生支出主要受PC1的正向影響,幾乎不受PC2的影響;基本建設支出和行政管理費同時兩者相同程度的影響,不同的是PC2對基本建設支出的影響是正向的,而對行政管理費的影響是負向的;挖潛改造資金和科技三項費用、國防支出和支農支出受兩者的影響都很小,反映它們在觀測期間變化不大;政策性補貼支出受PC2影響有較大的波動;撫恤和社會福利救濟費,工、交、流通部門事業費、地質勘探費和增撥企業流動資金等項目受PC1的負向影響比較大,與財政支出平均水平差距擴大的事實相吻合。
與傳統的分析方法相比,函數性數據分析具有其自身的優越性,它依賴較少的假設條件和較弱的結構約束,不要求不同觀測對象的數據觀測點和觀測次數相同,不但可以實現對無限維度數據的模式挖掘,而且還可用于對非函數性數據進行分析。作為函數性數據分析的一項關鍵技術,函數性主成份分析能起到降低維度的作用,可以用來探索函數性數據資料的變異性,例如曲線的重要變化形式、曲線類型、代表特定函數的典型形態等,還可以用于研究多個函數之間的聯動性變動。隨著信息技術的發展,人們獲取和存儲數據的能力得到了極大的提高,需要處理越來越多的具有函數特征的數據,經濟數據的函數性主成份分析方法及其應用有待進一步研究和擴展。
[1]雷欽禮.經濟管理多元統計分析[M].北京:中國統計出版社,2002.
[2]朱建平.應用多元統計分析[M].北京:科學出版社,2006.
[3]朱建平,來生強.流式數據挖掘的現狀及統計學的研究趨勢[J].統計研究,2007,7.
[4]Ramsay,J,Silverman,B.Applied Functional Data Analysis:Methods and Case Studies[M].New York:Springer,2002.
[5]Ramsay,J,Silverman,B.Functional Data Analysis[A].Springer Series in Statistics[M].New York:Springer,1997.
[6]Rice J.A.Functional and Longitudinal Data Analysis:Perspective on Smoothing[J].Statistical Sinica,2004,14.