張學新
(湖北工程學院數學與統計學院,湖北孝感 432000)
考研成績的路徑分析及SAS程序
張學新
(湖北工程學院數學與統計學院,湖北孝感 432000)
本文闡述了結構方程模型與路徑分析的原理,并基于某校2011-2013年理科考研情況的調查數據,利用路徑分析方法研究考研英語、考研政治、專業課一、專業課二、學校類別、體育基礎對理科考研成績的作用路徑及影響力度,給出了路徑分析的SAS實現過程。
結構方程模型;路徑分析;CALIS過程;理科考研成績;效應分析
當面臨多個因變量,或者一個變量既是自變量又是因變量時,多元回歸顯得不能兼顧,結構方程模型則顯示出優勢。結構方程模型(SEM)泛指一組實證現有理論有效性的統計模型,是單因素方差分析、多元回歸分析等廣義線性建模過程的擴展。它的主要優點是可以研究由多個指標測度的潛在結構間的關系,適用于經驗數據與非經驗數據、截面數據、縱向數據。SEM包括路徑分析(PA)、因果模型、協方差結構分析,是經濟和行為科學中重要的統計工具。本文應用路徑分析探討理科學生的課程學習與考研成績之間的相互關系。
關于理科學生考研成功率的影響因素,國內已有一些研究成果。朱璟[1]認為,惟有準確、完整、系統地掌握高等數學基礎知識,靈活運用解題方法,注重綜合分析問題和解決實際問題能力的培養,才能在考研中取得良好的效果。王艷潔[2]認為加強對學生的教育和管理,采用數學分層次教學法和開設選修課對提高考研率有一定的積極作用。蘇國榮, 戴中寅[3]基于粗糙集理論中的屬性依賴度原理,分析高考成績、高等數學課程成績和高等數學培訓成績對考研高等數學成績的影響大小。王小清,林榮華[4]利用考研心態調查問卷,對影響大學生考研心態的因素進行相關性分析。這些文獻通過對考研現狀的調查,探討了影響理科學生考研成功率的一些因素,但存在以下不足之處:一是僅通過簡單的描述性統計方法來分析考研成功率的影響因素,沒有估計影響的大小,分析不夠精確;二是僅僅研究了應變量和自變量之間的直接作用,而沒有考慮變量之間的間接關系。李建寧[5]利用路徑分析實證山西省1983-1993年份的大學入學率與人均GNP、全社會勞動生產率、人均教育經費支出等因素之間的相互關系, 但沒有給出用SAS 軟件程序。
本文介紹路徑分析原理,并結合我校2011-2013年理科考研情況的調查數據,給出路徑分析的SAS 軟件程序實例。
1.1 路徑分析的基本思想及概念
SEM與PA廣泛應用于社會科學領域,其基本特征見參考文獻[6-7]。SEM對結構理論的多元分析采用實證方法檢驗其中多個變量之間規定的因果關系,目標是確任一個假設的模型與采集的反應它的數據是否一致。SEM由兩個部分組成,即測量模型和結構模型。測量模型把可觀測響應“指標”與潛變量,有時也與可觀察的協變量聯系起來。結構模型則指定潛變量之間的關系,把潛變量在可觀測變量上進行回歸。路徑分析則是結構方程模型的特殊情形,它只有可觀測變量而無潛變量,只有一個結構模型,而且每個變量只有一個指標。完整的SEM包含路徑分析與因子分析,使用潛變量考慮測量誤差。
在PA和SEM中的基本概念:顯變量(測量變量),可直接測量;潛變量,不可直接測量的變量;外生變量,有出自它但沒有進入它的路徑(彎箭頭只簡單的描述變量間的相關性,不是路徑);內生變量,具有至少一條指向它的路徑。由于測量有誤差,所有的內生變量都附加一個誤差項,表示內生變量未被解釋的部分。
SEM路徑圖中常用圖標的含義:圓或橢圓表示潛變量或因子,正方形或長方形表示顯變量或指標,單向箭頭表示單向影響或效應,雙向(彎)箭頭表示相關,單向箭頭指向因子表示殘差項,單向箭頭指向指標表示測量誤差。
結構理論中的內生變量的因果模式是先驗的,即在PA中必須確定:(1)哪些路徑是重要的(直箭頭);(2)外生變量的方差是什么;(3)外生變量如何與另一個關聯(彎箭頭或協方差);(4)內生變量的誤差項(擾動項)是什么。
1.2 路徑系數
1.3 使用路徑分析的步驟
(1)根據相關理論和文獻資料,繪制一個沒有路徑系數的路徑圖。(2)以每一個內生變量為響應變量,以箭頭指向它的變量為自變量建立線性回歸方程。(3)改進模型。將路徑系數不顯著的路徑從路徑圖中剔除,然后重新建立回歸模型,給出各路徑系數與殘差。(4)模型評價:包括結構檢驗、相關性檢驗、測量模型可靠度檢驗、模型總體評價等。
2.1 假設路徑圖
圖1 考研成績影響因素的初始路徑圖
本文數據來自湖北工程學院2011-2013屆應用數學班和統計班考取研究生的所有學生。應用數學班的專業課一、專業課二分別指線性代數和高等代數,統計班的專業課一、專業課二分別指考研科目數學三和統計學。英語基礎指考生的四學期的大學英語平均成績,數學基礎指三個學期的數學分析、概率論、常微分方程、高等代數平均成績,四個學期的體育平均成績稱為體育基礎,思想道德修養與法律基礎、毛澤東思想鄧小平理論、三個代表重要思想、馬克思主義基本原理以及中國近代史綱要各科的平均成績稱為政治基礎。對于考生的考研成績取其考研成績通知單上的分數。關于學校類別,對211學校或985學校賦值1,其它院校賦值0。初始路徑圖(ei表示殘差項)設定為圖1。
2.2 SAS統計分析過程
在SAS中引導作路徑分析和SEM的程序是 CALIS過程[8]。 CALIS可用于分析協方差結構模型(實證因子分析)、含潛變量的線性結構方程、路徑分析模型。它們中的變量間的假設關系依據方差和協方差指定,再擬合到一個可觀測方差矩陣。CALIS過程的數據輸入有三種方式:(1)含有每個變量的標準偏差和觀測值數目的相關矩陣;(2)協方差矩陣;(3)使用原始數據作為輸入。本文使用相關矩陣,數據一旦被輸入,就得到用于實行路徑分析的描述性統計和相關系數。
2.2.1 SAS程序
DATA path1(TYPE=CORR);
INPUT _TYPE_ $ _NAME_ $ V1-V10;
LABEL
V1 = '英語基礎'
…
V10 = '考研成績';
CARDS;
N . 55 55 55 55 55 55 55 55 55 55
STD . 4.1265 3.0780 9.0208 11.2919 12.0444 21.9459 23.6689 3.9220 0.4903 31.9286
CORR V1 1.0000 . . . . . . . . .
CORR V2 .3602 1.0000 . . . . . . . .
……
CORR V9 .0937 -.0752 .1196 .1100 .03597 .0319-.01192 -.0695 1.0000 .
CORR V10 .0318 .2242 .2613 .4985 .5311 .6923 .5869 .1226 .1992 1.0000
;
PROC CALIS COVARIANCE CORR RESIDUAL MODIFICATION ;
LINEQS
V4 = PV4V9 V9 + PV4V1 V1 + E2,
……
V10 = PV10V4 V4 + PV10V5 V5 + PV10V6 V6 + PV10V7 V7 + PV10V8 V8+ PV10V9 V9 + E1;
STD
E1 = VARE1,
…
E5 = VARE5,
V1 = VARV1,
...
V9 = VARV9;
COV
V1 V2 = CV1V2,
…
V8 V9 = CV8V9;
VAR V1 V2 V3 V4 V5 V6 V7 V8 V9 V10;
RUN;
有關語句說明n =55是觀測值數目。在PROC CALIS語句選項中,首先,COVARIANCE告訴SAS要使用協方差矩陣進行分析。即使把相關矩陣作為數據輸入,SAS 仍為 CALIS過程計算協方差矩陣。CORR選項指定想要的輸出以包括賴以分析的相關矩陣或協方差矩陣。RESIDUAL選項,輸出絕對殘差和標準化殘差。MODIFICATION選項告訴SAS打印修正指標(如拉格朗日乘數檢驗等)。
LINEQS,給SAS提供特定的線性方程組,它們指定了要估計路徑。其中的第一個可以理解為:V4通過V4和V9之間的路徑、V4和V1之間的路徑、與V4相關聯的誤差的方差而受到因果影響。接下來是標準差線,它指定要估計的方差。最后,COV語句指定所有需要估計的協方差。變量線則簡單地列出了在分析中使用的變量。
提交程序運行后,產生長達26頁的輸出。其中,第11頁包括迭代歷史,顯示ABSGCONV收斂準則得到滿足。第13頁顯示擬合指數,RMSEA(近似誤差平方根)= 0.0527,接近0.05, Bentler & Bonett的標準化擬合指數NFI=0.8244,均表明較好的擬合。第15頁顯示標準化的殘差矩陣和10大標準化殘差,這些值接近零,意味著擬合較好。第17頁以原始形式顯示每個路徑系數,以及t值和標準誤差。第19頁提供了如下標準化的路徑系數和各內生變量的復相關系數的平方。
V4 = 0.1409*V1 + 0.0968*V9 + 0.9840 E2
PV4V1 PV4V9
……
V10 = 0.1294*V4 + 0.0395*V5 + 0.4925*V6 + 0.3011*V7
PV10V4 PV10V5 PV10V6 PV10V7
+ 0.1126*V8 + 0.2041*V9 + 0.7247 E1
PV10V8 PV10V9
最后一個的標簽表達式:考研成績=0.1294*考研英語+0.0395*考研政治+0.4925*專業課二+0.3011*專業課一+0.1126*體育基礎+0.2041*學校類別+0.7247 E1,它的=0.4749。從第20頁開始是修正指標的列表,一直繼續到26頁輸出結束。
2.2.2 修改并完成路徑圖的繪制
在線性回歸方程中考慮雙箭頭,從路徑圖中剔除路徑系數不顯著的路徑,然后重新建立回歸模型,給出各路徑系數與殘差。修改后的路徑如圖2,其中括號內的數值為決定系數,括號外的數值為路徑系數。
圖2 考研成績及其影響因素路徑圖
直接效應=自變量與考研成績的直接路徑系數,間接效應=各路徑系數的乘積,表示自變量通過其他變量間接的影響考研成績的程度。由圖2可知,專業課一除了對考研成績有直接效應外,還通過專業課二對考研成績產生間接影響。具體求解如下:
Effpart
V10<- V7 V6;
run;
提交后,可得專業課一對考研成績的直接效應為0.266,專業課一通過專業課二對考研成績的間接影響為0.69×0.421=0.29049,專業課一對考研成績的總效應為0.266+0.29049=0.55649。
同理得到專業課二對考研成績的總效應0.60853,學校類別對考研成績的總效應為0.33562,考研英語對考研成績的總效應為0.11042,考研政治對考研成績的總效應為0.09132。至此完成具有標準化路徑系數的路徑圖。
3.1 初步結論
根據以上的分析結果,可以得出以下初步結論:
(1)考研英語、考研政治、專業課一、專業課二和學校類別與考研成績呈顯著的正相關,而體育基礎、英語基礎、數學基礎、政治基礎對考研成績有一定的影響,但是不顯著,這可解釋為大學期間平時的考試只考察基本知識,考生只針對要考試的內容來復習,復習不全面,因而成績都相差不是很大,即各考生的平時基礎成績相差不大,因此對考研成績的影響不是很顯著,影響考研成績的是考生考研期間的態度與心態。
(2)專業課一與專業課二有強的相關關系,這可以解釋為二者在學習過程中有很多相通的地方;學校類別通過專業課二間接影響考研成績,這是因為專業課二是學校自主命題,考試難度自然也有所不同;考研政治通過影響考研英語來間接影響考研成績,在于考研英語和考研政治的許多命題與解題的方式大致相同,都以分析為主,需要較強的推理能力;考研英語與學校類別有直接的因果關系,雖然是統考試卷,但是學校對英語的劃線卻有所不同,因此考研英語也會影響到學校類別。
(3)對考研成績總效應的大小排序分別為:專業課二(0.60853)、專業課一(0.55649)、學校類別(0.33562)、考研英語(0.11042)和考研政治(0.09132)。
3.2 討論
本文路徑分析的部分結論不完全符合預期的假設,這或許與樣本容量大小有關。SEM是大樣本技術,樣本量依賴于模型復雜度、采用的估計方法及觀測變量的分布特征。為了增加樣本容量,本文合并兩個不同專業的考生數據,但對專業課進行了區分,數學基礎變量的取值也是根據專業課對應的必修課程來計算,這對最終的結果仍會產生一定的影響。實例分析表明,路徑分析的確是一種檢驗顯變量和潛變量之間的假設關系的綜合統計方法,是一種表示、評估和測試變量間主要線性關系構成的理論網絡的方法論。PROC CALIS路徑模型語言非常容易設定路徑模型,EFFPART 陳述能夠清楚地給出直接效應、間接效應及總效應。因而利用SAS中的PROC CALIS作路徑分析是非常便捷的。
[1]朱璟,鄧鵬.立足考研看高等數學的學習[J].高等數學研究,2006,9(3):59-64.
[2]王艷潔.學生考研數學的現狀分析及對策探討[J].中國林業教育,2009,27(2):11-13.
[3]蘇國榮,戴中寅.基于屬性依賴度的考研高等數學成績影響因素分析[J].蘇州大學學報:自然科學版,2012,28(3):89-94.
[4]王小清,林榮華.影響大學生考研心態的因素探析[J].沈陽教育學院學報,2009,11(4):19-21.
[5]李建寧.路徑分析在教育發展戰略研究中的應用[J].系統工程理論與實踐,2001(8):142-144.
[6]Karada·,E.Basic features of structural equation modeling & Path analysis and its place and importance in educational research methodology[J].Bulgarian Journal of Science and Education Policy (BJSEP),2012,6(1):194-211.
[7]Lleras,Christy.Path Analysis.The Encyclopedia of Social Measurement[M].New York:Academic Press,2005.
[8]SAS Institute Inc. Chapter 25: The CALIS Procedure. SAS/STAT 9.2 User's Guide. Cary, NC: SAS Institute Inc,2008:828-1023.
Path Analysis of the National PG Entrance Exam Results and SAS Proc Calis
ZHANG Xue-xin
(School of Mathematics and Statistics, Hubei Engineering University, Xiaogan Hubei 432000,China)
This study expounds the detailed structural equation model and the principle of analysis, and based on the sample of a college science student’s grad-school entrance exam from 2011 to 2013, path analysis can be viewed as a special case to explore English exam, Politics exam , Specialized Course One and Two, the family of school and Physical basis by what paths and how much influences to affect post-graduate entrance exam scores. Finally, it gives example of path analysis using the SAS proc calis.
SEM; PA; proc calis; PG entrance exam score; effect analysis
2013-10-23
張學新(1966- ),男,湖北宜城人,湖北工程學院數學與統計學院講師,博士,從事變點檢測、可靠性統計分析研究。
O212.4
A
1008-178X(2014)01-0047-05