【摘要】SYSTAT是一款集經典測量理論和項目反應理論為一身的統計軟件。文章結合外語測試研究實踐—— TEM4語法詞匯題的項目分析,介紹該軟件的常用功能與操作方法,為推動現代信息技術與語言測試的整合提供技術支持。
【關鍵詞】SYSTAT;項目分析;經典測量理論
【中圖分類號】G420【文獻標識碼】A 【論文編號】1009—8097(2011)02—0077—04
一 引言
將現代信息技術運用于語言測試研究是當今測試研究的趨勢所在?;诂F代信息技術的教育測量統計軟件運用于外語教學及測試的研究在我國起步較晚,許多外語教師對其如何用于試卷質量分析還感到陌生。Microsoft Windows系統自帶的Excel軟件可以處理經典測量理論(Classical True Score Theory,簡稱CTT)中的項目分析(Brown,2005)[1]。除此以外,SPSS可能是外語教學和測試研究中使用最頻繁的統計軟件(劉寶權、席仲恩,2004)[2],但該軟件也只能完成經典測量理論中的相關統計任務。隨著項目反應理論(Item Response Theory,簡稱IRT)的發展,一些專業統計軟件如BILOG-MG,FACETS等被用于試卷分析中,與Excel,SPSS軟件相比,能夠呈現考生的答對概率和能力之間的關系,估算傳統意義上的項目難度、區分度,甚至考生答對題目的猜測概率。但是這些軟件蘊含晦澀難懂的數學和統計學原理,價格比較昂貴,普及程度較低。SYSTAT是一款集CTT和IRT為一身的統計分析軟件,界面友好,自學方便,但是目前在外語教學研究中的應用卻不多見。
語法詞匯是外語教學研究與實踐的一大重點。《高校英語專業四級考試大綱》(2004年版)(高校英語專業四級考試大綱修訂小組,2004)[3]提出通過語法詞匯題測試學生掌握詞匯、短語及基本語法概念的熟練程度。語法詞匯屬于語法能力及語法知識的重要組成部分,對培養學生的交際語言能力至關重要(Bachman,1990;Bachman Palmer,1996)[4] [5]。《高校英語專業口試大綱》(高校英語專業四級口試大綱編寫小組,2005)[6]將語法和詞匯納入口語能力評價體系,足顯其重要性。英語專業四級考試(以下簡稱TEM4)已有近二十年的歷史,專門針對TEM4語法詞匯項目質量的相關研究卻不多見。
本文嘗試運用SYSTAT統計軟件分析TEM4語法詞匯質量,同時希望借助詳細的介紹,與更多的一線外語教師和研究者分享SYSTAT軟件在定量分析的應用功能,其目的在于讓現代信息技術更好地服務于外語教學與測試研究。
二 SYSTAT軟件概述
SYSTAT是統計學家T.Krishnan教授領導的核心團隊開發的一種集數據分析、技術繪圖和演示的專業科學軟件,幾乎囊括所有統計功能。該軟件除了具有SPSS已有的常見統計功能,如描述統計和推斷統計等功能外,還有專門進行測驗試題分析的模塊 — Test Item Analysis(簡稱TESTAT)。TESTAT的試卷質量分析包括CTT和IRT項目分析。SYSTAT非常適合教學及研究使用,使用對象涵蓋了所有理工農醫法商各科系,是美國許多大學規定的統計教學研究工具,但在國內還局限于醫學范圍內的研究。
2008年SYSTAT Software公司發布了專門針對廣大師生可免費下載的統計分析軟件MYSTAT12(下載地址:systat.com/products/mystat)。MYSTAT12具有SYSTAT 12大部分的核心統計功能,常應用于本科和研究生初級階段的統計相關課程。本文探討將這一工具引入語言測試客觀題的質量控制環節,使外語教師和研究者都能了解并學會該軟件。
圖1顯示了 SYSTAT 的TESTAT(項目質量分析模塊)功能界面。數據的輸入準備大致和EXCEL、SPSS等一樣,不同之處在于,變量屬性的設定需點擊變量名,根據需要設定變量名的類型。圖1所示的Classical分析指CTT的項目難度、區分度和信度分析,Logistic分析指IRT的單參數和雙參數模型分析(彭康洲、李清華,2009)[7]。SYSTAT只適合以0,1計分(答對記為1,答錯記為0)的客觀題的項目分析。

目前,常見的試卷質量分析方法包括三類:CTT、概化理論(Generalizability Theory,簡稱GT)和IRT(Bachman,1990;漆書青、戴海崎、丁樹良,2002)[4][8]。從CTT的角度來講,試題的質量分析主要對其難度和區分度等指標做統計分析,測量誤差籠統,信度和效度單一,但目前使用仍較多。概化理論中,多種誤差來源可以在同一個分析中分別估計(楊志明、張雷,2003)[9]。IRT采用統計概率的量表化模型,將被試能力與項目難度定義在同一量表上,引進信息函數概念,處理信度問題的方法更為準確。目前的項目反應理論已從單維模型發展到多維模型。限于篇幅關系,本文著重介紹傳統的題目質量分析方法,項目反應理論的分析方法將另文講解。感興趣的讀者可參閱Henning(1987)[10],余嘉元(1992)[11],Brown(2005)[1],鄒申(2005)[12],彭康洲和李清華(2009)[7]。
三 TEM4語法詞匯題的質量分析
1 研究問題
本研究借助SYSTAT擬解決2個問題:(1)從CTT和IRT角度來講,2007年的TEM4語法詞匯題的難度和區分度如何?(2)考生能力分布如何?TESTAT所顯示的統計結果除了兩種測量理論所含的項目難度和區分度指標以外,還顯示不同能力水平上的考生人數,類似于傳統的各個分數段的人數比例,以及不同能力水平段上的考生答對題目的概率。第一個問題可以采用SPSS和SYSTAT來完成,但是第二問題只能采用SYSTAT來實現。為了檢驗語法詞匯項目是否考查一個維度的能力,我們需要進行探索性因子分析,若提取的一個因子能夠比其他因子更能解釋這個項目,則說明這個項目考查的能力是單維性的。
2 操作方法
本文旨在通過范例操作,詳解SYSTAT的試題質量分析功能,并非專門研究語法詞匯題的質量,所以從2007年TEM4考生中隨機抽取1%的樣本,共計2490個考生。SYSTAT的操作方法和SPSS一樣簡便,只需將所需統計的題目選中,添加到右邊的“測驗項目”(Test items)方框內,如圖2所示。

3 結果分析和討論
(1)語法詞匯項目的單維性檢驗
本研究采用該軟件多維方差分析模塊(Multivariate Analysis)的因子分析功能,使用反復迭代主軸模型(Iterated Principal Axis)的正交旋轉法。結果顯示,語法詞匯項目只有一個特征根值(eigenvalues)大于1,而且第一個因子的特征根值比第二個因子的特征根值大4倍以上(如表1所示),可以認為該項目考查單一的知識或能力,達到了出題者測試學生的語法詞匯能力的目的。

(2)語法詞匯項目的難度、區分度和信度
使用該軟件的Scale模塊,統計項目的Cronbach信度。結果顯示,依據現有的樣本(2490),語法詞匯項目的信度為.6479,比較理想。該項目的平均分為14.29分,標準差為4.16分,最高分為25分,最低分0分。統計結果同時還呈現了考生的原始分數和標準分數(Z分數),這樣便于對學生做選拔和排名(如表2所示)。和SYSTAT相比,SPSS軟件無法直接估算題目的標準分數。為便于了解考生整體的水平,該軟件還用柱形圖的形式呈現出各分數段的人數和累積百分比(如圖3),其中分數段參照15個標準分1(從-3.25~+3.25)。從圖3可以看出,語法知識掌握非常好的考生2(累積百分比為90.36及以上)不多,大約為24.37%(14.74%+6.35%+2.65%+0.64%),語法知識中等的考生約為16.75%,而58.88%的考生語法知識沒有掌握好。和SYSTAT相比,SPSS可以對成績做累積百分之比排列,但是不能像SYSTAT那樣從項目反應理論的角度將分數轉換成以0為平均分,1為標準差的標準分數。

該軟件詳細地呈現出每道題目和整個項目信度的關系,即題目的區分度(如表3所示)。如果去掉某道題目后,整個項目的信度反而提高,說明這道題目對整個項目的影響很大,不利于區分考生,其區分度較低,需要進一步改進。如前所述,語法詞匯項目的信度為.6479。這樣,2007年的語法詞匯項目有7道題目的區分度不甚理想(第58、63、66、71、75、76和78題),需要依據情況做修改。SYSTAT的這一功能在SPSS中也可以實現。

為了解區分度較差的題目的問題,該軟件提供了不同能力水平的考生在該題的分布情況(如圖4所示)。可以看出,71題的難度非常大,只有3.5%的考生(Mean = 0.035)答對,無論哪種水平的考生,答對此題的機會都較少。和SYSTAT相比,SPSS無法實現這一功能,而SYSTAT非常直觀地呈現出試題區分度存在的問題。

又如,第58題,能力水平極低的考生(Z = -.250)答對此題的人數高達71.43%,而與此對應的能力水平極高的考生答對此題的人數卻為62.5%(如圖5所示),說明此題的區分度存在問題。

(3)試題質量的定性分析
有問題的題目需要從定性角度來分析問題的根源。定性分析通??梢越柚忌拇痤}過程,借助有聲思維發現問題,也可以直接分析題目本身,找出個中原因。本文就試著從試題本身來分析,限于篇幅,僅舉一例。
71. This sort of rude behavior in public hardly ________ a person in your position.
A. becomesB. fits
C. supportsD. improves
此題給定的答案為A。圖5顯示語法能力最好的考生(Z = 2.5)中只有12.5%的能答對,而能力很差的考生(Z<-1.5)中竟然超過11%的學生能做對此題。因此該題不能有效地區分學生的水平。此句源自Merriam-Webster's Learner's Dictionary: “This kind of behavior hardly becomes a person of your age and position”,此處become表示“適合”。而選項B“fits”恰恰有“適合”之意,具有較強的干擾作用,當然在此上下文中,它無法直接搭配“person”,而通常是fit something或者fit somebody for something。
四 結語
本研究僅從項目難度和區分度示范了SYSTAT對試題質量控制的作用,并且指出和SPSS的異同,沒有提及語法詞匯題的效度問題。雖然效度驗證較為復雜,但是題目的難度和區分度也會影響題目的效度。教師們掌握外語教學研究中新的統計軟件,就會多一種角度來審查試題的質量,提高命題質量,更加有助于診斷教學問題。測試和教學有著相輔相成的聯系,試題質量決定著教師了解學生語言能力的準確性,從而促進語言教學。
注:1標準分數是一個統計術語,它描述的是某一個分數在群體中所處的位置。在統計學中,標準分數的計算公式:Z=Xi-XS。公式中Xi表示某人實測成績,在統計學中稱為原始分;公式中的X和S表示標準化群體某個學科某次測驗的平均分和標準差。
2根據圖3所示,語法詞匯題得分的累計百分比在80%以上的考生屬于優秀,成績累計百分比位于70%-80%之間的考生屬于良好;累計百分比在60%以下的考生屬于差生。
參考文獻
[1] Brown, J.D. Testing in Language Programs: a Comprehensive Guide to English Language Assessment [M]. New York: McGraw-Hill, 2005.
[2] 劉寶權,席仲恩.SPSS在英語試卷統計分析中的應用[J]. 外語電化教學, 2004, (1): 63-65.
[3] 高校英語專業八級考試大綱修訂小組.高校英語專業八級考試大綱[M].上海:上海外語教育出版社, 2004.
[4] Bachman, L.F. Fundamental Considerations in Language Testing [M]. Oxford: Oxford University Press, 1990.
[5] Bachman, L.F., A.S.Palmer. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996.
[6] 高校英語專業四級口試大綱編寫小組. 高校英語專業四 級口語考試大綱[M].上海:上海外語教育出版社, 2005.
[7] 彭康洲,李清華.應用IRT模型分析TEM4聽力理解項目的質量[J].外語教學理論與實踐, 2009, (3): 49-56.
[8] 漆書青,戴海琦,丁樹良編著.現代教育與心理測量學原理 [M].北京:高等教育出版社, 2002.
[9] 楊志明,張雷.測評的概化理論及其應用[M].北京:教育科學出版社, 2003.
[10] Henning, G. A Guide to Language Testing: Development, Evaluation, Research [M]. Rowley, Massachusetts: Newbury house. 1987.
[11] 余嘉元.項目反應理論及其運用[M].南京:江蘇教育出版社, 1992.
[12] 鄒申.語言測試[M]. 上海: 上海外語教育出版社, 2005.
Application of SYSTAT to Language Testing Research
——A Case Study on Grammar and Vocabulary of TEM4
ZHANG Yan-li1 PENG Kang-zhou2
(1.College of International Cultural Exchange, Shanghai International Studies University, Shanghai, 200083, China;
2. School of Foreign Languages, China West Normal University, Nanchong, Sichuan, 637009, China)
Abstract: SYSTAT boasts the statistical features of Classical True-Score Test Theory and Item Response Theory. This article intends to illustrate its function and operation by an empirical research in TEM4, hoping to be a good beginning of the integration of Information Technology and language testing research.
Keywords: SYSTAT; item analysis; classical true-score theory
*基金項目:本文受上海外國語大學英語學科“211工程”三期重點學科建設項目“現代技術和語言測試研究:方法和應用”(編號:211YYZYL01)資助。
收稿日期:2010年11月1日
編輯:李原