大學英語水平測試Rasch模型分析

2015-09-23 16:15:53郭恒達

讀與寫·教育教學版 2015年9期

摘要：Rasch模型作為一種概率模型，可以有效地對項目的難度和學生個體的水平進行估算。根據原始數據建立線性測量結構可以幫助我們發現項目間、學生能力間、項目和學生能力之間的關系。本文以貴州師范大學國際教育學院2014級HND項目學生為例，運用Rasch模型軟件WINSTEPS進行了分析，發現測試基本符合測量目的，個別項目雖然測量指標超出或沒有達到理想的取值范圍，但其設置有積極意義，應予以保留。

關鍵詞：Rasch模型大學英語水平測試 HND學生

中圖分類號：G642 文獻標識碼：A 文章編號：1672-1578（2015）09-0039-02

1 引言

隨著我國經濟的發展，社會和企業對人才的要求也相應提高。理論基礎扎實、實踐能力過硬的人才在激烈的職業市場競爭中備受歡迎。在此背景下，中國留學服務中心與蘇格蘭學歷管理委員會合作，把HND（Higher National Diploma，英國高等教育文憑）項目引入中國。該項目因其課程質量高，教學理念先進，管理體系嚴格，學術能力和職業發展并重，得到了世界上110多個國家的認可。由于該項目是中外合作辦學，為學生將來進入國外大學留學深造做準備，因此它對學生們的英語水平提出了較高的要求。而英語水平測試（Proficiency Tests）作為了解學生英語水平的重要形式，為進一步的教學計劃提供了參考，它對于英語考試研究也有著重要的意義。因此，如何對英語水平測試質量進行準確、全面的分析就顯得尤為重要。

Rasch模型是丹麥數學家喬治·拉什（George Rasch）提出的一種數學概率模型，它可以同時估計測試的項目難度和學生個體的能力水平。正確運用Rasch模型對學生進行評估，可以更深入地幫助教師理解學生的英語水平，為下一步的教學提供有力的參考。Rasch模型可以根據學生水平測試所獲得的原始數據來評估項目的難度和學生的個人能力水平，建立起項目難度和學生個人能力水平的關系，并把它們放在同一個等距水平的量尺上進行對比，使量尺上的單位距離具有同等的意義和價值。與此同時，Rasch還可以對水平測試項目的難度分布，項目得分和測試總分之間的關系，以及測量目標進行準確的分析，這些為分析測試質量提供了一個全新的視角。

近年來，許多專家學者運用Rasch模型對不同的主題進行了深入的分析。趙南、董燕萍（2013）利用多面Rasch模型對交傳測試進行了檢驗，指出分項評分標準能夠顯著地區分被試的口譯水平。劉紅云等（2010）使用多面Rasch模型，對初二學生語文學績測試評分員標準進行了研究，發現大部分評分員內部一致性和外部一致性良好。劉建達、楊滿珍（2010）對寫作測試中誤差來源，評卷質量，評卷人信度進行了多面Rasch模型分析。彭康洲，鄒申（2012）用Rasch模型和驗證性因子分析分析了詞匯和語法項目作答反應對構念效度的影響，發現詞匯和語法測試屬于彼此相關但又相互獨立的兩個構念測試。

2 研究方法

2.1研究對象

貴州師范大學國際教育學院2014級HND項目大一學生。

2.2 數據來源

貴州師范大學國際教育學院2014級HND項目大一學生英語測試成績。數據總量為124，剔除無效數據1個，實得有效數據123個。

2.3 數據處理

首先使用統計軟件SPSS 15.0預處理所得數據，之后用Rasch模型分析軟件WINSTEPS 3.74進行模型分析。

3 結果與分析

3.1樣本校學生成績描述統計

圖1是該校學生的成績分布圖。通過對圖1的分析不難發現此次考試學生對知識的掌握程度一般偏上，成績呈正偏態分布（=.20），少部分學生成績位于均值以上。

3.2 樣本校學生成績Rasch分析結果

圖2中，縱軸左邊是學生能力分布，縱軸右邊是項目的難度分布。從上到下，學生的個人能力水平不斷提高；相應地，項目難度也隨之增大。學生與學生之間的距離越遠，表示他們的能力水平相差越大；同理，項目間的距離越遠則表示其難度水平相差也越大。圖2中，測試項目和學生能力都幾乎呈現出正態分布。其中，樣本校學生能力水平寬度占了約5.1個logit，而測試項目的難度水平寬度占了約4.6個logit，說明學生能力水平略高于測試項目的難度水平。另外，改圖還體現出該次測試中有許多項目的難度水平比較接近。

表1是樣本校Rasch模型項目信息（部分）。在對項目難度和學生個人能力水平進行評估之后，Rasch模型繼續估計學生在每一個項目上答對的概率，并與觀察分數進行對比，得到兩者之間的差異，并用之來估計原始數據與理論模型的擬合程度。Infit MNSQ和Outfit MNSQ是Rasch模型研究通常報告的兩個擬合度指標。其中，Infit MNSQ是加權后殘差的均方，Outfit MNSQ為標準殘差的均方。如果Infit MNSQ和Outfit MNSQ的值為1.0，則表示數據和模型完全擬合；取值范圍在0.5～1.0之間表示數據與模型擬合良好；如果Infit MNSQ和Outfit MNSQ值大于2.0，就可以說明學生回答項目的方式和項目的設定方式出入較大；小于0.5則說明項目未能準確區分學生間的能力水平差異或學生間答題差異較小。Rasch S.E.為Rasch模型的標準誤，說明測試在考察學生能力水平時誤差的大小。Correlation是相關系數，表示項目和測量目的之間的擬合程度；較高的相關系數可以說明項目與測量目的擬合良好，能夠體現測試要考察的目標。

表1表明，全體項目的參數大體都在可接受范圍內，表示數據與模型擬合良好。此外，除項目15之外，全部項目都呈正相關。其中，第7、15、39的相關系數分別為0.04，-0.03和0.04，表明在實際測試中學生正確作答改項目與其能力水平關系不大。15題甚至出現了負相關，說明一些能力水平比較高的學生在此項目上的正確率甚至沒有一些能力水平低的學生猜測得出的結論準確。15題原項目為：A： Are you really sure that you are not going to come to my apartment for a drink with our friends？ B： _____， if you truly insist. 選項為：A. All right then. B. It depends. C. I dont care. D. Not at all. 通過分析，我們可以知道，該題正確選項為A。成績前十位的學生中竟然有七位在該項目上做錯，說明此題有一定難度。其中，在全部學生中，B選項的選擇率高達34.96%，可能是學生沒有正確理解“It depends.”的意義，誤以為“It depends.”意為“定下來了”之意。經試后訪談得知，學生中流傳著“如果不會，就蒙C”的“訣竅”，這在一定程度上也造成了該題相關系數偏低且呈負相關，Infit和Outfit MNSQ值超出正常范圍的結果。再以項目7為例，它的Infit MNSQ值為1.18，Outfit MNSQ值為1.64，兩項指標均在1.0之上。該題原題為We ____ very early the next morning， so we got packed the day before. 選項為：A. were leaving； B. have left； C. had left； D. leave。本題考查過去將來體的用法，但有54.47%的學生錯誤地選擇了C項。這說明許多能力水平較高的學生反而做錯了該項目。因此，該項目在區分學生能力水平時的誤差較大，但該項目設計得比較巧妙，通過“從句或分句為過去時，主句往往選擇過去完成體”這一看似正確的形式，其實巧妙地考察了學生對于過去將來體的掌握情況。因此，雖然該題的相關系數較低，Infit和Outfit MNSQ值超出了可接受范圍，該題也應該保留。它對于學生全面、細致地學習時態知識及解題具有積極的反撥作用。根據Rasch模型分析結果，可以推斷測試是否有效考察了學生能力、項目難度同學生個人能力之間的差異大小，由此調整項目內容或用其它合格項目來替代，以此提高我們測試的信度和效度，但對于一些有積極意義的項目，即使一些測量指標超出或低于可接受的范圍也應予以保留。

圖3中，每個氣泡代表一個項目，氣泡的大小與Rasch標準誤大小成正比，而氣泡的左右位置則表示每一個項目Outfit MNSQ值的大小。在理想的情況下，每一個氣泡都應該趨近圖的中軸位置，并且不應該發生重疊。從圖中我們可以得知，幾乎所有的氣泡都位于[0.5，1.5]這個取值范圍，表明原始數據與理論模型擬合良好，項目基本達到了測試目的。圖3中部分氣泡重合，表明測試項目難度水平比較接近或測試內容區別不大。21號項目的Outfit MNSQ值接近于1.5，因此有必要對該項目進行進一步的探討。從圖3中還不難發現，項目3、7、19、21、49對于估計學生能力水平時誤差較大。圖2顯示，3、19、49屬于比較容易的項目，7、21屬于比較難的項目。結合表1中關于樣本校Rasch模型的標準誤信息不難判斷，過于難和容易的項目在評估學生能力水平時都會出現比較大的誤差。

4 結論

本研究利用Rasch模型對樣本校的測試數據進行了分析。結果表明，本次測試基本符合其測量目標，但其中有個別項目需進一步考察，以提高測試的信度和效度；而個別項目雖然測量指標超出或沒有達到理想的取值范圍，但其設置對于培養學生正確、細心區別相近考點、形同義不同等知識點有積極意義，因此應予以保留。Rasch模型能夠對測試項目的難度和學生個體水平進行估計，根據原始數據建立線性測量結構，從而幫助我們發現測試項目之間、學生能力之間、測試項目和學生能力之間的關系，精確地揭示水平測試對學生個人英語能力水平評估的準確度，從而為我們完善項目提供合理依據，從而使得測試有更強的針對性。英語水平測試作為考察學生英語水平的重要手段，為英語的教學和科研的科學化做出了應有的貢獻。充分利用Rasch模型不僅可以更加有效地檢驗和改善英語水平測試，而且可以為教育研究者和教師科學評價測試質量以及學生的能力水平提供有力的指導。因此，我們有必要掌握Rasch模型，利用該模型對英語水平測試進行全面的分析，對測試本身及其分數作出公正、客觀的評價。

參考文獻：

[1]趙南，董燕萍.基于多面Rasch模型的交替傳譯測試效度驗證[J].解放軍外國語學院學報，2013，01.

[2]劉紅云等.學業水平測試中作文評分誤差的多面Rasch分析[J].心理科學，2010，04.

[3]劉建達，楊滿珍. 做事測試評卷中的質量控制[J].外語電化教學，2010，01.

[4]彭康洲，鄒申.TEM4語法詞匯項目的構念效度研究——基于Rasch和CFA模型的分析[J].外語與外語教學，2012，06.

作者簡介：郭恒達，男，山西太原人，貴州師范大學國際教育學院教師，碩士。

讀與寫·教育教學版2015年9期

讀與寫·教育教學版的其它文章: 遷移理論在高中體育教學中應用的探索; “陽光體育”在我校的開展難度及應對措施; 構建初中體育高效課堂的有效策略; 信息技術在生物學科課堂教學中的運用; 淺談初中生物實驗教學過程中的快樂教學原則; 淺談高中生物生活化教學策略