大學英語口語測試中評分員效度研究

2016-11-07 11:16:42王顯濤

文教資料 2016年19期

王顯濤

摘 ? ?要：在大學英語配對口語測試過程當中，有關評分寬嚴度與一致性常會受到多面Rasch模型（MFRM）的影響，發揮出一定作用。本次研究通過SPSS與MFRM分析的方法，將10對考生作為研究對象，依靠4名經驗評分員對口試加以有效評價。結果顯示，具有各異性格特點的評分員對寬嚴度方面的評價是不同的，相較于外向型評分員，內向型更加嚴格;表現在一致性方面的差異卻微乎其微。

關鍵詞：多面Rasch模型 ? ?評分員效度 ? ?寬嚴度 ? ?一致性

作為口試中的重要目標，口語評分是其中主要的測試環節。在我國現有外語考試當中，口語方面的測驗必不可少，旨在對學生的口語表達水平加以檢驗。在這過程當中，在評分的信度、合理性、公平性方面的問題可謂教學研究的焦點和關鍵。以當前情況來看，一般超過3人的小組形式測試最為常見，而專門的雙人配對口語測試卻十分稀少，并將個性因素作為影響評分方面的探究重點。本文基于我國高校英語課程公共必修的屬性特征，與新建應用型本科院校特征緊密聯系，以實證方式研究在雙人配對的口語測試中，評分員表現出的傾向行為。

1.研究英語口語測試當中評分員效度的重要價值意義

充分利用《大學英語課程教學要求（試行）》中的規定，在學生口語能力訓練方面有如下規定，包括語音和語調、表達連續性、溝通交流技能等幾點。在借鑒和利用以往實踐研究經驗和環境條件的基礎上，能夠實現的任務內容涵蓋了：①短文的朗誦、②情節的復述、③依圖講話、④結合視頻短片的要求、⑤即興演講、⑥溝通交流、⑦分組探討。

顯然，①②顯示出較弱的交際特征，以考查學生語音語調為目的;而③④⑤目標的交際性特征也不顯著，著重對學生連續性表達技能加以考察;最后兩個則顯示出很強的交際性特征，依照準備的情節與內容進行表達和反應。所以，本次研究測試可以將這三個方面劃分成三類：依次為A、B、C，便于比較不同目標下的測試效度差異情況，從而找到能夠對學生語音語調、表達連續性、溝通交流技能均予以檢驗的口語測試任務設定，并予以推廣。

1.1研究價值意義

作為一類主觀性評分，口語評分旨在引導學生按照一定指標要求完成相應任務，將其中表現全部顯示出來，了解具有的分析、判斷及表達能力，隨后依靠評分員實施綜合分數評價。在此過程中，參與評分人員具有的個人特點非常重要，比如：經驗情況、文化水平、情緒態度及疲勞狀況等因素，在評分信度、效度當中均會有所干擾[1]，由此造成測試中產生評分偏差。學者Skehan指出，造成配對口語評分產生偏差的原因主要為多重因素互相影響造成，其中涵蓋任務目標特征、考生、評分員各自間及評分要求的差異影響。

回顧以往二十多年，來自國外的Iwashita，Orr，Lyn May等專家都對配對模式各異、外語水平、性格差異及學生愛好、語言類型等方面給口語造成的影響情況加以研究，而我國則起步較晚，主要包括目前大學英語四、六級考試、英語專業四、八級考試等，并沒有將口語測試納入其中。直到1994年的英語專業四級考試中，口語錄音測試首次執行（文秋芳），1999年，大學英語的四、六級考試內容中包含口語測試[2]。縱觀口語測試的研究范圍，以國外相關研究啟示與我國口語測驗實踐為主，其中存在形式測驗、（盛越，管博），基于真實性的口試（鄒申）、大學英語口試測驗（熊敦禮等）及英語專業的四級考試效度研究等。（文秋芳）

1.2概念辨析

1.2.1表面效度

表面效度在指從測試的表面來看的可信度，不過在實際應用中具有較大的爭議，有一部專家學者認為表面效度并沒有實際意義，而且在測試衡量上并不科學，和測試效果沒有直接聯系。也有部分專家學者認為，表面效度是測試的基礎，只有從表面測試為有效之后，才能進行下一步測試，發揮出更好的水平，從測試角度做出更為合適的反應。如果被測試人員面對測試態度不端正，那么這一態度勢必會影響其在測試中的發揮，并且對測試結果造成不必要的干擾。這一問題需要將被測試人員的感受作為衡量標準，明確他們對測試的態度和反應，這樣才能取得最為合理的表面效度數據資料。

1.2.2結構效度

結構效度是衡量被測試人員在表現上的特征和素質上的體現，是測試的內部關聯性的一種重要的衡量方式。具體來說，測試的內部關聯性是指在測試過程中，其中各個組成成分之間相互關聯，組成了不同的組成結構，并且形成了不同的素質體現，這些不同的素質體現在一定程度上會影響受測試人員的語言能力。如果結構的各個組成部分的相關系數較低，那么證明測試項目可行，能準確衡量受測試者的技能水平，而如果相關系數較高，那么可以認為這兩個測試項目在實質上是同樣的測試項目，并不用區分考慮，那么測試的時候可以選擇去掉其中一個測試項目，留下一個測試項目保證測試的準確性、合理性和科學性[3]。

1.2.3并存效度

并存效度屬于測試的外部效度，可以通過某個測試項目的規律總結分析其效度，如對固定測試分數和同類型的受測試者在同一時間所做出的其他結果進行衡量，這也是可以體現不同的測試樣本和版本的比較過程[4]。另一種測試方式是受測試者對自身語言能力進行自我評價，然后教師對受測試者的相關能力進行評價，兩個評價結果進行對比，保證其并存效度的相關系數在0.5到0.7之間。

2.大學英語口語測試中評分員效度實驗分析

2.1測試對象

本文提出的大學英語口語測試中評分員效度實驗選擇了經管學院一年級的學生，學生平均年齡為20歲，共20名，從花名冊中隨機挑選出來。

測試任務主要是經管學院英語期末考試的口語部分。

受測試學生共分為十組，每組成員都從15個備選題目中抽選測試試題，經過三分鐘的準備時間按照順序在3～5分鐘之內完成口語對話，學生的測試口語由計算機識別錄音保存，全部十組學生的錄音作為音頻文件保存[5]。

2.2評分

本次大學英語口語測試中評分員效度實驗測試選擇的評分人員是四位有著豐富的口語評分經驗的大學英語專業教師，并且具有副教授級職稱。在四位評分教師評分之前對其進行性格測試，保證性格的取向偏內向和偏外向的各兩名。

評分標準是受測試人員的口語表達準確性，包括詞匯的運用、語言的連貫性、語言的實用性、語言的靈活性和兩人之間的交流狀況，對十組受測試人員進行評分。

3.大學英語口語測試中評分員效度研究結果

本次實驗采用SPSS和Rasch模型（Linacre）對評分結果進行分析，Rasch模型是由丹麥數學家Rasch提出的數據處理模型，主要是分析受測試人員的能力和項目的難易程度之間的雙層模型，在數據統計和參數估計上優勢明顯，并且在數據處理上極為簡單，得到了較為廣泛的應用。多面Rasch模型可以獨立分析評分人員的性格導致的寬嚴度，并且和受測試人員的能力和項目的難易程度相結合，對其中誤差加以校正，尤其主觀印象對評分結果的影響，有效地消除誤差，減少評分結果的不合理之處，提高評分結果的準確度和可信度。本次實驗的數據處理模型上都有獨立的參數設定，以logits（洛基量尺）作為衡量單位[6]。本次研究主要是采取Rasch模型，準確分析在分組口語測試中，評分人員性格特點對評分過程寬嚴度的影響，找出一致性，找出影響評分人員評分偏差的因素。一般來說，評分的寬嚴度在-2～+2之間屬于正常誤差，不會影響結果的準確性。Rasch模型評分人員寬嚴度估計見表1。

表1 ?Rasch模型評分人員寬嚴度估計表

3.1評分員寬嚴度分析

從表1可以看出，本次實驗選擇的四位評分人員是評分寬嚴度都在誤差可以接收的范圍內，可以證明本次實驗評分結果的準確性[7]。系統分析四個評分人員的寬嚴度可以看出，評分人員D的寬嚴度數值為-0.39，屬于四位評分者中最為寬松的評分人員，而評分者B是寬嚴度數值為0.88，是四位評分者中最為嚴厲的評分人員，評分員B和評分員D之間相差了1.27洛基量尺，從第五列的內適合度均方來看，評分員的評分寬嚴度和自身的特點相一致。一般來說，Rasch模型允許評分者的一致性在一定范圍內上下浮動，但是如果某個評分者的上下浮動幅度過大，那么說明該名評分者評分的穩定性較差，缺乏一致性，一般來說浮動范圍是在0.8～1.2之間[8]。適合度小于0.8或者適合度大于1.2的評分者可以認為在評分過程中受到主觀印象和性格的影響較大，并不穩定，沒有按照評分標準完成評分過程，缺乏一致性。從表1可以看出，評分員A的適合度值小于0.8，說明評分者A在評分過程中采取的測量的安全策略，變化幅度過小，一致性過高，并沒有根據受測試人員的表現進行合理的區別和區分;而評分員C的適合度值為1.44，說明評分員C在評分時受到自身性格和主觀的影響較大，自身缺乏一致性，評分標準并不穩定，可以說評分員A和評分員C在評分過程中都缺乏一致性，而評分員B和評分員D的適合度都在0.8～1.2的范圍之內，一致性較好。最后一列是標準差，是評分者寬嚴度估計值的標準差，都為0.10，表現了這一寬嚴度估計值的準確。

3.2評分偏差

表2主要體現了四位評分人員對受測試人員口語能力測試的評分和學生實際口語能力之間的偏差，為了觀察和研究方便，本文只選擇前五名和后五名進行研究。

表2 ?偏差分析表

從表2來看，第三列為受測人員的口語能力，第四列為受測試人員實際得到的分數，第五列是根據系統模型分析得出受測試人員的應得分數，第六列是均值，第七列是偏差值，第八列是誤差值，最后一列是偏差度的Z分數。上文提到過偏差度的合理范圍是-2～+2，如果偏差度大于+2，則說明評分員在評分過程中過于嚴格，如評分員A在評論受試者5號的時候，偏差度為2.07，大于2，證明這次評分過于嚴格，偏差過大，本次評分不合理，不能作為最終評價結果。除了這一結果之外，所有評價結果都屬于有效評價，具有一定的統計學意義。另外，從表2中可以看出，前五位受試者是期望值大于實際得分值，也就是說這五名受測試人員的實際口語能力大于他們獲得的評分，評分員對他們的評分過于嚴格，導致評分偏低[9]。而后五名受測試人員的期望值低于評分值，說明這五名受測試人員的實際口語能力不夠他們獲得的評分，評分員對他們的評價過于寬松，存在一定的偏差。總之，通過這一分析可以看出，評分員的性格特征會對評分結果造成影響，而內向性格的評分員嚴格程度要高于外向性格的評分員，在評分一致性上，內向性格和外向性格對評分結果沒有明顯的差別影響。

4.總結

國家教育部最新《課程要求》針對非英語專業大學生的外語素質訓練宗旨更為明確和系統，以聽說技能為培養重點，其中提到“大學英語的教學目的是培養學生英語綜合應用能力，進而幫助其更好地適應與應對未來的工作任務，可以熟練地使用英語予以口頭及書面溝通[10]”。強調教學過程中準確評估的作用價值所在，不僅要認真執行終結性的評估模式，還要注重對學生實踐能力的考察、指導與評測，使其具備高水平的口語及書面表述技能[11]。為了對學生學習成效加以檢測，推行大學英語口語測試不失為一種好方法，當可以在考試中保證一定的科學嚴謹性，以合理的考察方式，嚴格的考場紀律的時候，最終形成的考試結果便可以對學生知識掌握程度做出真實反映，進而提高學生的實踐能力，讓其可以從中清晰地了解到學習內容的重點，幫助校方老師及時對學生的情況加以掌握，方便有針對性地對教學內容和方案進行優化調整。顯然，推進大學生的英語口語測試，不但是在落實教育部《課程要求》，完成對大學生英語口語能力的提升任務，而且有助于學生及時糾正錯誤的學習方法。然而鑒于大學英語口語測試開展過程中存在諸多困難[12]，比如：涉及范圍廣泛、執行復雜、耗時多等弊端，因而想要達成設計合理、樹立一定的規范性、確保結果的準確性等方面是非常困難的。本次研究以具體的大學英語口語測試案例為研究對象，加以分析，參照考察后的結果，做出多維判斷，權衡利弊，完成有關展望和設想，以便提供給相關部門及人員更多的指導和幫助。

在本次針對配對口語評分的研究當中，有效引入多面Rasch模型，分別對內外向型評分員處于評分當中的表現加以分析，包括評分偏差、寬嚴度和一致性等，進而提供給后續研究和實踐更多的啟示，尤其對于那些具有不同評分偏差評分員來說，可以起到良好的反饋與訓練作用。當然，評分員自身的認知程度研究不容忽視，評分員應對參考的那些評分規定和其他無關信息進行細致的分析，這樣便能夠運用有聲思維方式對信息方面的問題加以合理處置，以便進一步探究完善。

參考文獻：

[1]徐坤銀.計算機輔助口語測試的真實性分析[J].科技信息，2010（11）：18-19.

[2]閻艷琳.口語測試研究綜述[J].山西煤炭管理干部學院學報，2009，26（4）：58-59.

[3]景恒偉，馬麗玲.英語口語測試任務與類型及其對測試表現影響的研究述評[J].甘肅高師學報，2015，20（1）：45-49.

[4]周小琴，李欣.任務型口語測試與大學英語口語教學改革[J].吉林省教育學院學報，2010（02）.

[5]薛榮.論交際口語測試及其評分方法[J].外語教學.2009，30（6）.

[6]沈淼.口語測試及評價[J].科技信息，2008（15）.

[7]丁愛云.形成性口語評價——激發學生學習熱情的口語測試新模式[J].天津工程師范學院學報，2007，17（2）：

70-74.

[8]高見.論影響口語測試的相關重要因素[J].科技信息（科學教研），2007（22）：215-215，224.

[9]張云梯.基于計算機的口語考試中的一些問題的分析及改進方案[D].中國科學技術大學，2008.

[10]寧見紅.大學英語期末面試口試與機助口試的對比研究[D].廣西師范大學，2009.

[11]王麗.基于《英語課程標準》的計算機輔助高考英語口語測試的研究[D].華中師范大學，2011.

[12]周欣.計算機化高考英語口語測試中整體性和分析性評分方法的對比研究[D].廣東外語外貿大學，2008.

基金項目：江西省高校人文社會科學研究項目（22321

074）