朱燕 谷珍
(北京城市學院 北京 100083)
口語測試中考官評分傾向性研究
朱燕 谷珍
(北京城市學院 北京 100083)
口語測試是語言測試的一個重要組成部分,但由于其自身的特點和要求,口語測試的評分一直被認為是十分困難的。語言測試難就難在“語言既是測試的目標又是測試的工具”[1]。正如Brown & Yule[2]所言,“口語測試一直以來都是英語教師頭疼的問題”。因為口語測試評分過程完全是主觀的,一般情況下雖然有描述性的評分標準,但考官在評分過程中的個人好惡和傾向性是難以避免的。本文擬通過TEP(Test of English Proficiency)口語測試,對考官評分過程中的傾向性進行分析。
(一)研究背景
1. 國內外研究現狀
口語測試的評分方法可以分為主觀評分和客觀或半客觀評分兩種。前者主要有綜合評分 (Holistic Rating) 和分項評分 (Analytic Rating)[3]。國內外對主觀性評分方法的研究非常多,其中,對評分主體(考官)的研究是口語測試中重要組成部分。所以,有不少的口語測試研究是以考官為對象的,如: 考官就受試口語水平看法的一致性[4];考官性別對測試結果的影響[5]。國內學者對口試考官也做了一些研究,但還不夠深入和廣泛,主要集中在測試的信度和效度上。本文主要針對分別進行綜合評分和分項評分的考官的評分傾向性進行研究。
2. TEP口語測試簡介
大學英語應用能力測試(口語)(Test of English Proficiency Oral,簡稱TEP Oral)主要是為了檢測學生經過學習后是否達到《大學英語課程教學要求》規定的英語口語教學目標。大學英語應用能力測試(口語)按四項標準評分:交際效果、內容和組織、語音語調、語法和詞匯。大學英語應用能力測試(口語)的評分員是獲得授權的考官。每場口試有兩名評分員,兩名評分員獨立打分。主考官評分員的分數占考生總成績的40%,副考官評分員的分數占考生總成績的60%。
(二)研究問題
口語測試中考官的評分傾向性表現可謂多種多樣,從評分關注的維度來說,有考官對評分因素關注側重的心理,從考官本身的背景來說,考官可能受到性別、年齡、專業、評分經驗和教齡等因素的影響,對口語評分有著不同的心理表現,從而形成評分的傾向性。限于研究的條件和論文的篇幅,本研究不能對評分傾向性面面俱到地進行研究,只選擇主要的評分心理事實和規律進行研究:即針對考生的語言特征和非語言特征,考官在評分過程中的評分傾向性。其中,語言特征包括交際效果、圖片描述、話題陳述、語音語調、語法和詞匯;非語言特征包括任務的完成情況、對考生的第一印象、考生的聲音質量、考生的自信程度、考生間的交流等方面。
(一) 研究工具和方法
研究工具包括: (1)評分標準和評分記錄表,評分記錄表包括整體性評分記錄表和分項評分記錄表;(2) 評分員調查問卷。評分員調查問卷的主要內容有: 調查考官對語言特征和非語言特征的關注程度。
研究的方法為實證性研究,通過對調查問卷和口語測試的評分結果的分析,揭示考官在評分過程中的傾向性問題,對這些評分傾向性的心理機制盡可能做進一步的解釋。
(二)研究樣本
研究樣本為參與一次考生規模為250人左右的TEP口語測試的全體18名考官。
(一)評分結果統計分析
研究人員針對主副考官的評分結果進行了配對樣本T檢驗,TEP口語測試的滿分為5分,主考官在評分過程中采用整體評分法,給出的是綜合評分(5分制),副考官則采用分項評分法,給出分項得分,再根據不同的比重,錄入excel中后,自動得出副考官總分(5分制)。從配對樣本T檢驗的結果可以看出,主考官均值高于副考官均值,高出0.073分,此外,主考官評分的標準差大于副考官評分的標準差,說明主考官評分差異大于副考官,即主考官在評分過程中的隨意性和主觀性表現更為突出。

表一 成對樣本統計量
(二)考官問卷統計結果分析
針對考生的語言特征和非語言特征,考官在評分過程中會表現出一定的評分傾向性,其中,語言特征包括交際效果、內容和組織、語音語調、語法和詞匯;非語言特征包括任務的完成情況、對考生的第一印象、考生的聲音質量、考生的自信程度、考生間的交流等方面。
本研究在問卷設計上根據以上語言與非語言的各特征,并結合考官對評分過程的解釋性說明。問卷統計結果如下:

表二 考官問卷統計結果
根據對考官的問卷調查統計結果,筆者得出以下結論:
1. 從考官使用評分量表的情況看,即使是經驗豐富的考官也不可能只注意考生的語言特征,而不被考生口語表達中各種各樣的其他特征所影響,所有考官在評分過程中不僅使用了評分量表中的各項指標,而且也根據自身的經驗融入了很多評分量表中沒有涉及到的非語言特征。副考官的評分活動中 73% 的涉及給定的評分量表,而剩余的27% 則是依據自己的經驗和喜好,即依據非語言特征進行評分。與副考官相比,主考官的更少地依賴評分量表,更多地使用非語言的特征為評分依據。
2. 在口語測試過程中,因為主考官與考生有語言交流,常常不自覺的使用積極性評論,更多地認可考生的表現,因此,主考官在評分過程中,表現的比副考官的評分員更為寬容,因此,主考官的評分均值高于副考官。
3. 在評分過程中,副考官更多地關注評分量表中的各項具體指標和標準,而主考官則更多地強調任務的完成情況和考生之間的比較和交流,以及考生的自信程度等非語言特征。
從問卷調查的解釋性說明中,我們可以看出考官重視口語可理解性和交際任務的完成,大部分考官認為口語的目的是交際,交際的功能的實現是通過信息的有效傳遞,那么,如果考生的口語能夠讓人聽懂,即能夠讓人理解,也就很好地實現了口語的功能。而口語測試中,主副考官評分傾向性的差異也為口語測試形式和標準的完善提供了一定的依據,同時也有助于口試考官在測試中按照評分量表規范評分行為,盡可能減少不確定的主觀因素影響,以期實現測試結果的公平性。
[1]Bachman, L. F. Fundamental Considerations in Language Testing[M]. Oxford: Oxford University Press,1990.7.
[2]Brown, G. & G. Yule. Teaching the Spoken Language[M]. Cambridge University Press,1983.102.
[3]李筱菊. 語言測試科學與藝術 [ M ] . 長沙: 湖南教育出版社,1997.
[4]Lazaraton, A. Interlocutor Support in Oral Proficiency Interviews: The case of CASE [J]. Language Testing, 1996a. (13) : 151-172.
[5]O'Loughlin, K. The Impact of Gender in Oral Proficiency Testing [J]. Language Testing, 2002 (19) : 169-192.