史天化,唐國平
(1.福建工程學院外語系,福建 福州 350108;2.攀枝花學院外國語學院,四川 攀枝花 617000)
口語評分中評分員對評分標準的理解和使用
——配對口試評分的報告分析
史天化1,唐國平2
(1.福建工程學院外語系,福建 福州 350108;2.攀枝花學院外國語學院,四川 攀枝花 617000)
通過有聲思維實驗方法并輔以刺激回憶,收集四名不同性格傾向的評分員在配對口語考試評分時進行的思維報告數據,定性分析結果表明:在實際評分中,評分員對評分量表的理解和使用存在很大的差異性,具體表現在:(1)外向的評分員在評分過程中,表現的比內向的評分員更為寬容;(2)內向的評分員更多地關注評分量表中的各項具體指標和標準,而外向的評分員強調任務的完成狀況和考生之間的比較、交流,和互動;(3)外向的評分員比內向的評分員更少地依賴評分量表,更多地使用非語言的特征。本研究結果對考試評分標準的修訂和評分員培訓均有啟示。
配對口語評分;評分標準;口試評分
在語言測試領域,對口語評分的研究一直是口試研究的重點之一。目前,口語研究多側重于三人以上的小組測試模式,比如 Berry(2004),[1]Gary J.Ockey(2009)[2]等,很少有對雙人配對口語測試中有聲思維的作用以及評分員性格傾向對評分量表的不同理解和使用的研究。本文采用認知心理學研究方法——有聲思維進行試驗記錄,分析評分員大腦的思維加工過程,研究評分的認知過程。以某工科院校非英語專業大學生為實驗對象,研究雙人配對口語測試中有經驗的評分員的性格傾向對評分量表的不同理解和使用差異。
在過去二十幾年里,國外諸多學者專家們,如Iwashita(1998),[3]Orr(2002),[4]Lyn May(2009),[5]等等,就不同配對模式,學生外語水平,性格情感特征,學生學習風格偏好與學生性別,專業及母語類型等因素對口語產出產生的影響進行了一系列的研究。相比國外,國內在外語教學中的口語測試和口語測試領域的研究都要晚得多。目前影響最廣的大學英語四、六級考試和高校英語專業四、八級考試長久以來并不包含口語測試部分,直至1994年英語專業四級考試才開始進行錄音口試試點,[6]1999年大學英語四,六級考試才開始有條件的口語測試(考生筆試成績達到一定分數才有資格參加)。而在口語測試領域,研究課題主要來自國外研究的啟發和國內口語測試的實踐,包括測試形式,[7]口試真實性[8]以及大學英語口試[9]和英語專業四級考試[6]的效度等。
口語評分屬主觀性評分,往往通過讓考生完成一項指定任務,展示其在問題解決中的推理、判斷和表達等方面的技能,然后評分員依據既定的標準對考生的表現進行綜合評定。其評估是由評分員依據評分標準完成的,因此測試分數只能看作是實際語言運用的部分指標。也就是說,測試分數不能完全反映出考生的語言能力,因為分數還受到其他非語言因素的影響,比如評分員和評分標準因素。Skehan[10]提出,在配對口語中,口語評分是多重因素互相影響的結果,這些因素包括考生之間,任務特點,評分標準以及評分員等。其中,examiners和 task characteristics會影響到受試的performance,而評分員又按照評分標準進行評分,最終得出考生的口語成績。依據Skehan的口語評分模型,本研究要探討的研究問題是:(1)不同性格傾向的評分員在評分過程中的寬嚴度是否有差異?(2)不同性格特征的評分員在理解和使用評分量表方面是否存在差異?
1.實驗對象。
四名評分員參加了本次實驗,具有專業英語教學經驗2-12年不等,副教授職稱,其中性格偏內向和外向各兩人,其內、外向人格傾向和特征事先經“艾森克人格問卷量表”檢測。20名學生參加該實驗,年齡為19-21歲,系福建某工程學院一年級學生,從三個工科專業中隨機挑選出來。考生任務設計按照學院期末口語考試模式。首先,考生兩人一組,共十組,接著從12個備選題目中抽取試題,準備三分鐘,然后要求考生依據題目要求在三至五分鐘時間內完成口語對話。考生的口語產出全部通過計算機口語考試系統自動錄音。20名考生的音頻文件全部轉寫為文本文件。
2.研究工具和研究步驟。
本實驗采用有聲思維的方法,希望了解評分員特定的思維過程以及評分員在評分中使用了哪些方法和策略,另外,還想了解在評分過程中某些因素對思維過程和機制的影響作用。評分員在對考生的口語表現評分時可以隨時按暫停,在任何可能影響評分的狀況出現時,比如考生的某句話,甚至是一個單詞、習語的表達;也可能是評分員認為重要的,有意義的一些非語言特征,比如考生的情緒或眼神的交流等。
此外,并輔以刺激回憶(stimulated recall)。實施中盡可能多地給評分員口頭報告和回憶的時間。評分員一邊聽磁帶評分一邊盡可能地說出當時的真實想法,但是如果聽、說、評不能兼顧,可以隨時暫停錄像。另外,由于注意力有限,評分員很難做到評分和口頭報告同時順利有效進行。研究者會根據情況讓評分員再看一遍錄像,逐句播放,評分員在受刺激后回憶剛才評分時大腦中的想法,以對有聲思維進行必要地補充。
3.數據的收集與分析。
研究者對所有的錄音資料進行轉寫和定性分析,定性分析是再反復聽錄音資料、反復閱讀轉寫文本的基礎上形成的。
1.評分員在評分過程中不僅使用或參照了評分量表內的因素,而且融入了很多評分量表中沒有的特征和標準。
本研究關注的是在多大程度上評分員一致地使用了評分量表中的標準。要回答這個問題首先要了解該口語考試的評分標準。本實驗采用目前大學英語口語考試大綱中的評分標準。該標準從語言的準確性和范圍,話語的長短和連貫性以及語言的靈活性和適切性三個方面進行評價。(參照大學英語口語考試大綱及樣題,1999:4)

表一
表一羅列出了評分員在有聲思維報告中涉及的所有評分標準,包括語言特征和非語言特征。總的來講,不同性格的評分員都會基本按照表一中的各項標準綜合打分。但是,內向的評分員更多地強調語言準確性,流暢性,任務的完成情況,考生的自信程度,幽默情況,和對考生的第一印象。而外向的評分員則傾向于流暢性,語言范圍,靈活性和適切性及考生之家的交互性。在刺激回憶報告中,內向的評分者提到習語表達,語法結構準確,流暢或停頓、猶豫、重復,彼此交流互動,以及語言的發雜程度;而外向的則為:話語輪換自然,交流氣氛熱烈,較好地控制任務的完成,語言準確、流暢。可以看出以上不同性格的評分員在評分中各有側重,但是也存在個別的重合。像語言的準確,流暢,彼此交流,任務的完成狀況所有的評分員都有提及。

表二
2.從表二中我們可以看出評分員的總體評分傾向。
(1)內向的評分員在評分中使用積極性評論的比例為56%,而外向性的則遠遠高出,達到72%。這說明在有聲思維中,外向的評分員比內向的評分員更多地使用積極性的評論,更多地認可考生的表現,因此,外向的評分員在評分過程中,表現的比內向的評分員更為寬容。
(2)教育心理學的研究表明內向性格傾向偏好視覺型、獨自型和審慎型;外向性格傾向偏向場依存型和合作型。本研究也得出類似的結論:內向的評分員更多地關注考生個體地表現,而對考生間的差異,比較,互動的思維活動只占全部的18%;而外向的評分員高達31%。原因可能是在評分過程中,內向的評分員更多地關注評分量表中的各項具體指標和標準,而外向的評分員強調任務的完成狀況和考生之間的比較、交流,和互動。
(3)從表中評分員使用評分量表的情況看,即使是經驗豐富的評分員也不可能只注意考生的發音、語法、流利行和可理解性,而不被考生口語表達中各種各樣的其他特征所影響.所有的評分者在評分過程中不僅使用了評分量表中的各項指標,而且也根據自身的經驗融入了很多評分量表中沒有涉及到的非語言特征。內向的評分員思維活動中71%的涉及給定的評分量表,而剩余的29%則是依據自己的經驗和喜好,即依據表一中的非語言特征進行評分。與內向的評分員相比,外向的評分員更少地依賴評分量表(54%),更多地使用非語言的特征(46%)。
本研究在配對口語評分中使用有聲思維,分析了評分員性格傾向對評分量表的不同理解和使用差異。外向的評分員在評分過程中,表現的比內向的評分員更為寬容,更多地使用非語言的特征,更多地關注任務的完成狀況和考生之間的比較、交流,和互動。
基于以上研究結論,研究者對大學英語配對口語考試提出以下建議:(1)口語考試的題目應該讓考生能夠以信息交流和意義表達為出發點,提供盡可能真實的交際情景和語境。這樣才能夠保障口語測試的質量及測試的信度和效度。(2)設計明確詳細的評分標準和量表。測試評分過程中,評分員需要一份描述清晰,標準科學而又便于操作的評分標準和量表。評分量表應從語法能力,語用能力和社會文化能力三個方面來考察應試者運用語言來完成現實生活任務即以言行事能力。但是,評分標準的細分要恰當,標準越復雜,評分員所關注的面就越不一致,分數的信度,效度都會越低。(3)在評分標準上,口語評價的標準不是完全看語法、語音,而是要看交際效果和交際效率,語言能力只是交際能力的一個組成部分而非全部。(4)在評分量表中,只考慮考生與測試任務或考生自身各種能力之間的互動是不全面的,還應該從社會語言學角度把人際間的互動也考慮在內。尤其是在口語考試中,考生與考官,考生與搭檔間的互動在評分量表上要有所體現。
本研究為以后的口語測試的評分標準修訂以及評分員的培訓提供借鑒和依據,進而為傾向于犯不同類型的評分者偏差的評分員提供有針對性的培訓和反饋,從而提高測試評分的信度和效度。
[1]Berry,V.A study of the interaction between individual personality differences and oral performance test facets.Unpublished doctoral dissertation.King’s College,U-niversity of London.2004(1):25.
[2]Ockey,G.J.Is the oral interview superior to the group oral?[J].Working Papers on Language Acquisition and Education, International University of Japan,2009(4),165-167.
[3]Iwashita,N.The validity of the paired interview in oral performance assessment[J].Melbourne Papers in Language Testing,1998(5):51 -65.
[4]Orr,M.The FCE Speaking test:using rater reports to help interpret test scores[J].System,2002(30):143 -154.
[5]May,L.Assessment of oral proficiency in EAP programs:A case for pair interaction[J].Language and Communication Review,2009(9):13-19.
[6]文秋芳.英語口語測試與教學[M].上海:上海外語教育出版社,1999.
[7]盛越,管博.配對形式在口語考試中的作用——從劍橋第一證書口試看配對形式的作用[Journal of Lanzhou Railway University][J].蘭州鐵道學院學報(社科版),2000(5).
[8]鄒申.論口語測試的真實性[Foreign Language World][J].外語界,2001(3).
[9]熊敦禮,陳玉紅,劉澤華,黃更新.大學英語大規模錄音口語測試的研究[Foreign Language Teaching and Research][J].外語教學與研究,2002(4).
[10]Skehan,P:A cognitive approach to language learning[M].Oxford:Oxford University Press.1998:172.
Raters’Understanding and Utilization of the Rating Scale in an Oral Test:An Analysis of Scoring Process in a Paired Candidate Test
Shi Tianhua,Tang Guoping
This study adopted Think Aloud Protocol and stimulated recall to collect thinking data of four raters with different personality types.Qualitative researches demonstrate that raters have distinct understanding and utilization of rating scales.The more detailed findings are:⑴the introverted raters are more severe than extroverted ones;⑵the introverted raters pay more attention to the specific features of the rating scale,whereas extroverted raters concentrate task realization and the interaction of candidates;⑶the extroverted raters attend to more non-criterion features,and rely much less on the rating scale.These findings have implications for both the development of rating scales and the training of raters for paired candidate discussion tasks.
paired oral scoring;rating criteria;oral scoring
G642.475
A
1672-6758(2012)06-0033-2
史天化,碩士,講師,福建工程學院。唐國平,碩士,副教授,攀枝花學院。
2010年福建工程學院教育科學規劃課題(批準號:GB-K-10-18)項目成果,同時該課題為重大專項子課題,課題編號:GA-K-09-06
Class No.:G642.475Document Mark:A
(責任編輯:蔡雪嵐)