計算機輔助口試評分穩(wěn)定性歷時研究
——以PRETCO口試為例

2021-04-30 08:38:24楊志強李志芳董曼霞

外國語文 2021年2期

關(guān)鍵詞：研究

楊志強李志芳董曼霞

(1.重慶科技學(xué)院外國語學(xué)院，重慶 401331/廣東外語外貿(mào)大學(xué) 外國語言學(xué)及應(yīng)用語言學(xué)研究中心，廣東廣州 510420；2.陸軍軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)院外語教研室，重慶 400038；3.四川外國語大學(xué) 商務(wù)英語學(xué)院，重慶 400031)

0 引言

外語口語能力是外語水平的直接表現(xiàn)。隨著英語口語越來越受到重視，參加口試的考生逐年增多，人工實考及評分已經(jīng)無法滿足操作需求。近20年來，計算機技術(shù)和測試?yán)碚摰牟粩喟l(fā)展及融合，突顯了計算機輔助考試的優(yōu)勢，如信度高、節(jié)約費用、考試時間靈活、便于組織等(曾用強, 2011)。因此，該技術(shù)已廣泛應(yīng)用于大規(guī)模考試實踐中(金力，2011)，包括TOFEL機考、CET口試、TEM口試以及高等學(xué)校英語應(yīng)用能力口語考試(Practical English Test for College-Oral，簡稱PRETCO口試)等。PRETCO口試是由國家高等學(xué)校英語應(yīng)用能力考試委員會于2005年開始實施的口語考試，該考試是以人機對話方式進行的計算機輔助考試(劉鴻章等, 2010)。由于計算機輔助口試自動評分技術(shù)還不成熟，目前仍采用人工評分。人工主觀評分容易出現(xiàn)誤差，所以有必要對評分的信度進行研究(Myford et al., 2004)。此外，評分員的評分可能隨著時間的進展發(fā)生變化(Myford et al., 2004)，而且評分的穩(wěn)定性直接關(guān)系評分的質(zhì)量、評分員的遴選，以及考試的信度、效度和公平性等(趙海燕等, 2018)，因此，對評分員的穩(wěn)定性進行研究具有重要的實際意義。雖然近年來有關(guān)口語測試評分信度展開的研究日益增多(何蓮珍等, 2008；劉建達, 2010；Attali, 2016；Kang et al.， 2019)但這些研究都只對單次的評分作了分析，沒有對評分的穩(wěn)定性進行歷時研究。為此，本文擬基于PRETCO口試連續(xù)五次的評分結(jié)果，調(diào)查評分員評分的穩(wěn)定性，以期為PRETCO口試的評分提供一些啟示，同時為其他高風(fēng)險計算機輔助口試，如CET口試、TEM口試的評分或評分培訓(xùn)提供一些參考。

1 文獻回顧

國外有關(guān)口語測試的研究起步早，覆蓋廣，如口語測試的構(gòu)念(Luoma, 2004)、口語測試的效度驗證(Knoch et al. 2018)、口試的任務(wù)(Frost et al., 2020)、口試評分標(biāo)準(zhǔn)(Fulcher, 1996; Khabbazbashi et al., 2020)、受試的特征(Nakatsuhara, 2011)、評分培訓(xùn)及評分員對考生口試表現(xiàn)的影響(Kang et al, 2019)、口試的評分效度研究(Lumley et al., 1995；Elder et al., 2005；Attali, 2016)，等等。其中，有關(guān)口試評分的研究占多數(shù)。雖然評分員的評分是動態(tài)變化的(Myford et al., 2004)，但大部分研究只對單次的評分進行了分析。目前，僅有個別文獻采用現(xiàn)代測試方法，比如基于項目反應(yīng)理論的多層面Rasch模型，對口試評分進行了歷時分析(Lumley et al., 1995；Bonk et al., 2003；Kim, 2015)，然而這些研究的結(jié)果存在差異。Lumley 等(1995)分析了四名評分員三次職業(yè)英語口試(Speaking subtest of Occupational English Test)的評分結(jié)果，發(fā)現(xiàn)評分員評分的嚴(yán)厲度隨著時間發(fā)生了變化，且寬嚴(yán)度變化的趨勢不盡相同；Bonk等(2003)基于對某校本英語口試兩輪評分結(jié)果的分析，發(fā)現(xiàn)評分員的嚴(yán)厲度差異較大，而且不穩(wěn)定，評分員的內(nèi)部一致性隨著其評分經(jīng)驗的積累不斷加強；Kim(2015)通過采用定性的研究方法，對比了新、中、老口試評分員的三次評分行為，發(fā)現(xiàn)三組評分員歷次的評分能力存在差異，新評分員改進較慢，中評分員通過不斷培訓(xùn)得以不斷改進，老評分員則相對較為穩(wěn)定。

雖然國內(nèi)有文獻對口語測試的評分進行了研究(何蓮珍等, 2008；劉建達, 2010)，但這些研究同樣只對評分員某次的評分進行分析。截至目前，國內(nèi)尚無文獻從歷時的角度探討口試評分的穩(wěn)定性。因此，本文將以此為出發(fā)點，基于多層面Rasch模型和Myford等(2009)寫作評分漂移研究的框架，從評分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢三個方面對PRETCO口試的評分穩(wěn)定性進行分析與研究。其中，評分員嚴(yán)厲度是指評分的寬嚴(yán)度，評分員準(zhǔn)確度是指相對于其他評分員評分均衡性，集中趨勢是指評分員高頻率使用中間分數(shù)段(Myford et al., 2004)。

2 研究方法

2.1評分員及閱卷量

由于本研究中PRETCO口試閱卷點每次評閱的數(shù)量不統(tǒng)一，評分員的數(shù)量不定，一般在10--20人之間，評分員分別來自15所不同的高校。本研究所選取的五次PRETCO口試閱卷結(jié)果共涉及到6525份，其中第一次為1493份，第二次為1356份，第三次為1351份，第四次為870份，第五次為1455份，參加閱卷任務(wù)的評分員共45名。每位考生的口語由兩名評分員進行評分，因此總閱卷數(shù)為13050份。本研究評分員R0、R1和R2連續(xù)參加了五次閱卷任務(wù)，評分員R4、R5和R6連續(xù)參加了前四次閱卷任務(wù)，其具體信息見表1：

表1 評員基本情況

2.2 PRETCO口試及其評分標(biāo)準(zhǔn)

RRETCO口語考試形式為人機對話，主要由朗讀、問答、翻譯(漢譯英)以及口頭陳述四部分任務(wù)組成，整個考試過程約為20分鐘(《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組, 2016)。每次PRETCO口試會采用2--4套平行試題，每項任務(wù)總分為4分，采用七級記分制(0,1,2,2.5,3,3.5,4)，為方便計算，本研究將其轉(zhuǎn)換為1,2,3,4,5,6,7七個等級。“朗讀”主要從語音、語調(diào)以及流利程度三方面進行評分(見表2)；“問答”“翻譯”和“陳述”主要從內(nèi)容、表達、語言三方面進行評分(見表3)。兩位評分員分別獨立對考生四項任務(wù)的表現(xiàn)進行評分，然后再根據(jù)每個任務(wù)的得分算出口試總分。如果兩者評分出現(xiàn)等級差異，由第三位高級評分員(評分組長)進行仲裁，重新進行整體評分。

表2 朗讀任務(wù)評分標(biāo)準(zhǔn)

表3 陳述評分標(biāo)準(zhǔn)

注：(1)由于FACETS要求使用整數(shù)數(shù)據(jù)，所以本文將所有原始分數(shù)換算成相應(yīng)的七個等級(1,2,3,4,5,6,7)；(2)囿于篇幅，而且考慮到問答、翻譯和陳述都是從內(nèi)容、表達、語言三方面進行評分，故只列出其中一種評分標(biāo)準(zhǔn)

2.3 數(shù)據(jù)分析依據(jù)

本研究基于多層面Rasch模型，采用FACETS軟件(版本3.71.3)(Linacre, 2013)對歷次PRETCO口試評分結(jié)果進行分析。模型包括四個層面，考生能力、評分員、口試的四項任務(wù)以及評分次序。鑒于PRETCO 四項任務(wù)具體的評分標(biāo)準(zhǔn)不一致，所以本研究采用多層面Rasch模型中分部記分模型(Partial Credit Model)(Bonk et al.，2003)。此外，以往研究忽略了數(shù)據(jù)鏈接(connectivity)的重要性(Wind et al.，2018)而探究評分員歷時評分的穩(wěn)定性需要鏈接(link)歷次評分的數(shù)據(jù)。本研究中評分員R0五次評分的各項指標(biāo)，比如嚴(yán)厲度和加權(quán)均方擬合度都在合理的范圍，所以選用該評分員的總體評分作為鏈接數(shù)據(jù)，以觀察另外五位評分員(R1、R2、R3、R4和R5)評分的穩(wěn)定性。同時，本研究借鑒Myford和Wolfe(2009)對于評分員寫作評分漂移研究的框架，從評分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢三個方面對PRETCO口試的評分穩(wěn)定性進行歷時分析與研究。

首先，對于嚴(yán)厲度的穩(wěn)定性，傳統(tǒng)方法是采用分離模型和交互模型計算各個時間段的嚴(yán)厲度logit值，然后進行顯著性檢驗(Myford et al., 2009)。然而，由于交互模型存在混合測量誤差(Dobria, 2011)，所以本研究未采用該方法計算評分員嚴(yán)厲度穩(wěn)定性的偏差，而是將評分員在每次評分中視作不同的評分員，可以根據(jù)評分員的logit值直接觀察評分員嚴(yán)厲度的變化。其次，關(guān)于評分員評分準(zhǔn)確度的歷時變化，可以基于評分員的點二列相關(guān)系數(shù)(rSR-ROR，即Point-biserial Correlation或 Point Measure)進行判斷(Myford et al., 2004)。檢驗評分員準(zhǔn)確度的變化趨勢需要根據(jù)公式(一)將相關(guān)系數(shù)轉(zhuǎn)化為Fisher’s Z值，然后再通過Z檢驗(公式二)來判斷評分員評分準(zhǔn)確度的穩(wěn)定性是否具有統(tǒng)計意義上的顯著性(Myford et al., 2009)。

公式(二)

最后，關(guān)于集中趨勢的穩(wěn)定性，歷次評分閾值(Threshold)的標(biāo)準(zhǔn)差可以用作判斷集中趨勢穩(wěn)定性的參數(shù)。所謂閾值是指相鄰分數(shù)段概率曲線的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004)，通過計算單個評分員每次評分中對各項任務(wù)評分標(biāo)準(zhǔn)的使用情況，然后根據(jù)評分員每次評分閾值的標(biāo)準(zhǔn)差來判斷其評分集中趨勢的波動情況。分數(shù)段之間閾值離散程度越大，表明評分越集中。本研究在評分結(jié)束后對評分員進行了半結(jié)構(gòu)式訪談，主要問題為“你是如何閱朗讀/問答/翻譯/陳述任務(wù)的？”“你認為你歷次的評分是否穩(wěn)定？”“哪些因素可能會影響評分的穩(wěn)定性？”等。研究者對訪談錄了音并轉(zhuǎn)寫為文字，最后根據(jù)Given(2008)的歸納法對訪談內(nèi)容進行分析和歸納。

3 研究結(jié)果

文章從評分員的嚴(yán)厲度、準(zhǔn)確度和集中趨勢三個方面報告評分員歷次評分的穩(wěn)定性。

3.1 評分員嚴(yán)厲度的穩(wěn)定性

為了探討評分員嚴(yán)厲度的穩(wěn)定性，本研究分別將評分員R0的評分作為鏈接數(shù)據(jù)，以觀察另外五位評分員的評分表現(xiàn)。通過FACETS的運算，五次評分總體評分嚴(yán)厲度logit的均值為0.41，標(biāo)準(zhǔn)差為0.43logits。評分員R2在第四次出現(xiàn)了明顯的偏差，logit值為0.53，而第五次的logit值為-0.41(見圖1)，相差0.94logits，大于兩個標(biāo)準(zhǔn)差。其次，評分員R3第一次和第二次評分的偏差較大，分別為0.55logits和1.06logits，相差0.51logits，大于一個標(biāo)準(zhǔn)差。

圖1 評分員評分嚴(yán)厲度的穩(wěn)定性對比(logit)

評分員R1、R4和R5評分的嚴(yán)厲度較為穩(wěn)定，波動較小，嚴(yán)厲度最高值和最低值之差分別為0.27logits、0.38logits和0.36logits，均小于1個標(biāo)準(zhǔn)差(S.D.=0.43logits)。

3.2 評分員準(zhǔn)確度的穩(wěn)定性

表4中rSR-ROR為評分員每次評分的點二列相關(guān)系數(shù)值，ZSR-RORc，SR-RORb為檢驗評分員準(zhǔn)確度穩(wěn)定性的Z值。rSR-ROR可以判斷評分員的評分與其他評分員評分的一致性，如果評分員rSR-ROR的值越大，則表示該評分員的一致性越好，不存在隨機性(Myford et al., 2004; 劉建達 2010)。

表4 評分員準(zhǔn)確度穩(wěn)定性相關(guān)數(shù)據(jù)統(tǒng)計

由表4可知，評分員五次評分的rSR-ROR值位于0.59-0.81之間，評分員歷次評分中和其他評分員一致性較好，但所有ZSR-RORc，SR-RORb值中，大于1.96或小于-1.96的次數(shù)為五次，其中評分員R3評分的準(zhǔn)確性波動不明顯，Z值均小于1.96或大于-1.96(p<0.05)；評分員R1、R4和R5各出現(xiàn)一次顯著性的波動(Z值分別為4.04、11.68和2.93，p<0.05)；評分員R2出現(xiàn)兩次波動，第三次評分準(zhǔn)確性明顯高于第一次，而第四次評分又明顯低于第一次(Z值分別為6.52和-8.18, p<0.05。由此可以看出，所有評分員歷次評分的準(zhǔn)確性均不穩(wěn)定，其中四位評分員出現(xiàn)了五次明顯的波動，僅占評分員閱卷總次數(shù)的22.7%。

3.3 評分員集中趨勢的穩(wěn)定性

相鄰閾值的差一般要求大于1.0 logit，但不超過5.0 logits (Linacre, 2002)。由表5可見，大多數(shù)評分員評分閾值的差位于1.0-5.0 logits 之間，閾值的標(biāo)準(zhǔn)差位于2.1-4.0logits之間。歷次PRETCO口試的總體評分較為穩(wěn)定，多數(shù)評分員總體不存在明顯的集中趨勢。然而，評分員R5第一次評分沒有使用分數(shù)段1和分數(shù)段7，而且分數(shù)段3、4、5的使用率達到90%，因此該評分員第一次的評分較為集中；評分員R3歷次評分中分數(shù)段3、4、5之間的閾值差較小，均小于1.0 logit；評分員R2第二次、第三次和第五次評分中分數(shù)段5、6、7之間的閾值差較小，同樣小于1.0 logit。這兩位評分員可能對上述幾個分數(shù)段難以把握或理解出現(xiàn)偏差。

表5 評分員四項任務(wù)總體閱卷量(%)及閾值(logits)

通過對單項任務(wù)的分析可知，評分員閱讀任務(wù)歷次評分中閾值的標(biāo)準(zhǔn)差位于3.9-8.6logits之間(見表6)，明顯高于其四項任務(wù)總體評分閾值的標(biāo)準(zhǔn)差。以評分員R1為例，其朗讀任務(wù)歷次評分的閾值標(biāo)準(zhǔn)差分別為6.8、5.3、8.6、7.4和5.4 (logits)。評分員R1、R2、R4和R5的歷次評分都過多地使用了分數(shù)段4和分數(shù)段5，評分員R3則過多地使用了分數(shù)段5和分數(shù)段6，比例多數(shù)超過70%，評分員R3第三次的使用頻率甚至達到90%。由此可見，評分員在閱讀任務(wù)的歷次評分中都存在明顯的集中趨勢。

表6 評分員朗讀任務(wù)閱卷量及閾值

對于評分員其他任務(wù)的歷次評分，問答任務(wù)都不存在集中現(xiàn)象。翻譯和陳述任務(wù)歷次評分中，個別評分員偶爾會出現(xiàn)集中趨勢現(xiàn)象，比如評分員R1在第一次的陳述評分中出現(xiàn)了集中趨勢。需要指出的是，評分員在五次翻譯和陳述評分中，分數(shù)段7的使用率非常低，平均每次的使用率為0.13次和0.33次。

4 討論

4.1 評分員嚴(yán)厲度穩(wěn)定性

數(shù)據(jù)顯示多數(shù)評分員評分嚴(yán)厲度的總體趨于穩(wěn)定，評分員歷次評分中寬嚴(yán)度變化的趨勢卻不盡相同，這與Lumley等(1995)的研究發(fā)現(xiàn)相似。評分員評分嚴(yán)厲度總體波動不大，原因可能是：(1)評分員不斷熟悉評分標(biāo)準(zhǔn)，比如評分員在每次評分前都接受培訓(xùn)并認真學(xué)習(xí)評分標(biāo)準(zhǔn)；(2)評分員評分時結(jié)合了教學(xué)和評分經(jīng)驗，比如評分員R1根據(jù)考生的語音、語調(diào)、斷句和流利度推斷考生的口語水平。但數(shù)據(jù)同樣顯示，評分員R2和R3分別在第四次和第二次評分中出現(xiàn)了明顯的波動，這與Kim(2015)的研究結(jié)果不一致，即使是有經(jīng)驗的評分員，其評分也可能會出現(xiàn)波動。雖然評分員R2閱卷經(jīng)驗豐富，而且每次都認真接受評分培訓(xùn)，但依然在第四次出現(xiàn)了明顯的偏差。通過對評分員R2的訪談得知，該評分員的歷次評分都嚴(yán)格按照評分標(biāo)準(zhǔn)進行閱卷，不應(yīng)該存在明顯的波動。為了究其原因，研究者同時對比了相鄰兩次考試的評分結(jié)果(第四次和第五次)。第四次評分的總量較少，當(dāng)時考試只使用了兩套試題，評分員R2只評閱了第一套試題的考生，其余評分員所閱考生均使用了兩套試題。通過對兩套試題的分析得知，其難度存在顯著差異，比如第一套試題朗讀任務(wù)的易讀度為76.5，明顯比第二套(易讀度為65.6)(1)*根據(jù)Flesh易讀度參考量表，易讀度值越高，篇章難度越低。*簡單，所以試題難度不同可能會影響評分員評分的穩(wěn)定性。對于評分員R3，其評分的嚴(yán)厲度也出現(xiàn)了較為明顯的波動。通過訪談得知，該評分員第二次閱卷時除了正常教學(xué)和承擔(dān)一定的行政工作外，還要準(zhǔn)備博士研究生的考試，當(dāng)時閱卷出現(xiàn)波動可能和壓力大、身心疲憊有關(guān)。由此可見，“平行試題”中某些題型可能存在難度差異，影響評分員評分的嚴(yán)厲度。評分員評分時的身心狀態(tài)也會影響評分結(jié)果。

4.2 評分員準(zhǔn)確度穩(wěn)定性

評分員單次評分和其他評分員的一致性較好，但歷時來看，五位評分員的準(zhǔn)確度都不太穩(wěn)定，其中四位評分員共出現(xiàn)五次明顯的波動。評分員R2出現(xiàn)兩次顯著的波動，評分員R1、R4和R5分別出現(xiàn)一次顯著的波動。原因可能來自兩方面，首先評分員閱卷隊伍不穩(wěn)定性。雖然每次閱卷員的數(shù)量為10—20名左右，但參加五次評分的評分員只有三名，即評分員R0、R1和R2，連續(xù)參加四次評分的評分員也只有三名，即評分員R3、R4和R5。出于公平性和實際情況的考量，閱卷員來自不同的高校，而且每次可能會有個別新評分員加入評分隊伍。由于評分員評分的準(zhǔn)確度涉及和其他評分員評分的一致性，故評分員隊伍不穩(wěn)定可能會導(dǎo)致評分員準(zhǔn)確度出現(xiàn)波動；其次，評分的準(zhǔn)確度的穩(wěn)定性可能和考生的水平相關(guān)。由于每次報考PRETCO口試的學(xué)校和學(xué)生存在變化，不同批次考生的口語水平會存在一定的差異，從一定程度上可能會影響評分員評分的穩(wěn)定性。

4.3 評分員集中趨勢穩(wěn)定性

評分員歷次的總體評分不存在明顯的集中趨勢，但評分員R5第一次評分的集中趨勢較為明顯，分數(shù)段3、4、5的使用次數(shù)占其評分總數(shù)的90%。該評分員可能第一次參加PRETCO口試評分，對評分標(biāo)準(zhǔn)的把握不準(zhǔn)確，四項任務(wù)均沒有使用分數(shù)段1和分數(shù)段7。由此可見，新評分員隨著評分經(jīng)驗的積累，其評分會逐漸改進(Kim, 2015)。雖然歷次總體評分的集中趨勢不明顯，但所有評分員朗讀任務(wù)的歷次評分卻均呈現(xiàn)明顯的集中趨勢，主要集中在分數(shù)段4、5、6。一方面，原因可能是朗讀任務(wù)的評分標(biāo)準(zhǔn)存在問題。Linacre(2002)指出，如果某分數(shù)段的使用頻率低于10次，那么該分數(shù)段需要修改或者與相鄰分數(shù)段合并。另一方面，評分員評分時可能結(jié)合了評分標(biāo)準(zhǔn)以外的參數(shù)，比如教學(xué)或閱卷經(jīng)驗。以評分員R1為例，該評分員在評閱朗讀任務(wù)時會根據(jù)考生能否讀準(zhǔn)較難詞匯(比如單詞circumstances)來判斷其朗讀水平是否屬于高分數(shù)段。問答任務(wù)歷次的評分都不存在集中趨勢，這可能和該題型的計分方式有關(guān)，問答任務(wù)的答案相對“封閉”(《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組, 2016)，只需計算考生答對的數(shù)量即可，該題型沒有翻譯或陳述任務(wù)“開放”。翻譯和陳述任務(wù)對分數(shù)段7的使用頻率非常低，這可能和評分員對該分數(shù)段描述語的理解偏差有關(guān)(楊志強等, 2016)。通過訪談得知，由于分數(shù)段7為最高分數(shù)段，象征各項任務(wù)的最高水平，評分員認為考生的回答需要接近完美才能獲得該分數(shù)，因此評分員在翻譯和陳述任務(wù)的評分中對該分數(shù)的使用較少。

5 結(jié)語

本文采用定量為主，訪談為輔的方法對PRETCO口試連續(xù)五次的評分進行分析，探討了評分員的嚴(yán)厲度、評分準(zhǔn)確度以及集中趨勢三個方面的穩(wěn)定性及其背后的原因。結(jié)果發(fā)現(xiàn)：多數(shù)評分員歷次總體評分的嚴(yán)厲度比較穩(wěn)定，其中一位評分員某次評分的嚴(yán)厲度波動明顯；所有評分員歷次評分的準(zhǔn)確度均不穩(wěn)定，但顯著波動的次數(shù)占比不高；評分員歷次總體評分不存在明顯的集中趨勢，雖然新評分員第一次的總體評分較為集中，但隨著該評分員評分經(jīng)驗的不斷積累，其評分質(zhì)量逐漸改進；評分員個別口試任務(wù)，比如“朗讀”任務(wù)的歷次評分均呈現(xiàn)集中趨勢，且朗讀、翻譯和陳述三項任務(wù)個別分數(shù)段使用次數(shù)過少，比如陳述任務(wù)分數(shù)段7，這些評分標(biāo)準(zhǔn)本身可能存在問題，需要改進。基于此，本研究對計算機輔助口試以及PRETCO口試的評分及其改進提出一些參考性的建議。

(1)使用有經(jīng)驗的評分員并保持評分員隊伍的穩(wěn)定性。無論是計算機輔助口試還是PRETCO口試，其評分都應(yīng)盡量使用有教學(xué)經(jīng)驗和評分經(jīng)驗的評分員，他們能夠結(jié)合多方面因素進行綜合評分，以保證評分的內(nèi)部一致性。此外，應(yīng)保持評分員隊伍相對穩(wěn)定，以增強評分的外部一致性，提高歷次評分的信度和穩(wěn)定性。(2)加強對評分員的培訓(xùn)。如果是新評分員，應(yīng)充分利用評分培訓(xùn)加強其對評分標(biāo)準(zhǔn)和所評考生總體水平的把握，同時增強新老評分員之間的交流，幫助新評分員改進評分質(zhì)量。即使有經(jīng)驗的評分員，也有可能出現(xiàn)評分偏差。每次閱卷前，無論是經(jīng)驗豐富的評分員還是新評分員，都需要認真接受培訓(xùn)。另外，在閱卷過程中可以組織閱卷員結(jié)合考生的答題情況和評分標(biāo)準(zhǔn)進行討論，從而加強閱卷員對評分標(biāo)準(zhǔn)的理解。(3)提高口試試題的效度。通過對PRETCO口試題目的分析可以看出，試題的難度可能不一致。為了確保歷次考試的公平性，需要對平行試題進行質(zhì)量分析，比如計算朗讀任務(wù)的易讀度，或者通過專家判斷以及試測，降低其他口試任務(wù)難度的差異。(4)改進評分標(biāo)準(zhǔn)中描述語的質(zhì)量。評分標(biāo)準(zhǔn)是考試構(gòu)念的體現(xiàn)，評分標(biāo)準(zhǔn)描述語須簡單、明了，沒有歧義(曾用強, 2011)。本研究發(fā)現(xiàn)，歷次評分中朗讀任務(wù)第一個分數(shù)段、翻譯和陳述任務(wù)第七個分數(shù)段的使用頻次極低。鑒于現(xiàn)實評分的需要，不能簡單將這些分數(shù)段和相鄰的分數(shù)段合并。因此，有必要對這些分數(shù)段的描述語進行改寫，以確保評分員理解的準(zhǔn)確性和一致性，防止出現(xiàn)理解偏差(楊志強等, 2016)。

計算機輔助口試評分穩(wěn)定性歷時研究——以PRETCO口試為例