999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機輔助口試評分穩(wěn)定性歷時研究
——以PRETCO口試為例

2021-04-30 08:38:24楊志強李志芳董曼霞
外國語文 2021年2期
關(guān)鍵詞:研究

楊志強 李志芳 董曼霞

(1.重慶科技學(xué)院 外國語學(xué)院,重慶 401331/廣東外語外貿(mào)大學(xué) 外國語言學(xué)及應(yīng)用語言學(xué)研究中心,廣東 廣州 510420;2.陸軍軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)院外語教研室,重慶 400038;3.四川外國語大學(xué) 商務(wù)英語學(xué)院,重慶 400031)

0 引言

外語口語能力是外語水平的直接表現(xiàn)。隨著英語口語越來越受到重視,參加口試的考生逐年增多,人工實考及評分已經(jīng)無法滿足操作需求。近20年來,計算機技術(shù)和測試?yán)碚摰牟粩喟l(fā)展及融合,突顯了計算機輔助考試的優(yōu)勢,如信度高、節(jié)約費用、考試時間靈活、便于組織等(曾用強, 2011)。因此,該技術(shù)已廣泛應(yīng)用于大規(guī)模考試實踐中(金力,2011),包括TOFEL機考、CET口試、TEM口試以及高等學(xué)校英語應(yīng)用能力口語考試(Practical English Test for College-Oral,簡稱PRETCO口試)等。PRETCO口試是由國家高等學(xué)校英語應(yīng)用能力考試委員會于2005年開始實施的口語考試,該考試是以人機對話方式進行的計算機輔助考試(劉鴻章 等, 2010)。由于計算機輔助口試自動評分技術(shù)還不成熟,目前仍采用人工評分。人工主觀評分容易出現(xiàn)誤差,所以有必要對評分的信度進行研究(Myford et al., 2004)。此外,評分員的評分可能隨著時間的進展發(fā)生變化(Myford et al., 2004),而且評分的穩(wěn)定性直接關(guān)系評分的質(zhì)量、評分員的遴選,以及考試的信度、效度和公平性等(趙海燕 等, 2018),因此,對評分員的穩(wěn)定性進行研究具有重要的實際意義。雖然近年來有關(guān)口語測試評分信度展開的研究日益增多(何蓮珍等, 2008;劉建達, 2010;Attali, 2016;Kang et al., 2019)但這些研究都只對單次的評分作了分析,沒有對評分的穩(wěn)定性進行歷時研究。為此,本文擬基于PRETCO口試連續(xù)五次的評分結(jié)果,調(diào)查評分員評分的穩(wěn)定性,以期為PRETCO口試的評分提供一些啟示,同時為其他高風(fēng)險計算機輔助口試,如CET口試、TEM口試的評分或評分培訓(xùn)提供一些參考。

1 文獻回顧

國外有關(guān)口語測試的研究起步早,覆蓋廣,如口語測試的構(gòu)念(Luoma, 2004)、口語測試的效度驗證(Knoch et al. 2018)、口試的任務(wù)(Frost et al., 2020)、口試評分標(biāo)準(zhǔn)(Fulcher, 1996; Khabbazbashi et al., 2020)、受試的特征(Nakatsuhara, 2011)、評分培訓(xùn)及評分員對考生口試表現(xiàn)的影響(Kang et al, 2019)、口試的評分效度研究(Lumley et al., 1995;Elder et al., 2005;Attali, 2016),等等。其中,有關(guān)口試評分的研究占多數(shù)。雖然評分員的評分是動態(tài)變化的(Myford et al., 2004),但大部分研究只對單次的評分進行了分析。目前,僅有個別文獻采用現(xiàn)代測試方法,比如基于項目反應(yīng)理論的多層面Rasch模型,對口試評分進行了歷時分析(Lumley et al., 1995;Bonk et al., 2003;Kim, 2015),然而這些研究的結(jié)果存在差異。Lumley 等(1995)分析了四名評分員三次職業(yè)英語口試(Speaking subtest of Occupational English Test)的評分結(jié)果,發(fā)現(xiàn)評分員評分的嚴(yán)厲度隨著時間發(fā)生了變化,且寬嚴(yán)度變化的趨勢不盡相同;Bonk等(2003)基于對某校本英語口試兩輪評分結(jié)果的分析,發(fā)現(xiàn)評分員的嚴(yán)厲度差異較大,而且不穩(wěn)定,評分員的內(nèi)部一致性隨著其評分經(jīng)驗的積累不斷加強;Kim(2015)通過采用定性的研究方法,對比了新、中、老口試評分員的三次評分行為,發(fā)現(xiàn)三組評分員歷次的評分能力存在差異,新評分員改進較慢,中評分員通過不斷培訓(xùn)得以不斷改進,老評分員則相對較為穩(wěn)定。

雖然國內(nèi)有文獻對口語測試的評分進行了研究(何蓮珍 等, 2008;劉建達, 2010),但這些研究同樣只對評分員某次的評分進行分析。截至目前,國內(nèi)尚無文獻從歷時的角度探討口試評分的穩(wěn)定性。因此,本文將以此為出發(fā)點,基于多層面Rasch模型和Myford等(2009)寫作評分漂移研究的框架,從評分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢三個方面對PRETCO口試的評分穩(wěn)定性進行分析與研究。其中,評分員嚴(yán)厲度是指評分的寬嚴(yán)度,評分員準(zhǔn)確度是指相對于其他評分員評分均衡性,集中趨勢是指評分員高頻率使用中間分數(shù)段(Myford et al., 2004)。

2 研究方法

2.1評分員及閱卷量

由于本研究中PRETCO口試閱卷點每次評閱的數(shù)量不統(tǒng)一,評分員的數(shù)量不定,一般在10--20人之間,評分員分別來自15所不同的高校。本研究所選取的五次PRETCO口試閱卷結(jié)果共涉及到6525份,其中第一次為1493份,第二次為1356份,第三次為1351份,第四次為870份,第五次為1455份,參加閱卷任務(wù)的評分員共45名。每位考生的口語由兩名評分員進行評分,因此總閱卷數(shù)為13050份。本研究評分員R0、R1和R2連續(xù)參加了五次閱卷任務(wù),評分員R4、R5和R6連續(xù)參加了前四次閱卷任務(wù),其具體信息見表1:

表1 評員基本情況

2.2 PRETCO口試及其評分標(biāo)準(zhǔn)

RRETCO口語考試形式為人機對話,主要由朗讀、問答、翻譯(漢譯英)以及口頭陳述四部分任務(wù)組成,整個考試過程約為20分鐘(《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組, 2016)。每次PRETCO口試會采用2--4套平行試題,每項任務(wù)總分為4分,采用七級記分制(0,1,2,2.5,3,3.5,4),為方便計算,本研究將其轉(zhuǎn)換為1,2,3,4,5,6,7七個等級。“朗讀”主要從語音、語調(diào)以及流利程度三方面進行評分(見表2);“問答”“翻譯”和“陳述”主要從內(nèi)容、表達、語言三方面進行評分(見表3)。兩位評分員分別獨立對考生四項任務(wù)的表現(xiàn)進行評分,然后再根據(jù)每個任務(wù)的得分算出口試總分。如果兩者評分出現(xiàn)等級差異,由第三位高級評分員(評分組長)進行仲裁,重新進行整體評分。

表2 朗讀任務(wù)評分標(biāo)準(zhǔn)

表3 陳述評分標(biāo)準(zhǔn)

注:(1)由于FACETS要求使用整數(shù)數(shù)據(jù),所以本文將所有原始分數(shù)換算成相應(yīng)的七個等級(1,2,3,4,5,6,7);(2)囿于篇幅,而且考慮到問答、翻譯和陳述都是從內(nèi)容、表達、語言三方面進行評分,故只列出其中一種評分標(biāo)準(zhǔn)

2.3 數(shù)據(jù)分析依據(jù)

本研究基于多層面Rasch模型,采用FACETS軟件(版本3.71.3)(Linacre, 2013)對歷次PRETCO口試評分結(jié)果進行分析。模型包括四個層面,考生能力、評分員、口試的四項任務(wù)以及評分次序。鑒于PRETCO 四項任務(wù)具體的評分標(biāo)準(zhǔn)不一致,所以本研究采用多層面Rasch模型中分部記分模型(Partial Credit Model)(Bonk et al.,2003)。此外,以往研究忽略了數(shù)據(jù)鏈接(connectivity)的重要性(Wind et al.,2018)而探究評分員歷時評分的穩(wěn)定性需要鏈接(link)歷次評分的數(shù)據(jù)。本研究中評分員R0五次評分的各項指標(biāo),比如嚴(yán)厲度和加權(quán)均方擬合度都在合理的范圍,所以選用該評分員的總體評分作為鏈接數(shù)據(jù),以觀察另外五位評分員(R1、R2、R3、R4和R5)評分的穩(wěn)定性。同時,本研究借鑒Myford和Wolfe(2009)對于評分員寫作評分漂移研究的框架,從評分員嚴(yán)厲度、準(zhǔn)確度以及集中趨勢三個方面對PRETCO口試的評分穩(wěn)定性進行歷時分析與研究。

首先,對于嚴(yán)厲度的穩(wěn)定性,傳統(tǒng)方法是采用分離模型和交互模型計算各個時間段的嚴(yán)厲度logit值,然后進行顯著性檢驗(Myford et al., 2009)。然而,由于交互模型存在混合測量誤差(Dobria, 2011),所以本研究未采用該方法計算評分員嚴(yán)厲度穩(wěn)定性的偏差,而是將評分員在每次評分中視作不同的評分員,可以根據(jù)評分員的logit值直接觀察評分員嚴(yán)厲度的變化。其次,關(guān)于評分員評分準(zhǔn)確度的歷時變化,可以基于評分員的點二列相關(guān)系數(shù)(rSR-ROR,即Point-biserial Correlation或 Point Measure)進行判斷(Myford et al., 2004)。檢驗評分員準(zhǔn)確度的變化趨勢需要根據(jù)公式(一)將相關(guān)系數(shù)轉(zhuǎn)化為Fisher’s Z值,然后再通過Z檢驗(公式二)來判斷評分員評分準(zhǔn)確度的穩(wěn)定性是否具有統(tǒng)計意義上的顯著性(Myford et al., 2009)。

公式(二)

最后,關(guān)于集中趨勢的穩(wěn)定性,歷次評分閾值(Threshold)的標(biāo)準(zhǔn)差可以用作判斷集中趨勢穩(wěn)定性的參數(shù)。所謂閾值是指相鄰分數(shù)段概率曲線的交叉值(Bond et al., 2015)。本研究基于Rasch的混合模型(Hybrid Model 2)(Myford et al., 2004),通過計算單個評分員每次評分中對各項任務(wù)評分標(biāo)準(zhǔn)的使用情況,然后根據(jù)評分員每次評分閾值的標(biāo)準(zhǔn)差來判斷其評分集中趨勢的波動情況。分數(shù)段之間閾值離散程度越大,表明評分越集中。本研究在評分結(jié)束后對評分員進行了半結(jié)構(gòu)式訪談,主要問題為“你是如何閱朗讀/問答/翻譯/陳述任務(wù)的?”“你認為你歷次的評分是否穩(wěn)定?”“哪些因素可能會影響評分的穩(wěn)定性?”等。研究者對訪談錄了音并轉(zhuǎn)寫為文字,最后根據(jù)Given(2008)的歸納法對訪談內(nèi)容進行分析和歸納。

3 研究結(jié)果

文章從評分員的嚴(yán)厲度、準(zhǔn)確度和集中趨勢三個方面報告評分員歷次評分的穩(wěn)定性。

3.1 評分員嚴(yán)厲度的穩(wěn)定性

為了探討評分員嚴(yán)厲度的穩(wěn)定性,本研究分別將評分員R0的評分作為鏈接數(shù)據(jù),以觀察另外五位評分員的評分表現(xiàn)。通過FACETS的運算,五次評分總體評分嚴(yán)厲度logit的均值為0.41,標(biāo)準(zhǔn)差為0.43logits。評分員R2在第四次出現(xiàn)了明顯的偏差,logit值為0.53,而第五次的logit值為-0.41(見圖1),相差0.94logits,大于兩個標(biāo)準(zhǔn)差。其次,評分員R3第一次和第二次評分的偏差較大,分別為0.55logits和1.06logits,相差0.51logits,大于一個標(biāo)準(zhǔn)差。

圖1 評分員評分嚴(yán)厲度的穩(wěn)定性對比(logit)

評分員R1、R4和R5評分的嚴(yán)厲度較為穩(wěn)定,波動較小,嚴(yán)厲度最高值和最低值之差分別為0.27logits、0.38logits和0.36logits,均小于1個標(biāo)準(zhǔn)差(S.D.=0.43logits)。

3.2 評分員準(zhǔn)確度的穩(wěn)定性

表4中rSR-ROR為評分員每次評分的點二列相關(guān)系數(shù)值,ZSR-RORc,SR-RORb為檢驗評分員準(zhǔn)確度穩(wěn)定性的Z值。rSR-ROR可以判斷評分員的評分與其他評分員評分的一致性,如果評分員rSR-ROR的值越大,則表示該評分員的一致性越好,不存在隨機性(Myford et al., 2004; 劉建達 2010)。

表4 評分員準(zhǔn)確度穩(wěn)定性相關(guān)數(shù)據(jù)統(tǒng)計

由表4可知,評分員五次評分的rSR-ROR值位于0.59-0.81之間,評分員歷次評分中和其他評分員一致性較好,但所有ZSR-RORc,SR-RORb值中,大于1.96或小于-1.96的次數(shù)為五次,其中評分員R3評分的準(zhǔn)確性波動不明顯,Z值均小于1.96或大于-1.96(p<0.05);評分員R1、R4和R5各出現(xiàn)一次顯著性的波動(Z值分別為4.04、11.68和2.93,p<0.05);評分員R2出現(xiàn)兩次波動,第三次評分準(zhǔn)確性明顯高于第一次,而第四次評分又明顯低于第一次(Z值分別為6.52和-8.18, p<0.05。由此可以看出,所有評分員歷次評分的準(zhǔn)確性均不穩(wěn)定,其中四位評分員出現(xiàn)了五次明顯的波動,僅占評分員閱卷總次數(shù)的22.7%。

3.3 評分員集中趨勢的穩(wěn)定性

相鄰閾值的差一般要求大于1.0 logit,但不超過5.0 logits (Linacre, 2002)。由表5可見,大多數(shù)評分員評分閾值的差位于1.0-5.0 logits 之間,閾值的標(biāo)準(zhǔn)差位于2.1-4.0logits之間。歷次PRETCO口試的總體評分較為穩(wěn)定,多數(shù)評分員總體不存在明顯的集中趨勢。然而,評分員R5第一次評分沒有使用分數(shù)段1和分數(shù)段7,而且分數(shù)段3、4、5的使用率達到90%,因此該評分員第一次的評分較為集中;評分員R3歷次評分中分數(shù)段3、4、5之間的閾值差較小,均小于1.0 logit;評分員R2第二次、第三次和第五次評分中分數(shù)段5、6、7之間的閾值差較小,同樣小于1.0 logit。這兩位評分員可能對上述幾個分數(shù)段難以把握或理解出現(xiàn)偏差。

表5 評分員四項任務(wù)總體閱卷量(%)及閾值(logits)

通過對單項任務(wù)的分析可知,評分員閱讀任務(wù)歷次評分中閾值的標(biāo)準(zhǔn)差位于3.9-8.6logits之間(見表6),明顯高于其四項任務(wù)總體評分閾值的標(biāo)準(zhǔn)差。以評分員R1為例,其朗讀任務(wù)歷次評分的閾值標(biāo)準(zhǔn)差分別為6.8、5.3、8.6、7.4和5.4 (logits)。評分員R1、R2、R4和R5的歷次評分都過多地使用了分數(shù)段4和分數(shù)段5,評分員R3則過多地使用了分數(shù)段5和分數(shù)段6,比例多數(shù)超過70%,評分員R3第三次的使用頻率甚至達到90%。由此可見,評分員在閱讀任務(wù)的歷次評分中都存在明顯的集中趨勢。

表6 評分員朗讀任務(wù)閱卷量及閾值

對于評分員其他任務(wù)的歷次評分,問答任務(wù)都不存在集中現(xiàn)象。翻譯和陳述任務(wù)歷次評分中,個別評分員偶爾會出現(xiàn)集中趨勢現(xiàn)象,比如評分員R1在第一次的陳述評分中出現(xiàn)了集中趨勢。需要指出的是,評分員在五次翻譯和陳述評分中,分數(shù)段7的使用率非常低,平均每次的使用率為0.13次和0.33次。

4 討論

4.1 評分員嚴(yán)厲度穩(wěn)定性

數(shù)據(jù)顯示多數(shù)評分員評分嚴(yán)厲度的總體趨于穩(wěn)定,評分員歷次評分中寬嚴(yán)度變化的趨勢卻不盡相同,這與Lumley等(1995)的研究發(fā)現(xiàn)相似。評分員評分嚴(yán)厲度總體波動不大,原因可能是:(1)評分員不斷熟悉評分標(biāo)準(zhǔn),比如評分員在每次評分前都接受培訓(xùn)并認真學(xué)習(xí)評分標(biāo)準(zhǔn);(2)評分員評分時結(jié)合了教學(xué)和評分經(jīng)驗,比如評分員R1根據(jù)考生的語音、語調(diào)、斷句和流利度推斷考生的口語水平。但數(shù)據(jù)同樣顯示,評分員R2和R3分別在第四次和第二次評分中出現(xiàn)了明顯的波動,這與Kim(2015)的研究結(jié)果不一致,即使是有經(jīng)驗的評分員,其評分也可能會出現(xiàn)波動。雖然評分員R2閱卷經(jīng)驗豐富,而且每次都認真接受評分培訓(xùn),但依然在第四次出現(xiàn)了明顯的偏差。通過對評分員R2的訪談得知,該評分員的歷次評分都嚴(yán)格按照評分標(biāo)準(zhǔn)進行閱卷,不應(yīng)該存在明顯的波動。為了究其原因,研究者同時對比了相鄰兩次考試的評分結(jié)果(第四次和第五次)。第四次評分的總量較少,當(dāng)時考試只使用了兩套試題,評分員R2只評閱了第一套試題的考生,其余評分員所閱考生均使用了兩套試題。通過對兩套試題的分析得知,其難度存在顯著差異,比如第一套試題朗讀任務(wù)的易讀度為76.5,明顯比第二套(易讀度為65.6)(1)*根據(jù)Flesh易讀度參考量表,易讀度值越高,篇章難度越低。*簡單,所以試題難度不同可能會影響評分員評分的穩(wěn)定性。對于評分員R3,其評分的嚴(yán)厲度也出現(xiàn)了較為明顯的波動。通過訪談得知,該評分員第二次閱卷時除了正常教學(xué)和承擔(dān)一定的行政工作外,還要準(zhǔn)備博士研究生的考試,當(dāng)時閱卷出現(xiàn)波動可能和壓力大、身心疲憊有關(guān)。由此可見,“平行試題”中某些題型可能存在難度差異,影響評分員評分的嚴(yán)厲度。評分員評分時的身心狀態(tài)也會影響評分結(jié)果。

4.2 評分員準(zhǔn)確度穩(wěn)定性

評分員單次評分和其他評分員的一致性較好,但歷時來看,五位評分員的準(zhǔn)確度都不太穩(wěn)定,其中四位評分員共出現(xiàn)五次明顯的波動。評分員R2出現(xiàn)兩次顯著的波動,評分員R1、R4和R5分別出現(xiàn)一次顯著的波動。原因可能來自兩方面,首先評分員閱卷隊伍不穩(wěn)定性。雖然每次閱卷員的數(shù)量為10—20名左右,但參加五次評分的評分員只有三名,即評分員R0、R1和R2,連續(xù)參加四次評分的評分員也只有三名,即評分員R3、R4和R5。出于公平性和實際情況的考量,閱卷員來自不同的高校,而且每次可能會有個別新評分員加入評分隊伍。由于評分員評分的準(zhǔn)確度涉及和其他評分員評分的一致性,故評分員隊伍不穩(wěn)定可能會導(dǎo)致評分員準(zhǔn)確度出現(xiàn)波動;其次,評分的準(zhǔn)確度的穩(wěn)定性可能和考生的水平相關(guān)。由于每次報考PRETCO口試的學(xué)校和學(xué)生存在變化,不同批次考生的口語水平會存在一定的差異,從一定程度上可能會影響評分員評分的穩(wěn)定性。

4.3 評分員集中趨勢穩(wěn)定性

評分員歷次的總體評分不存在明顯的集中趨勢,但評分員R5第一次評分的集中趨勢較為明顯,分數(shù)段3、4、5的使用次數(shù)占其評分總數(shù)的90%。該評分員可能第一次參加PRETCO口試評分,對評分標(biāo)準(zhǔn)的把握不準(zhǔn)確,四項任務(wù)均沒有使用分數(shù)段1和分數(shù)段7。由此可見,新評分員隨著評分經(jīng)驗的積累,其評分會逐漸改進(Kim, 2015)。雖然歷次總體評分的集中趨勢不明顯,但所有評分員朗讀任務(wù)的歷次評分卻均呈現(xiàn)明顯的集中趨勢,主要集中在分數(shù)段4、5、6。一方面,原因可能是朗讀任務(wù)的評分標(biāo)準(zhǔn)存在問題。Linacre(2002)指出,如果某分數(shù)段的使用頻率低于10次,那么該分數(shù)段需要修改或者與相鄰分數(shù)段合并。另一方面,評分員評分時可能結(jié)合了評分標(biāo)準(zhǔn)以外的參數(shù),比如教學(xué)或閱卷經(jīng)驗。以評分員R1為例,該評分員在評閱朗讀任務(wù)時會根據(jù)考生能否讀準(zhǔn)較難詞匯(比如單詞circumstances)來判斷其朗讀水平是否屬于高分數(shù)段。問答任務(wù)歷次的評分都不存在集中趨勢,這可能和該題型的計分方式有關(guān),問答任務(wù)的答案相對“封閉”(《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組, 2016),只需計算考生答對的數(shù)量即可,該題型沒有翻譯或陳述任務(wù)“開放”。翻譯和陳述任務(wù)對分數(shù)段7的使用頻率非常低,這可能和評分員對該分數(shù)段描述語的理解偏差有關(guān)(楊志強 等, 2016)。通過訪談得知,由于分數(shù)段7為最高分數(shù)段,象征各項任務(wù)的最高水平,評分員認為考生的回答需要接近完美才能獲得該分數(shù),因此評分員在翻譯和陳述任務(wù)的評分中對該分數(shù)的使用較少。

5 結(jié)語

本文采用定量為主,訪談為輔的方法對PRETCO口試連續(xù)五次的評分進行分析,探討了評分員的嚴(yán)厲度、評分準(zhǔn)確度以及集中趨勢三個方面的穩(wěn)定性及其背后的原因。結(jié)果發(fā)現(xiàn):多數(shù)評分員歷次總體評分的嚴(yán)厲度比較穩(wěn)定,其中一位評分員某次評分的嚴(yán)厲度波動明顯;所有評分員歷次評分的準(zhǔn)確度均不穩(wěn)定,但顯著波動的次數(shù)占比不高;評分員歷次總體評分不存在明顯的集中趨勢,雖然新評分員第一次的總體評分較為集中,但隨著該評分員評分經(jīng)驗的不斷積累,其評分質(zhì)量逐漸改進;評分員個別口試任務(wù),比如“朗讀”任務(wù)的歷次評分均呈現(xiàn)集中趨勢,且朗讀、翻譯和陳述三項任務(wù)個別分數(shù)段使用次數(shù)過少,比如陳述任務(wù)分數(shù)段7,這些評分標(biāo)準(zhǔn)本身可能存在問題,需要改進。基于此,本研究對計算機輔助口試以及PRETCO口試的評分及其改進提出一些參考性的建議。

(1)使用有經(jīng)驗的評分員并保持評分員隊伍的穩(wěn)定性。無論是計算機輔助口試還是PRETCO口試,其評分都應(yīng)盡量使用有教學(xué)經(jīng)驗和評分經(jīng)驗的評分員,他們能夠結(jié)合多方面因素進行綜合評分,以保證評分的內(nèi)部一致性。此外,應(yīng)保持評分員隊伍相對穩(wěn)定,以增強評分的外部一致性,提高歷次評分的信度和穩(wěn)定性。(2)加強對評分員的培訓(xùn)。如果是新評分員,應(yīng)充分利用評分培訓(xùn)加強其對評分標(biāo)準(zhǔn)和所評考生總體水平的把握,同時增強新老評分員之間的交流,幫助新評分員改進評分質(zhì)量。即使有經(jīng)驗的評分員,也有可能出現(xiàn)評分偏差。每次閱卷前,無論是經(jīng)驗豐富的評分員還是新評分員,都需要認真接受培訓(xùn)。另外,在閱卷過程中可以組織閱卷員結(jié)合考生的答題情況和評分標(biāo)準(zhǔn)進行討論,從而加強閱卷員對評分標(biāo)準(zhǔn)的理解。(3)提高口試試題的效度。通過對PRETCO口試題目的分析可以看出,試題的難度可能不一致。為了確保歷次考試的公平性,需要對平行試題進行質(zhì)量分析,比如計算朗讀任務(wù)的易讀度,或者通過專家判斷以及試測,降低其他口試任務(wù)難度的差異。(4)改進評分標(biāo)準(zhǔn)中描述語的質(zhì)量。評分標(biāo)準(zhǔn)是考試構(gòu)念的體現(xiàn),評分標(biāo)準(zhǔn)描述語須簡單、明了, 沒有歧義(曾用強, 2011)。本研究發(fā)現(xiàn),歷次評分中朗讀任務(wù)第一個分數(shù)段、翻譯和陳述任務(wù)第七個分數(shù)段的使用頻次極低。鑒于現(xiàn)實評分的需要,不能簡單將這些分數(shù)段和相鄰的分數(shù)段合并。因此,有必要對這些分數(shù)段的描述語進行改寫,以確保評分員理解的準(zhǔn)確性和一致性,防止出現(xiàn)理解偏差(楊志強 等, 2016)。

猜你喜歡
研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷會計研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 欧美激情一区二区三区成人| 国产91无码福利在线| 欧美第一页在线| 首页亚洲国产丝袜长腿综合| 欧美a在线| 欧美成人精品在线| 色婷婷视频在线| 99re精彩视频| 久久久精品无码一二三区| 国产香蕉国产精品偷在线观看| 亚洲美女一区二区三区| 国产成人亚洲毛片| 久久一本精品久久久ー99| 无码精品福利一区二区三区| 国产精品自在在线午夜区app| 亚洲精品日产精品乱码不卡| 欧美激情第一欧美在线| 免费观看无遮挡www的小视频| 99伊人精品| 欧美成在线视频| 亚洲国产综合精品一区| 亚洲最大看欧美片网站地址| 中文字幕在线不卡视频| 亚洲精品国产成人7777| 欧美日韩v| 欧美亚洲第一页| 久久久国产精品无码专区| 久久亚洲天堂| 999福利激情视频| 夜夜爽免费视频| 91丨九色丨首页在线播放 | 亚洲欧洲日本在线| 欧美日韩免费| 国产精品网拍在线| 欧美精品二区| 男人天堂亚洲天堂| 91午夜福利在线观看| 五月天久久综合| 欧美www在线观看| 毛片免费在线| 午夜精品区| 天堂中文在线资源| 国产主播福利在线观看| 日韩欧美中文字幕在线精品| 91九色最新地址| 亚洲色精品国产一区二区三区| 亚洲AV人人澡人人双人| 亚洲第一色网站| 国产男女XX00免费观看| 久久伊人操| 乱码国产乱码精品精在线播放| 全部免费毛片免费播放| 亚洲成a∧人片在线观看无码| 蜜臀AVWWW国产天堂| 亚洲精品波多野结衣| 日韩大乳视频中文字幕| 91久久天天躁狠狠躁夜夜| 久久美女精品| 九九九久久国产精品| 国产成人综合日韩精品无码不卡| 精品99在线观看| 亚洲综合色区在线播放2019| 女人18毛片水真多国产| 在线五月婷婷| 99爱视频精品免视看| 1769国产精品视频免费观看| 亚洲浓毛av| 手机在线国产精品| 2020国产免费久久精品99| 亚洲精品无码人妻无码| 五月天福利视频| 五月婷婷亚洲综合| 久久综合丝袜长腿丝袜| 天堂av综合网| 99热这里只有免费国产精品 | 国产网友愉拍精品视频| 在线永久免费观看的毛片| 日本不卡视频在线| av大片在线无码免费| 最新国产你懂的在线网址| 亚洲水蜜桃久久综合网站| 极品国产一区二区三区|