999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于過(guò)程導(dǎo)向的英語(yǔ)寫(xiě)作評(píng)分量表效度驗(yàn)證

2021-01-04 07:39:26吳雪峰肖楊田
外國(guó)語(yǔ)文 2020年5期
關(guān)鍵詞:研究

吳雪峰 肖楊田

(1.南京林業(yè)大學(xué) 外國(guó)語(yǔ)學(xué)院,江蘇 南京 210037;2.大理大學(xué) 外國(guó)語(yǔ)學(xué)院,云南 大理 671000)

0 引言

寫(xiě)作測(cè)試考查學(xué)生運(yùn)用英語(yǔ)進(jìn)行書(shū)面表達(dá)和交際的能力,是典型的行為表現(xiàn)型測(cè)試(performance test)。寫(xiě)作測(cè)評(píng)評(píng)分是評(píng)分員、評(píng)分量表和寫(xiě)作文本間三者間交互作用的結(jié)果(Weigle,2002),具有較強(qiáng)的主觀色彩,而開(kāi)發(fā)與各類(lèi)寫(xiě)作測(cè)試相適應(yīng)的評(píng)分量表可幫助評(píng)分員在評(píng)分時(shí)做到有章可循(Becker,2016)。作為衡量和評(píng)價(jià)學(xué)生寫(xiě)作能力的重要工具,評(píng)分量表的自身質(zhì)量和效度至關(guān)重要。評(píng)分量表和評(píng)分方式是課堂測(cè)評(píng)的核心(Marzano,2002),但教師很少致力于改革寫(xiě)作評(píng)分量表,對(duì)課堂二語(yǔ)寫(xiě)作的評(píng)改缺乏科學(xué)、高效的方法。教師評(píng)分時(shí)一般亦無(wú)相關(guān)培訓(xùn)或指導(dǎo),多數(shù)情況下臨時(shí)編制評(píng)分量表供當(dāng)次評(píng)分使用,很少對(duì)其進(jìn)行專(zhuān)門(mén)的效度驗(yàn)證。因此,評(píng)分量表質(zhì)量如何不得而知,難以保證。而基于不合理、不科學(xué)的評(píng)分量表而得到的評(píng)分結(jié)果,以及據(jù)此作出的評(píng)分決策極易破壞測(cè)評(píng)的公平和公正(Barkaoui,2010)。

目前,有關(guān)評(píng)分量表效度驗(yàn)證的研究主要針對(duì)大規(guī)模、高風(fēng)險(xiǎn)英語(yǔ)考試中的寫(xiě)作評(píng)分量表(Shaw et al.,2007),課堂環(huán)境下英語(yǔ)寫(xiě)作評(píng)分量表的效度研究相對(duì)匱乏。此外,評(píng)分量表的效度驗(yàn)證不僅要關(guān)注評(píng)分結(jié)果,更應(yīng)關(guān)注評(píng)分過(guò)程中評(píng)分量表的具體作用和功能,重視評(píng)分員在評(píng)分過(guò)程中對(duì)評(píng)分量表的感受和評(píng)價(jià),構(gòu)建更加完整的效度證據(jù)鏈(Knoch et al.,2007)。本研究以課堂環(huán)境下的一則“概要寫(xiě)作”評(píng)分量表為例(吳雪峰,2018),該評(píng)分量表與依靠專(zhuān)家主觀判斷的傳統(tǒng)評(píng)分量表有所不同,它是基于考生概要寫(xiě)作測(cè)試樣本,采用更加科學(xué)合理的“數(shù)據(jù)驅(qū)動(dòng)法”研制而成,因而更具真實(shí)性、信度較高(劉力 等,2013)。寫(xiě)作評(píng)分量表制定完成后,研究人員需對(duì)其進(jìn)行細(xì)致、深入的效度驗(yàn)證,這是評(píng)分量表開(kāi)發(fā)過(guò)程中不可或缺的環(huán)節(jié)。效度研究可從多種角度入手,有助于全面審視評(píng)分量表的質(zhì)量,找到評(píng)分量表中可能存在的問(wèn)題和不足并對(duì)其進(jìn)行修訂或調(diào)整,從而以高質(zhì)量的評(píng)分量表確保公平、合理地開(kāi)展英語(yǔ)寫(xiě)作評(píng)分工作(Knoch,2011)。本研究聚焦評(píng)分量表的使用過(guò)程,采用定量、定性相結(jié)合的混合研究范式,通過(guò)分析評(píng)分結(jié)果并結(jié)合評(píng)分員在評(píng)分時(shí)的有聲思維及評(píng)分后的半結(jié)構(gòu)式訪(fǎng)談,回溯評(píng)分過(guò)程,深入探討該評(píng)分量表的效度。本研究對(duì)其他各類(lèi)英語(yǔ)寫(xiě)作評(píng)分量表的效度驗(yàn)證亦具有一定的借鑒意義。

1 文獻(xiàn)回顧

英語(yǔ)寫(xiě)作評(píng)分量表效度研究聚焦不同類(lèi)型評(píng)分量表的對(duì)比研究,如分析整體式與分項(xiàng)式評(píng)分量表之間的優(yōu)劣差異。研究表明分項(xiàng)式評(píng)分量表能更好地區(qū)分考生寫(xiě)作能力,并有效提升評(píng)分的一致性和穩(wěn)定性(Knoch,2011;李航,2015),而整體式評(píng)分量表能顯著提高評(píng)分效率(Barkaoui,2007)。此外,Knoch(2009)基于多層面Rasch模型(MFRM)對(duì)比了描述語(yǔ)比較宏觀的評(píng)分量表和描述語(yǔ)較為詳細(xì)的評(píng)分量表,發(fā)現(xiàn)后者更能有效保障評(píng)分結(jié)果的可靠性。Huhta等(2014)對(duì)比了兩則基于歐洲語(yǔ)言共同參考框架(CEFR)的評(píng)分量表,其中一則描述語(yǔ)直接摘自CEFR,另一則由研究者根據(jù)寫(xiě)作構(gòu)念改編CEFR描述語(yǔ)而成,后者較之前者在內(nèi)容方面更加具體。與Knoch(2009)的研究結(jié)果不同的是,Huhta et al.(2014)的研究表明兩則評(píng)分量表均具有較好的區(qū)分度。

近年來(lái)的評(píng)分量表效度研究則越來(lái)越重視構(gòu)建更加多維、深入的證據(jù)鏈。Deygers和Gorp(2015)采用項(xiàng)目反應(yīng)理論、主成分分析、半結(jié)構(gòu)式訪(fǎng)談相結(jié)合的方法驗(yàn)證一則改編自CEFR的評(píng)分量表的效度,結(jié)果表明評(píng)分員能有效使用評(píng)分量表,但對(duì)評(píng)分量表內(nèi)容的理解不盡相同。Mendoza和Knoch(2018)對(duì)一則學(xué)術(shù)寫(xiě)作評(píng)分量表分兩個(gè)階段進(jìn)行了效度驗(yàn)證。第一階段五名評(píng)分員試用評(píng)分量表后,根據(jù)MFRM數(shù)據(jù)及評(píng)分員反饋對(duì)評(píng)分量表進(jìn)行修改,再交由第二階段的六名評(píng)分員使用,并通過(guò)問(wèn)卷征求評(píng)分員對(duì)評(píng)分量表的評(píng)價(jià)和建議。結(jié)果表明修改后的評(píng)分量表可有效提升評(píng)分信度并得到評(píng)分員的積極評(píng)價(jià)。兩項(xiàng)研究的共同點(diǎn)在于它們都將評(píng)分量表視作一個(gè)整體進(jìn)行效度驗(yàn)證,而B(niǎo)ecker(2018)的研究不僅考查評(píng)分量表的整體科學(xué)性,還專(zhuān)門(mén)評(píng)估了評(píng)分量表內(nèi)部的構(gòu)成要素,其研究表明各評(píng)分維度完整覆蓋了測(cè)試構(gòu)念,評(píng)分量表中的縱向等級(jí)大多能有效區(qū)分不同寫(xiě)作能力的考生,但3分和4分之間的區(qū)分度不高,需進(jìn)一步調(diào)整或修改。此外,還有研究關(guān)注專(zhuān)門(mén)用途評(píng)分量表的效度,如銜接連貫度評(píng)分量表(Knoch,2007)、寫(xiě)作測(cè)試任務(wù)真實(shí)性評(píng)分量表(Behizadeh,2014)、寫(xiě)作功能表達(dá)評(píng)分量表(Kuiken et al.,2017)等。

上述研究大多以結(jié)果為導(dǎo)向,分析考生的寫(xiě)作成績(jī)來(lái)評(píng)判評(píng)分量表的效度,也有少量研究以過(guò)程為導(dǎo)向,關(guān)注評(píng)分量表的具體使用過(guò)程。Shirazi(2012)通過(guò)評(píng)分員有聲思維發(fā)現(xiàn)其在評(píng)分過(guò)程中很少依靠評(píng)分量表,而是根據(jù)各自的主觀標(biāo)準(zhǔn)進(jìn)行評(píng)分。Jeong(2015)對(duì)比了無(wú)評(píng)分量表和有評(píng)分量表情況下的寫(xiě)作評(píng)分,發(fā)現(xiàn)兩次評(píng)分結(jié)果雖無(wú)顯著性差異,但有評(píng)分量表時(shí)評(píng)分員關(guān)注的覆蓋面更廣、更全。Winke等(2015)的眼動(dòng)實(shí)驗(yàn)結(jié)果進(jìn)一步表明評(píng)分量表對(duì)評(píng)分工作起到持續(xù)的引導(dǎo)作用,且評(píng)分員對(duì)評(píng)分量表各個(gè)維度的關(guān)注程度有所不同。還有研究對(duì)比了不同評(píng)分經(jīng)驗(yàn)的評(píng)分員在使用評(píng)分量表過(guò)程中的差異,發(fā)現(xiàn)較之評(píng)分經(jīng)驗(yàn),評(píng)分量表對(duì)評(píng)分過(guò)程產(chǎn)生了更大的影響(Barkaoui,2010)。此外,作為熟練評(píng)分員的教師在使用評(píng)分量表時(shí),其評(píng)分結(jié)果的一致性、科學(xué)性以及對(duì)評(píng)分量表的解讀能力均優(yōu)于新手評(píng)分員(Li et al.,2015)。

綜上,許多研究主要依賴(lài)對(duì)比不同類(lèi)型評(píng)分量表、衡量靜態(tài)評(píng)分結(jié)果的可靠性等手段,效度證據(jù)的完整度相對(duì)不足。部分研究雖關(guān)注評(píng)分量表的使用過(guò)程,但主要目的在于觀察評(píng)分員特征或揭示評(píng)分員與評(píng)分量表之間的互動(dòng)關(guān)系,而非評(píng)分量表自身的質(zhì)量和效度。鑒于此,本研究以一則“概要寫(xiě)作”評(píng)分量表為例,基于評(píng)分量表的使用過(guò)程對(duì)其進(jìn)行效度驗(yàn)證,擬回答下列兩個(gè)研究問(wèn)題。

(1)在評(píng)分過(guò)程中,評(píng)分量表是否能保障評(píng)分可靠性?

(2)評(píng)分量表的描述語(yǔ)、評(píng)分維度、各級(jí)別分值等要素對(duì)評(píng)分過(guò)程有何影響?

2 研究設(shè)計(jì)

2.1 受試

受試包含學(xué)生、教師兩個(gè)群體。前者為江蘇某高校英語(yǔ)專(zhuān)業(yè)本科三年級(jí)學(xué)生(n=63),其中男生九人,女生54人,均已通過(guò)英語(yǔ)專(zhuān)業(yè)四級(jí)考試(平均成績(jī)70.13分),英語(yǔ)基本功較為扎實(shí)。教師為該高校在職英語(yǔ)教師(n=7),擔(dān)任概要寫(xiě)作的評(píng)分工作(具體見(jiàn)表1)。

表1 評(píng)分員信息一覽表

2.2 研究工具

本研究所使用的評(píng)分量表由五個(gè)維度組成,即“語(yǔ)言準(zhǔn)確”“語(yǔ)言復(fù)雜”“忠實(shí)源文”“銜接連貫”“寫(xiě)作規(guī)范”,分值權(quán)重依次為25%、20%、20%、25%、10%。各維度包含從“優(yōu)秀”到“極差”五個(gè)等級(jí)。暫設(shè)概要寫(xiě)作任務(wù)滿(mǎn)分為100分,并按照上述分值權(quán)重為每個(gè)等級(jí)平均賦分,詳見(jiàn)表2。評(píng)分員根據(jù)整體印象在各維度確定某等級(jí),然后在其對(duì)應(yīng)的賦分區(qū)間內(nèi)擇定最終得分。

表2 等待效度驗(yàn)證的概要寫(xiě)作評(píng)分量表① 限于篇幅,評(píng)分量表描述語(yǔ)未能呈現(xiàn),可參考《中國(guó)外語(yǔ)教育》2018年第2期第65-66頁(yè)。

概要寫(xiě)作源文由筆者與兩名英語(yǔ)專(zhuān)業(yè)教師共同挑選,最終擇定2014年考研英語(yǔ)中的第二篇閱讀理解,主題為美國(guó)法律人才培養(yǎng),一致認(rèn)為源文難度與受試學(xué)生的英語(yǔ)水平比較吻合,全文共計(jì)413詞。

2.3 數(shù)據(jù)收集與分析

63名學(xué)生在英語(yǔ)寫(xiě)作課上完成概要寫(xiě)作,限時(shí)45分鐘,篇幅100詞以?xún)?nèi)。研究者對(duì)63份概要寫(xiě)作逐一編號(hào),并隱去學(xué)生信息。評(píng)分員在評(píng)分前均接受了培訓(xùn),包括閱讀和分析源文、熟悉評(píng)分量表等。研究者從63份概要寫(xiě)作中選出好、中、差三個(gè)樣本供評(píng)分員參考,通過(guò)試評(píng)和討論幫助評(píng)分員在評(píng)分寬嚴(yán)度把握方面形成基本共識(shí)。此外,本研究采用有聲思維探索評(píng)分量表在評(píng)分過(guò)程中的作用和影響,研究者就有聲思維的過(guò)程和方法向評(píng)分員做了解釋和說(shuō)明。

為避免相互干擾,培訓(xùn)結(jié)束后七名評(píng)分員被分別安排到七間不同的教室進(jìn)行獨(dú)立評(píng)分,并使用手機(jī)錄制有聲思維,評(píng)分時(shí)間為三小時(shí)。結(jié)束后,又采用半結(jié)構(gòu)式訪(fǎng)談了解評(píng)分員在評(píng)分量表使用過(guò)程中的感受。研究者對(duì)有聲思維與訪(fǎng)談錄音進(jìn)行了轉(zhuǎn)寫(xiě),采用內(nèi)容分析法(Patton,2015)進(jìn)行編碼,自下而上地提煉主題。

MFRM廣泛應(yīng)用于英語(yǔ)寫(xiě)作測(cè)試評(píng)分研究,可在同一洛基量尺上對(duì)不同層面的個(gè)體進(jìn)行度量,為評(píng)分量表效度驗(yàn)證提供豐富的證據(jù)(Bond et al.,2015)。本研究借助FACETS 3.58軟件進(jìn)行定量分析。構(gòu)建的數(shù)學(xué)模型包括評(píng)分員、考生、評(píng)分維度三個(gè)層面:

log(Pnijk/Pnijk-1)=Bn-Cj-Di-Fk 8136A635

其中,Pnijk表示評(píng)分員j對(duì)考生n在維度i上打k分的概率;Pnijk-1為其他情況相同時(shí),該考生被評(píng)為(k-1)分的概率;Bn、Di、Cj、Fk分別代表第n個(gè)考生概要寫(xiě)作能力、維度i的難度、第j個(gè)評(píng)分員的嚴(yán)厲度以及各維度中得k分相對(duì)于(k-1)分的相對(duì)難度。

3 結(jié)果與討論

3.1 評(píng)分量表對(duì)評(píng)分過(guò)程可靠性的保障作用

MFRM分析直觀呈現(xiàn)了評(píng)分員在評(píng)分過(guò)程中對(duì)寬嚴(yán)度的把握及其自身評(píng)分一致性情況(表3)。

表3 評(píng)分員寬嚴(yán)度及一致性統(tǒng)計(jì)結(jié)果

表3中的第二列顯示評(píng)分員在寬嚴(yán)度方面的差異,六號(hào)評(píng)分員最嚴(yán)格(0.13 logit),五號(hào)評(píng)分員最寬松(-0.09 logit)。分隔系數(shù)為3.37,分割信度為0.92,卡方值為86.9(df=6;p<0.01),說(shuō)明評(píng)分員在寬嚴(yán)度方面存在顯著性差異。但其寬嚴(yán)度洛基值均在±1 logit 之間,且寬嚴(yán)度全距0.22 logit (-0.09~0.13 logit)遠(yuǎn)低于被試能力全距(1.9 logit)的1/4,說(shuō)明評(píng)分員嚴(yán)厲度差異總體上不會(huì)對(duì)評(píng)分結(jié)果產(chǎn)生決定性影響(Myford et al.,2003)。

通過(guò)觀察加權(quán)均方擬合統(tǒng)計(jì)量(Infit MnSq)可了解評(píng)分員內(nèi)部一致性,公認(rèn)度較高的取值區(qū)間為0.5~1.5,可說(shuō)明數(shù)據(jù)擬合良好,評(píng)分員穩(wěn)定性較高(Linacre,1999)。表3顯示,七位評(píng)分員的Infit MnSq值均在可接受范圍內(nèi),評(píng)分員在評(píng)分過(guò)程中能保持比較穩(wěn)定的寬嚴(yán)度。

基于過(guò)程導(dǎo)向的評(píng)分量表效度驗(yàn)證,其焦點(diǎn)是在評(píng)分過(guò)程中,評(píng)分量表能否規(guī)范和引導(dǎo)評(píng)分行為,保障評(píng)分質(zhì)量,可借助評(píng)分員在評(píng)分過(guò)程中的一致性指標(biāo)進(jìn)行觀察(Weir,2005;Deygers et al.,2015)。MFRM分析結(jié)果表明,評(píng)分員在相互一致性方面差異顯著,可能與其在學(xué)歷、教齡、認(rèn)知等個(gè)體因素方面差異較大有關(guān)。由表1可知評(píng)分員年齡跨度為18歲,教齡跨度23年,其中兩人擁有博士學(xué)位,研究方向也各不相同。上述差異可能是導(dǎo)致評(píng)分員間評(píng)分一致性差異的主要原因。許多研究表明評(píng)分員在接受培訓(xùn)的程度、評(píng)分風(fēng)格、評(píng)分策略等方面差異顯著(Knoch,2011;徐鷹,2016a),但這并不一定會(huì)對(duì)評(píng)分結(jié)果的可靠性造成根本性破壞。本研究MFRM結(jié)果顯示評(píng)分員間嚴(yán)厲度差異總體上未對(duì)評(píng)分結(jié)果起決定性作用,且加權(quán)均方擬合值表明所有評(píng)分員在評(píng)分過(guò)程中呈現(xiàn)出較好的內(nèi)部一致性,說(shuō)明評(píng)分量表指導(dǎo)下的評(píng)分過(guò)程總體來(lái)講是科學(xué)的,評(píng)分結(jié)果是可信的。

3.2 評(píng)分量表的主要構(gòu)成要素對(duì)評(píng)分過(guò)程的影響

3.2.1 描述語(yǔ)

評(píng)分員一致認(rèn)為描述語(yǔ)表述清晰,易于理解,在使用過(guò)程中沒(méi)有出現(xiàn)對(duì)描述語(yǔ)的不解、疑惑等情況。其中R4說(shuō)到:

描述語(yǔ)都很清楚、明了,沒(méi)有哪一條會(huì)讓我覺(jué)得模棱兩可。對(duì)描述語(yǔ)的內(nèi)容,我看一遍就能完全明白它的意思。

語(yǔ)義清晰的描述語(yǔ)有效增強(qiáng)了評(píng)分量表的便捷性和實(shí)用性,促使量表在使用過(guò)程中發(fā)揮更大的作用,比如R6認(rèn)為:

這個(gè)評(píng)分量表使用起來(lái)很方便,一步一步地引導(dǎo)?,F(xiàn)在專(zhuān)四、專(zhuān)八都有概要寫(xiě)作,平時(shí)課上也經(jīng)常給學(xué)生進(jìn)行練習(xí),這個(gè)評(píng)分量表可以直接被使用到我平時(shí)教學(xué)的評(píng)分中去。

描述語(yǔ)質(zhì)量對(duì)評(píng)分量表在實(shí)際使用過(guò)程中的效用至關(guān)重要。表述模糊的描述語(yǔ)加重評(píng)分員認(rèn)知負(fù)荷,迫使其解讀描述語(yǔ)時(shí)加入個(gè)人猜測(cè)或推斷,加劇評(píng)分的主觀性,最終影響評(píng)分量表的效度(Rakedzon et al.,2017)。本研究中評(píng)分員對(duì)描述語(yǔ)給予了積極的評(píng)價(jià),認(rèn)為描述語(yǔ)準(zhǔn)確、清晰、無(wú)歧義,這對(duì)統(tǒng)一評(píng)分員認(rèn)識(shí),保障評(píng)分量表效度具有重要意義。許多研究都強(qiáng)調(diào)描述語(yǔ)這一特點(diǎn)的重要性,甚至認(rèn)為是研制評(píng)分量表中最具挑戰(zhàn)性的一環(huán)(Rezaei et al.,2010)。但這并非意味著描述語(yǔ)越詳細(xì)越好,描述語(yǔ)過(guò)于細(xì)化反而會(huì)束縛評(píng)分員手腳,使其在評(píng)分過(guò)程中過(guò)度糾結(jié)評(píng)分量表中的某一細(xì)則,繼而影響評(píng)分效率和評(píng)分決策的果斷性(Li et al.,2015)。鑒于此,描述語(yǔ)應(yīng)避免過(guò)度具體或模糊兩個(gè)極端,結(jié)合寫(xiě)作測(cè)試類(lèi)型和目的在二者之間找到最佳平衡,并通過(guò)評(píng)分員培訓(xùn)等環(huán)節(jié)保障評(píng)分員對(duì)描述語(yǔ)解讀的一致性。

3.2.2 評(píng)分維度分析

表4顯示五個(gè)維度在難度上有顯著差異,分隔系數(shù)為4.32,信度為0.95,卡方值為125.4(d.f.=4;p<0.01)。各維度logit值表明語(yǔ)言準(zhǔn)確,語(yǔ)言復(fù)雜(0.12 logit)難度最大,得分最低,說(shuō)明評(píng)分員一定程度上繼承了傳統(tǒng)評(píng)分風(fēng)格,在評(píng)分過(guò)程中對(duì)語(yǔ)言層面的質(zhì)量更加敏感,因此會(huì)更加嚴(yán)格。忠實(shí)源文(-0.13 logit)難度最小,最易得高分,可能是因?yàn)楦乓獙?xiě)作受限于源文內(nèi)容,而學(xué)生均為英語(yǔ)專(zhuān)業(yè)高年級(jí)本科生,語(yǔ)言基本功較扎實(shí),不會(huì)輕易跑題或偏題(吳雪峰等,2018)。各維度Infit MnSq值在可接受范圍內(nèi)(0.94~1.06 logit),不存在非擬合或過(guò)度擬合的維度。

表4 評(píng)分維度的MFRM統(tǒng)計(jì)結(jié)果

對(duì)評(píng)分維度的劃分,所有評(píng)分員給予了充分肯定,認(rèn)為五個(gè)維度完整地體現(xiàn)了概要寫(xiě)作構(gòu)念,維度設(shè)置合理。評(píng)分員R3提道:

所有應(yīng)當(dāng)覆蓋的維度都考慮進(jìn)來(lái)了,沒(méi)有遺漏,包括詞匯、句法、內(nèi)容等各方面,還突出考查了考生能否恰當(dāng)處理概要寫(xiě)作與源文的關(guān)系,也就是“忠實(shí)源文”度。

然而,也有評(píng)分員對(duì)評(píng)分維度的數(shù)量表示擔(dān)憂(yōu),擔(dān)心設(shè)置五個(gè)維度會(huì)影響評(píng)分效率。評(píng)分員R5指出:

維度確實(shí)比較完整,也很有必要。但如果用于大型考試,像專(zhuān)四專(zhuān)八、四六級(jí),閱卷太耗時(shí)了,要考慮五個(gè)維度啊,哪來(lái)得及呢?用于平時(shí)測(cè)驗(yàn)倒還行。

對(duì)分值權(quán)重分配,多位評(píng)分員提出質(zhì)疑,尤其是針對(duì)“忠實(shí)源文”,認(rèn)為該維度分值權(quán)重偏低,應(yīng)充分考慮概要寫(xiě)作的特殊性及其構(gòu)念內(nèi)涵,賦予該維度更高的權(quán)重。評(píng)分員R1表示:

概要寫(xiě)作的第一要?jiǎng)?wù)就是內(nèi)容要匹配源文。目前只占20%感覺(jué)低了點(diǎn)。如果學(xué)生的概要寫(xiě)作語(yǔ)言?xún)?yōu)美、結(jié)構(gòu)完整,但寫(xiě)的內(nèi)容和源文相關(guān)性很差或者風(fēng)牛馬不相及,那還有什么意義呢?

在此基礎(chǔ)上,評(píng)分員R6則明確提出“忠實(shí)源文”度是整個(gè)評(píng)分量表中最重要的維度,應(yīng)該給予其最高的權(quán)重,他認(rèn)為:

沒(méi)有哪個(gè)維度能和“忠實(shí)源文”度相提并論,20%的權(quán)重偏低了,必須提高,其他有的維度要降下去,降哪個(gè)再慎重考慮。

盡管評(píng)分員均贊同維度的設(shè)置,但在分值權(quán)重方面提出異議,尤其是“忠實(shí)源文”維度,認(rèn)為20%的權(quán)重過(guò)低,應(yīng)當(dāng)賦予該維度最高的權(quán)重。從測(cè)試構(gòu)念來(lái)看,概要寫(xiě)作是基于閱讀考查寫(xiě)作能力的測(cè)試任務(wù),學(xué)生需在理解源文的基礎(chǔ)上,通過(guò)認(rèn)知加工和處理,使用自己的語(yǔ)言簡(jiǎn)明扼要地概述源文主要信息(Yu,2009)。概要寫(xiě)作的構(gòu)念尤其強(qiáng)調(diào)所寫(xiě)概要和源文間的匹配度。除“簡(jiǎn)明扼要”和“自己組織語(yǔ)言”以外,未對(duì)語(yǔ)言質(zhì)量提出具體要求,語(yǔ)言維度權(quán)重過(guò)高會(huì)導(dǎo)致考分解釋的偏差,即分?jǐn)?shù)主要反映語(yǔ)言能力而非概要寫(xiě)作能力,這與概要寫(xiě)作的測(cè)試構(gòu)念是相悖的。此外,該量表分值權(quán)重的確定主要依靠回歸分析(吳雪峰,2018),是否合理還取決于評(píng)分員在評(píng)分過(guò)程中的感受及評(píng)價(jià)(Barkaoui,2010),因此可適當(dāng)提升“忠實(shí)源文”維度的權(quán)重,降低語(yǔ)言準(zhǔn)確、語(yǔ)言復(fù)雜維度的權(quán)重,做到“較高的分值比例給那些較能體現(xiàn)或代表寫(xiě)作能力的部分”(鄒申,2011:114)。

3.2.3 級(jí)別設(shè)置與分值使用

評(píng)分量表各維度均由五個(gè)級(jí)別組成,其設(shè)置與分值使用是否合理主要考慮以下層面:(1)分值使用的整體分布;(2)Outfit MnSq值是否小于2;(3)分階校準(zhǔn)值是否隨分值增加而單向遞增(李清華,2014)。具體見(jiàn)表5。

表5 各維度分值使用情況一覽表① C表示Count,即評(píng)分員打出該分?jǐn)?shù)的頻次;OM表示Outfit MnSq,即未加權(quán)均方擬合統(tǒng)計(jì)量;SC表示Step calibration,即分階校準(zhǔn)值。此外,表中黑色底紋用以區(qū)別各維度中的不同評(píng)分等級(jí)。如維度1中,由低到高各等級(jí)的分值區(qū)間依次為:0-5;6-10;11-15;16-20;21-25,其他維度以此類(lèi)推。

分值 1語(yǔ)言準(zhǔn)確度2銜接連貫度3忠實(shí)源文度4語(yǔ)言復(fù)雜度5寫(xiě)作規(guī)范度(25分)(25分)(20分)(20分)(10分)8 3 1.5 -0.82 2 1.3 -0.27images/BZ_160_1094_547_1183_622.pngimages/BZ_160_1183_547_1301_622.pngimages/BZ_160_1301_547_1449_622.pngimages/BZ_160_1449_547_1537_622.pngimages/BZ_160_1537_547_1655_622.pngimages/BZ_160_1655_547_1803_622.pngimages/BZ_160_1803_547_1921_622.pngimages/BZ_160_1921_547_2039_622.png0.38 9 4 1.3 -0.68 5 0.8 -1.16? 30 0.8 -0.42 40 0.8 -0.98 83 0.9 0.41 10images/BZ_160_383_697_472_772.pngimages/BZ_160_472_697_590_772.pngimages/BZ_160_590_697_738_772.pngimages/BZ_160_738_697_826_772.pngimages/BZ_160_826_697_944_772.pngimages/BZ_160_944_697_1094_772.png28 1.0 0.05 44 1.3 -0.34images/BZ_160_1803_697_1921_772.pngimages/BZ_160_1921_697_2039_772.png1.91 11 19 1.1 -0.64 29 0.9 -0.56 26 1.4 0.09 26 1.0 0.33 12 30 0.8 -0.75? 27 1.3 -0.08images/BZ_160_1094_848_1183_923.pngimages/BZ_160_1183_848_1301_923.pngimages/BZ_160_1301_848_1449_923.pngimages/BZ_160_1449_848_1537_923.pngimages/BZ_160_1537_848_1655_923.pngimages/BZ_160_1655_848_1803_923.png13 15 0.9 0.43 12 0.6 0.70 52 1.2 0.22 77 0.9 -0.22 14 21 0.4 -0.56? 33 1.1 -1.08? 48 1.1 0.24 38 0.9 0.66 15images/BZ_160_383_1073_472_1148.pngimages/BZ_160_472_1073_590_1148.pngimages/BZ_160_590_1073_738_1148.pngimages/BZ_160_738_1073_826_1148.pngimages/BZ_160_826_1073_944_1148.pngimages/BZ_160_944_1073_1094_1148.png46 1.0 0.26 34 1.1 0.13?16 97 1.3 -0.40 99 1.5 -0.42images/BZ_160_1094_1148_1183_1224.pngimages/BZ_160_1183_1148_1301_1224.pngimages/BZ_160_1301_1148_1449_1224.pngimages/BZ_160_1449_1148_1537_1224.pngimages/BZ_160_1537_1148_1655_1224.pngimages/BZ_160_1655_1148_1803_1224.png17 33 1.1 1.00 29 1.3 1.32 35 0.9 0.68 20 1.1 0.89 18 30 1.1 0.07? 25 1.0 0.27? 27 1.0 0.75 15 1.0 0.64?19 11 1.0 1.04 14 0.8 0.76 7 1.3 2.04 3 0.6 2.18 20images/BZ_160_383_1449_472_1524.pngimages/BZ_160_472_1449_590_1524.pngimages/BZ_160_590_1449_738_1524.pngimages/BZ_160_738_1449_826_1524.pngimages/BZ_160_826_1449_944_1524.pngimages/BZ_160_944_1449_1094_1524.pngimages/BZ_160_1094_1449_1537_1524.pngimages/BZ_160_1537_1449_1655_1524.pngimages/BZ_160_1655_1449_1803_1524.png21 31 0.9 0.20 24 1.3 0.74 22 21 1.2 0.72 15 1.4 0.93 23 4 0.6 2.19 6 0.8 1.56 24 1 0.9 2.18 4 1.1 1.29?25

首先,就總體分布而言,評(píng)分員在各維度上均未使用過(guò)一級(jí)中的任何分值??紤]到受試學(xué)生均為英語(yǔ)專(zhuān)業(yè)三年級(jí)學(xué)生,英語(yǔ)基本功較扎實(shí),這樣的結(jié)果是完全正常的。各維度使用的分值大多集中在第二至五級(jí)。此外,MFRM分析顯示學(xué)生層面分隔系數(shù)為4.19,分割信度為0.95,卡方值為844.9(df=62,p=.00),說(shuō)明評(píng)分量表能顯著區(qū)分學(xué)生的概要寫(xiě)作能力。總之,評(píng)分過(guò)程中分值使用比較均衡、合理,無(wú)某分值或分?jǐn)?shù)段過(guò)度集中的現(xiàn)象。其次,各維度所有分值Outfit MnSq均小于2,且大多接近1,說(shuō)明評(píng)分量表擬合良好,獲得某分值的學(xué)生其預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)無(wú)顯著差異,該分值能準(zhǔn)確反映學(xué)生的實(shí)際寫(xiě)作水平(Linacre,1999)。

然而從表5我們還是看到,各維度分階校準(zhǔn)值未隨分值增加而單向遞增,出現(xiàn)“分階無(wú)序”現(xiàn)象(表5中?號(hào)),表明評(píng)分員在使用這些分值時(shí)無(wú)法做到準(zhǔn)確把握和使用,這些分值不能很好地區(qū)分不同寫(xiě)作能力的學(xué)生。各維度分階無(wú)序頻次從高到低為:語(yǔ)言準(zhǔn)確六次、銜接連貫六次、語(yǔ)言復(fù)雜四次、忠實(shí)源文兩次、寫(xiě)作規(guī)范一次。評(píng)分量表三、四級(jí)使用的分值最多,分別為八次和七次;二、五級(jí)數(shù)量較小,均為三次,說(shuō)明評(píng)分員主要在中等級(jí)別無(wú)法準(zhǔn)確把握和使用相應(yīng)分值。但分階無(wú)序現(xiàn)象大多發(fā)生在某級(jí)別內(nèi)部(如語(yǔ)言準(zhǔn)確維度三級(jí)中的12、14、15等三個(gè)分值),基本不涉及跨級(jí)別的臨界分值。以語(yǔ)言準(zhǔn)確度為例,三到五級(jí)最低分依次為11分、16分、21分,均未出現(xiàn)分階無(wú)序現(xiàn)象,說(shuō)明在評(píng)分過(guò)程中,評(píng)分員借助評(píng)分量表能有效區(qū)別隸屬不同級(jí)別的學(xué)生,但無(wú)法在各級(jí)別內(nèi)部做出精準(zhǔn)決斷。

有聲思維也證實(shí)了評(píng)分過(guò)程中評(píng)分員存在這種困難。R5在評(píng)分時(shí)說(shuō)道:

語(yǔ)言質(zhì)量還不錯(cuò),用了一些從句,高級(jí)詞匯也有,可以放在第四檔。這檔的分值13-16分。打哪一個(gè)分?jǐn)?shù)呢?14還是15、16?有點(diǎn)暈……好吧,就15吧。說(shuō)實(shí)話(huà)我真不知道該選哪一個(gè)。時(shí)間差不多了,別想了,就15分吧。好糾結(jié)啊。

評(píng)分員訪(fǎng)談表明,評(píng)分員能較好地區(qū)分各維度中的五個(gè)級(jí)別,認(rèn)為各級(jí)別間差異顯著,有利于快速、準(zhǔn)確地判定學(xué)生習(xí)作所屬級(jí)別。但在各級(jí)別內(nèi)部具體賦分時(shí)有一定的難度。評(píng)分員R6說(shuō)道:

一個(gè)級(jí)別包含4-5個(gè)分值,那我就有四個(gè)選擇。給作文定級(jí)已經(jīng)費(fèi)了一番腦子了,馬上又要做“四選一”,有點(diǎn)痛苦。我很糾結(jié),四個(gè)分值之間到底是什么差異,我不是很清楚。

評(píng)分員雖能有效區(qū)分量表的五個(gè)級(jí)別,但從某級(jí)別內(nèi)部分值區(qū)間擇取具體分值時(shí)無(wú)法準(zhǔn)確把握,這與前人研究結(jié)果是一致的(Jeffrey,2015;徐鷹,2016b),因?yàn)楦骷?jí)別描述語(yǔ)是對(duì)該級(jí)別寫(xiě)作能力的整體性描述,量表中并無(wú)針對(duì)內(nèi)部分值區(qū)間中各分值的具體化描述,因此評(píng)分員通過(guò)主觀推測(cè)而非依賴(lài)實(shí)際標(biāo)準(zhǔn)擇定最后分值,再加上評(píng)分時(shí)間限制,故出現(xiàn)上述賦分困難。也有寫(xiě)作測(cè)試(如托福、雅思)采用單點(diǎn)分值,即每個(gè)級(jí)別只對(duì)應(yīng)一個(gè)分值,如五個(gè)級(jí)別對(duì)應(yīng)分值為1至5,其效度優(yōu)于分值區(qū)間式評(píng)分量表(關(guān)丹丹等,2011)。但單點(diǎn)分值評(píng)分模式下被歸入同一級(jí)別的習(xí)作,質(zhì)量仍有差異,因而有損考試公平(Deygers et al.,2015),同時(shí)會(huì)限制分?jǐn)?shù)的多樣性,導(dǎo)致寫(xiě)作分?jǐn)?shù)解釋的趨同性,不利于給出有效的考試反饋(Rezaei et al.,2010)。國(guó)內(nèi)大規(guī)模英語(yǔ)考試(如CET4/6,TEM4/8)均采用區(qū)間分值量表進(jìn)行評(píng)分,多年來(lái)歷經(jīng)實(shí)踐已較為成熟,其效度已得到廣泛的社會(huì)公認(rèn)。綜上,區(qū)間分值和單點(diǎn)分值各有利弊,采用何種形式應(yīng)因地因時(shí)制宜,做出合理安排。本研究所設(shè)分值較高(100分),可采取降低分值、合并分?jǐn)?shù)段等方式縮小評(píng)分員的分值擇取范圍。

為克服評(píng)分過(guò)程中抉擇具體分值時(shí)的困難,評(píng)分員采取了一系列對(duì)策。我們從有聲思維報(bào)告中提煉出五種策略,即:搜索關(guān)鍵詞、搜索關(guān)鍵錯(cuò)誤、分析推斷、前后比較、自我修正,使用頻次見(jiàn)表6?!八阉麝P(guān)鍵詞”指通過(guò)觀察關(guān)鍵詞的呈現(xiàn)或缺位判斷是否覆蓋源文核心信息,是否使用有效銜接手段,為忠實(shí)源文、銜接連貫維度的評(píng)分提供依據(jù);“搜索關(guān)鍵錯(cuò)誤”主要用于語(yǔ)言準(zhǔn)確、語(yǔ)言復(fù)雜及寫(xiě)作規(guī)范維度的評(píng)分;“分析推斷”幫助評(píng)分員在各級(jí)別間及及其內(nèi)部進(jìn)行分值選擇;“前后比較”指評(píng)分員在賦分猶豫時(shí)翻閱、對(duì)比已經(jīng)評(píng)閱、正在評(píng)閱和即將評(píng)閱的習(xí)作,以做出更加合理的評(píng)分決策。“自我修正”指評(píng)分員意識(shí)到自己評(píng)分有誤或不妥,主動(dòng)修改和糾正所賦分值。

表6 評(píng)分策略使用頻次

不難看出,評(píng)分員實(shí)施后兩個(gè)策略不需直接求助評(píng)分量表,但前三個(gè)策略的使用與評(píng)分量表直接相關(guān),是評(píng)分員結(jié)合評(píng)分量表各維度的具體要求而采取的相應(yīng)策略,其使用頻次達(dá)到了448次,遠(yuǎn)超后兩個(gè)策略的14次,一定程度上說(shuō)明評(píng)分量表在評(píng)分過(guò)程中起到了積極的引導(dǎo)作用。評(píng)分員在評(píng)分過(guò)程中的猶豫不決以及采用各種補(bǔ)救性評(píng)分策略,主要?dú)w因于評(píng)分量表中顯性指導(dǎo)的缺失(Jeffrey,2015),即分值區(qū)間中各分值無(wú)對(duì)應(yīng)的具體標(biāo)準(zhǔn)供參考,可從考生文本中篩選與各分值大致對(duì)應(yīng)的例文,并在評(píng)分員培訓(xùn)中集體講解和學(xué)習(xí),幫助其統(tǒng)一認(rèn)識(shí),掌握標(biāo)準(zhǔn),提升評(píng)分量表的效度。

4 結(jié)語(yǔ)

本研究以過(guò)程導(dǎo)向?yàn)橐暯?對(duì)一則英語(yǔ)概要寫(xiě)作評(píng)分量表進(jìn)行了效度驗(yàn)證。研究表明在評(píng)分過(guò)程中,該評(píng)分量表能有效幫助評(píng)分員把控寬嚴(yán)度并保障評(píng)分一致性;橫向來(lái)看,描述語(yǔ)清晰準(zhǔn)確,評(píng)分維度完整,但“忠實(shí)源文”維度的分值權(quán)重應(yīng)適當(dāng)調(diào)高??v向來(lái)看,最突出的問(wèn)題是評(píng)分員在各級(jí)別內(nèi)部分值的選擇上存在困難,因此有必要通過(guò)降低分值、合并分?jǐn)?shù)段、增加評(píng)分參考樣本等方法進(jìn)一步改進(jìn)評(píng)分量表。行為表現(xiàn)型測(cè)試中一般不存在完美無(wú)缺的評(píng)分量表(Rezaei et al.,2010),因此多維度、多視角的效度驗(yàn)證必不可少,從而為評(píng)分量表的修訂和完善提供充足的理?yè)?jù)支持。

猜你喜歡
研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷(xiāo)會(huì)計(jì)研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 日韩在线网址| 中文成人在线视频| 欧美啪啪网| 全部毛片免费看| 婷婷午夜影院| 色噜噜狠狠色综合网图区| 亚洲国产精品不卡在线| 亚洲AV无码久久精品色欲| 99久久精彩视频| 国产精品香蕉| 亚洲国产看片基地久久1024| 全色黄大色大片免费久久老太| 国产真实乱了在线播放| 亚洲人成网站在线播放2019| 九九九精品成人免费视频7| 制服丝袜在线视频香蕉| 日韩欧美中文| 91在线丝袜| 亚洲成av人无码综合在线观看| 暴力调教一区二区三区| 国产亚洲高清在线精品99| 亚洲精品人成网线在线 | 国产人妖视频一区在线观看| 欧美精品成人| 免费不卡视频| 广东一级毛片| 日韩欧美视频第一区在线观看| 亚洲欧美另类久久久精品播放的| 中文字幕亚洲乱码熟女1区2区| 久久久久久尹人网香蕉| 国产91高跟丝袜| 国产福利免费在线观看| 色综合天天视频在线观看| 国产欧美精品一区二区| 熟女成人国产精品视频| 伊人蕉久影院| 在线观看亚洲人成网站| 国产午夜小视频| 日本亚洲国产一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 欧美日韩在线成人| 久久精品国产精品青草app| 在线无码九区| 在线国产欧美| 亚洲欧美成人| 日本人真淫视频一区二区三区| jizz亚洲高清在线观看| 久久美女精品| 玩两个丰满老熟女久久网| 亚洲精品欧美重口| 国产精品偷伦视频免费观看国产| 精品国产91爱| 国产亚洲精品97AA片在线播放| 在线播放国产99re| 99精品视频九九精品| 玖玖免费视频在线观看| 黄色网址免费在线| 国产精品护士| 精品午夜国产福利观看| 色成人综合| 综合五月天网| 欧美一区中文字幕| 日韩精品久久无码中文字幕色欲| a在线观看免费| 亚洲精品国产成人7777| 欧美日韩国产在线人成app| 一本大道AV人久久综合| 国产小视频在线高清播放| 国产精品一区二区国产主播| 女人天堂av免费| 日韩A级毛片一区二区三区| 激情乱人伦| 天天综合网在线| 日本欧美一二三区色视频| 免费国产福利| a天堂视频| 伊人福利视频| 亚洲永久色| 欧美性猛交一区二区三区| 114级毛片免费观看| 青青青草国产| 伊人成人在线|