摘要:語言測試是我國現(xiàn)行考試體系中比重最大、普及范圍最廣、影響范圍最廣的考試。語言測試在教育、人事選拔等領(lǐng)域都發(fā)揮著無可替代的作用。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高,對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。本文對(duì)考試分?jǐn)?shù)的合成方法做了總結(jié),以其為相關(guān)研究提供參考。
關(guān)鍵詞:語言測試;合成;方法
一、引言
中國是最早使用考試的國家,從古代的科舉發(fā)展到現(xiàn)代的考試,考試在教育、人事選拔、職業(yè)能力鑒定等領(lǐng)域都發(fā)揮著無可替代的作用。受國外托福、雅思等語言測試的影響,國內(nèi)于70年代末開始引進(jìn)或開發(fā)第二語言測試。第二語言測試是針對(duì)第二語言習(xí)得提出的,如大學(xué)英語考試(CET)、英語水平考試(EPT)、公共英語水平考試(PETS)等。
語言測試的目的是評(píng)價(jià)學(xué)習(xí)者的學(xué)業(yè)成就或語言水平,評(píng)估教學(xué)效果。除此之外,CET、托福、雅思、PETS等語言測試的結(jié)果已經(jīng)成為人才選拔時(shí)的重要依據(jù);英語作為國內(nèi)學(xué)校教授的最主要的第二語言,在高考選拔中的重要性越來越高。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高,對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。
語言測試專業(yè)性不僅表現(xiàn)在題目的命制、考試組織與管理、考試結(jié)論的應(yīng)用等方面,更體現(xiàn)在開始分?jǐn)?shù)的導(dǎo)出、報(bào)告與解釋上。但目前國內(nèi)自主組織的語言測試依然采取基于經(jīng)典測量理論的分?jǐn)?shù)合成方法,使得考試之間的可比性、分?jǐn)?shù)解釋的科學(xué)性、結(jié)果應(yīng)用的外部效度都受到了極大的影響。
本文擬從經(jīng)典測量理論和現(xiàn)代測量理論的角度,對(duì)國內(nèi)幾種常見分?jǐn)?shù)合成方式的原理與特點(diǎn)做比較分析,并提出語言測試分?jǐn)?shù)合成及報(bào)告的解決方案。
二、分?jǐn)?shù)合成方法的分類
語言測試屬于典型的能力水平測試,是教育與心理測量學(xué)領(lǐng)域的重要研究主題。對(duì)能力測試數(shù)據(jù)的分析經(jīng)過了兩個(gè)重要的發(fā)展階段。以1968年Lord發(fā)表《心理測驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》為界,教育與心理測量學(xué)經(jīng)歷了經(jīng)典測量理論和現(xiàn)代測量理論兩個(gè)發(fā)展階段。19世紀(jì)末真分?jǐn)?shù)理論提出到20世紀(jì)60年代末的70年間是經(jīng)典測量理論占主導(dǎo)的發(fā)展階段。經(jīng)典測量理論為教育與心理測評(píng)的發(fā)展做出了卓越的貢獻(xiàn),但也存在很多理論本身無法避免的缺陷。最典型的缺陷是:“統(tǒng)計(jì)指標(biāo)與實(shí)際意義相悖”,以難度的計(jì)算為例,客觀題難度即正確率。例如選擇題正答率為0.8則難度為0.8,代表題目非常簡單;若正答率為0.1則難度為0.1,代表題目非常難。難度的理論區(qū)間為[0,1],數(shù)值越大難度越小、數(shù)值越小反而難度越大。經(jīng)典測量理論的缺陷還包括:題目屬性的分析依賴于被試樣本、分?jǐn)?shù)不等距、基于加權(quán)累積方式合成分?jǐn)?shù)等。為解決這一問題,以項(xiàng)目反應(yīng)理論、概化理論為代表的現(xiàn)代測量理論逐漸發(fā)展起來。項(xiàng)目反應(yīng)理論是現(xiàn)代測量理論的核心理論。與經(jīng)典測量理論相比,項(xiàng)目反應(yīng)理論深入測驗(yàn)的微觀領(lǐng)域,通過將學(xué)生與項(xiàng)目(題目)關(guān)聯(lián)起來并進(jìn)行參數(shù)化、模型化,解決了經(jīng)典測量理論的諸多缺陷。
因此,語言測試的分?jǐn)?shù)合成與解釋也分為經(jīng)典測量理論和項(xiàng)目反應(yīng)理論兩種類型。基于經(jīng)典測量理論的分?jǐn)?shù)合成方法包括直接相加法、加權(quán)累積法、多重分段法;基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成方法主要包括只考慮難度、區(qū)分度等題目特征的項(xiàng)目反應(yīng)模型合成法;綜合考慮題目特征、評(píng)卷教師特征、考生特征的多面Rasch模型分析法。
三、基于經(jīng)典測量理論的分?jǐn)?shù)合成
(一)直接相加法
直接相加法就是將測驗(yàn)中的各個(gè)維度直接累加得到一個(gè)分?jǐn)?shù)。一個(gè)完整的語言測試,一般會(huì)同時(shí)設(shè)計(jì)語言學(xué)習(xí)的多個(gè)方面,如英語考試一般會(huì)包括聽力、口語、閱讀、寫作四個(gè)維度。以直接相加法計(jì)算的英語考試成績就是四個(gè)維度得分的簡單加總。
各維度之間的得分直接相加的前提是各種分?jǐn)?shù)之間是同質(zhì)的,且各維度或分測驗(yàn)的得分在總分中所占的權(quán)重相同。在滿足上述前提的情況下,直接相加法具有操作簡便、容易理解、處理快速等優(yōu)點(diǎn)。
英語的聽力測試、口語測試、閱讀測試、寫作測試分別對(duì)應(yīng)聽、說、讀、寫四種能力。學(xué)術(shù)界對(duì)二語能力的結(jié)構(gòu)尚未形成統(tǒng)一的認(rèn)識(shí),主要的爭議在于:聽、說、讀、寫是四種獨(dú)立的語言能力,還是統(tǒng)一在語言能力下的四個(gè)方面。只有后一種理論才滿足四個(gè)測驗(yàn)是同質(zhì)的,才允許將四個(gè)得分直接相加。另外,語言測試中,針對(duì)不同的能力設(shè)計(jì)了不同的題型,如聽力、閱讀等能力的測試以客觀題為主,寫作能力的測試以主觀題為主。兩類題目從考察的認(rèn)知能力、題目難度、考察方式上都有明顯區(qū)別,不考慮這些差別的情況下直接將得分相加顯然不太合理。
(二)加權(quán)累積法
為解決直接相加法不考慮題目難度、認(rèn)知要求、考察方式等差異的缺陷,加權(quán)累積法根據(jù)題目屬性之間的差異,給予不同的權(quán)重,然后進(jìn)行加權(quán)求和計(jì)算總分。合成分?jǐn)?shù)過程中的權(quán)重是命題者根據(jù)題目的不同屬性賦予的。如高考英語中,考察閱讀能力的客觀題每答對(duì)一題計(jì)4分,考察聽力能力的客觀題每答對(duì)一題計(jì)1.5分,考察語言知識(shí)運(yùn)用的客觀題每答對(duì)一題計(jì)0.5分。加權(quán)累積法雖然增加了權(quán)重,但除了權(quán)重的設(shè)計(jì)需要一定的理論支持,分?jǐn)?shù)的合成過程仍簡單快捷,因此在教育考試中應(yīng)用最為廣泛。
加權(quán)的方式一定程度上解決了不同題目測量屬性有別的問題。但權(quán)重的確定沒有統(tǒng)一標(biāo)準(zhǔn),均由命題者主觀確定。這就有可能導(dǎo)致不同作答模式被試因加權(quán)方法不同,得到的分?jǐn)?shù)不同。假設(shè)兩名學(xué)生參加通一次英語考試,考試中聽、說、讀、寫各一個(gè)題目。甲學(xué)生做對(duì)了聽、說、讀三個(gè)題目,乙學(xué)生做對(duì)了說、讀、寫三個(gè)題目。若四個(gè)題目的權(quán)重為1:1:1:2,則甲學(xué)生得3分、乙學(xué)生得4分;若四個(gè)題目的權(quán)重為1:1:1:1,則兩名學(xué)生得分相同,均為3分。這表明,完全主觀的權(quán)重設(shè)計(jì)有可能影響評(píng)價(jià)結(jié)果的效度。
(三)多重分段法
為解決加權(quán)累積法在權(quán)重設(shè)置上的缺陷,當(dāng)認(rèn)為語言測試中的各項(xiàng)分測驗(yàn)不具有互償性時(shí),就采取為每個(gè)測驗(yàn)指定一個(gè)計(jì)分標(biāo)準(zhǔn)。互償性是指A測驗(yàn)上的高分不能彌補(bǔ)B測驗(yàn)上的低分。例如在語言測試中,一名學(xué)生聽力能力上的高低不能影響其在寫作測驗(yàn)上的表現(xiàn)。
語言測試中的多重分段法是指語言能力的評(píng)價(jià)和預(yù)測可以有多個(gè)預(yù)測源,且這些預(yù)測源的預(yù)測方法、計(jì)分方式各不相同。如口語能力和閱讀能力都是語言能力的一部分,但聽力能力以一對(duì)一的口語交流形式來評(píng)價(jià),閱讀能力以紙筆測驗(yàn)的形式來評(píng)價(jià)。兩種能力有本質(zhì)的不同,兩個(gè)測試得分不能相加。所以需要在每個(gè)分測驗(yàn)內(nèi)獨(dú)立評(píng)價(jià)。在使用這些得分評(píng)價(jià)及篩選學(xué)生時(shí),應(yīng)分別劃線。如托福、雅思考試,在報(bào)告考生分?jǐn)?shù)時(shí)將不同能力模塊分開報(bào)告。
多重分段法解決了不同能力得分不能相加的問題,但也違背了分?jǐn)?shù)合成的經(jīng)濟(jì)性原則。更豐富的分?jǐn)?shù)報(bào)告雖然保證了科學(xué)性,但不報(bào)告總分的形式也給選拔工作增加了困難。
四、基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成
在經(jīng)典測量理論框架下的分?jǐn)?shù)合成方法,雖然考慮到了題型、考察內(nèi)容、難度等題目屬性,但在分?jǐn)?shù)合成過程中主觀因素對(duì)總分的影響很大。如何真正實(shí)現(xiàn)基于題目屬性的客觀測量是語言測試所面臨的最大挑戰(zhàn)。
項(xiàng)目反應(yīng)理論的提出,解決了這一難題。以最簡單的Rasch模型為例,認(rèn)為被試正確作答題目的概率可以用個(gè)體能力θ與該題目難度δ的一個(gè)簡單函數(shù)來表示:
f(Pni1)=θn-δi
其中,Pni1表示考生n回答第i個(gè)題目得1分的概率。在0-1計(jì)分題目中,得1分表示考生答對(duì)該題目。函數(shù)表示被試答對(duì)該題的概率Pni1取決于考生能力θn及題目難度δi。Rasch利用自然常數(shù)進(jìn)行轉(zhuǎn)換,使用最大似然估計(jì)法經(jīng)過多次迭代估計(jì)出考生能力。整個(gè)計(jì)算過程中未對(duì)任何題目進(jìn)行加權(quán),僅考慮考生作答情況。因此,分?jǐn)?shù)合成過程更加客觀、科學(xué)。
基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成結(jié)果還有以下幾個(gè)優(yōu)點(diǎn):
1.針對(duì)不同被試精確估計(jì)測量誤差。經(jīng)典測量理論的分?jǐn)?shù)合成過程對(duì)誤差的控制很弱。項(xiàng)目反應(yīng)理論將考生參數(shù)估計(jì)和題目參數(shù)估計(jì)統(tǒng)一在同一個(gè)框架下,對(duì)誤差的控制可以精確到每一名考生和每一個(gè)題目。
2.分?jǐn)?shù)合成僅依賴題目與考生特征。經(jīng)典測量理論的任何題目參數(shù)的計(jì)算都受考生能力分布的影響。例如難度的計(jì)算,難度以正答率為指標(biāo)。如果答題的學(xué)生能力普遍偏高,則計(jì)算出的題目難度就低,反之如果答題的學(xué)生能力普遍偏低,則計(jì)算出的題目難度就高。題目不變,但計(jì)算出的題目參數(shù)差異巨大,這顯然是確定題目參數(shù)的算法不合理。基于項(xiàng)目反映理論的合成方法僅考慮難度與能力兩個(gè)因素,且通過算法保證了在考生能力分布不同狀況下題目難度穩(wěn)定。
3.能力與難度具有統(tǒng)一量尺
基于經(jīng)典測量理論的分?jǐn)?shù)合成方法得到的總分與題目難度之間沒有可比性。例如,經(jīng)典測量理論無法估預(yù)測一名總分為80分的學(xué)生在一個(gè)難度為0.8的題目上的正答率。項(xiàng)目反應(yīng)理論解決了這一問題,將學(xué)生能力與題目難度統(tǒng)一在同一個(gè)量尺下,單位統(tǒng)一為Logit。
但基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成在數(shù)據(jù)的收集、參數(shù)估計(jì)等方面要求都比較高,這從一定程度上限制了這一方法的推廣。但隨著計(jì)算機(jī)技術(shù)、測量學(xué)技術(shù)的普及,更加科學(xué)、合理的分?jǐn)?shù)合成方法一定會(huì)快速普及起來。
五、總結(jié)
總體來說,采取哪種分?jǐn)?shù)合成方法應(yīng)當(dāng)是在綜合考慮人力、財(cái)力、測試目的等多個(gè)因素后決定的。在考慮上述因素的情況下,綜合運(yùn)用多種合成方法,從多個(gè)角度評(píng)價(jià)考生才能夠保證分?jǐn)?shù)報(bào)告的科學(xué)性、合理性。
【參考文獻(xiàn)】
[1]袁方,朱軍梅.多面Rasch模型:結(jié)構(gòu)化面試分?jǐn)?shù)合成的新方法[J]. 中國人力資源開發(fā),2009(08):53-55.
[2]陽輝,車宏生,卞冉.分?jǐn)?shù)合成:測評(píng)中不可忽視的重要環(huán)節(jié)[J]. 中國人才,2008 (15):49-51.
[3]王克盈.關(guān)于測驗(yàn)分?jǐn)?shù)合成方法的探討[J].陜西教育學(xué)院學(xué)報(bào), 2000(01):73-76.
[4]郭述平,金松堯.兩種分?jǐn)?shù)合成方法的比較[J].遼寧高等教育研究,1990(02):133-135.
作者簡介:袁淑敏( 1980—),女,貴州貴陽人,貴陽學(xué)院,講師,碩士,研究方向:應(yīng)用語言學(xué)。