語言測試的分?jǐn)?shù)合成方法研究

2016-11-16 10:31:30袁淑敏

大觀 2016年9期

關(guān)鍵詞：方法

摘要：語言測試是我國現(xiàn)行考試體系中比重最大、普及范圍最廣、影響范圍最廣的考試。語言測試在教育、人事選拔等領(lǐng)域都發(fā)揮著無可替代的作用。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高，對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。本文對(duì)考試分?jǐn)?shù)的合成方法做了總結(jié)，以其為相關(guān)研究提供參考。

關(guān)鍵詞：語言測試；合成；方法

一、引言

中國是最早使用考試的國家，從古代的科舉發(fā)展到現(xiàn)代的考試，考試在教育、人事選拔、職業(yè)能力鑒定等領(lǐng)域都發(fā)揮著無可替代的作用。受國外托福、雅思等語言測試的影響，國內(nèi)于70年代末開始引進(jìn)或開發(fā)第二語言測試。第二語言測試是針對(duì)第二語言習(xí)得提出的，如大學(xué)英語考試（CET）、英語水平考試（EPT）、公共英語水平考試（PETS）等。

語言測試的目的是評(píng)價(jià)學(xué)習(xí)者的學(xué)業(yè)成就或語言水平，評(píng)估教學(xué)效果。除此之外，CET、托福、雅思、PETS等語言測試的結(jié)果已經(jīng)成為人才選拔時(shí)的重要依據(jù)；英語作為國內(nèi)學(xué)校教授的最主要的第二語言，在高考選拔中的重要性越來越高。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高，對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。

語言測試專業(yè)性不僅表現(xiàn)在題目的命制、考試組織與管理、考試結(jié)論的應(yīng)用等方面，更體現(xiàn)在開始分?jǐn)?shù)的導(dǎo)出、報(bào)告與解釋上。但目前國內(nèi)自主組織的語言測試依然采取基于經(jīng)典測量理論的分?jǐn)?shù)合成方法，使得考試之間的可比性、分?jǐn)?shù)解釋的科學(xué)性、結(jié)果應(yīng)用的外部效度都受到了極大的影響。

本文擬從經(jīng)典測量理論和現(xiàn)代測量理論的角度，對(duì)國內(nèi)幾種常見分?jǐn)?shù)合成方式的原理與特點(diǎn)做比較分析，并提出語言測試分?jǐn)?shù)合成及報(bào)告的解決方案。

二、分?jǐn)?shù)合成方法的分類

語言測試屬于典型的能力水平測試，是教育與心理測量學(xué)領(lǐng)域的重要研究主題。對(duì)能力測試數(shù)據(jù)的分析經(jīng)過了兩個(gè)重要的發(fā)展階段。以1968年Lord發(fā)表《心理測驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》為界，教育與心理測量學(xué)經(jīng)歷了經(jīng)典測量理論和現(xiàn)代測量理論兩個(gè)發(fā)展階段。19世紀(jì)末真分?jǐn)?shù)理論提出到20世紀(jì)60年代末的70年間是經(jīng)典測量理論占主導(dǎo)的發(fā)展階段。經(jīng)典測量理論為教育與心理測評(píng)的發(fā)展做出了卓越的貢獻(xiàn)，但也存在很多理論本身無法避免的缺陷。最典型的缺陷是：“統(tǒng)計(jì)指標(biāo)與實(shí)際意義相悖”，以難度的計(jì)算為例，客觀題難度即正確率。例如選擇題正答率為0.8則難度為0.8，代表題目非常簡單；若正答率為0.1則難度為0.1，代表題目非常難。難度的理論區(qū)間為[0，1]，數(shù)值越大難度越小、數(shù)值越小反而難度越大。經(jīng)典測量理論的缺陷還包括：題目屬性的分析依賴于被試樣本、分?jǐn)?shù)不等距、基于加權(quán)累積方式合成分?jǐn)?shù)等。為解決這一問題，以項(xiàng)目反應(yīng)理論、概化理論為代表的現(xiàn)代測量理論逐漸發(fā)展起來。項(xiàng)目反應(yīng)理論是現(xiàn)代測量理論的核心理論。與經(jīng)典測量理論相比，項(xiàng)目反應(yīng)理論深入測驗(yàn)的微觀領(lǐng)域，通過將學(xué)生與項(xiàng)目（題目）關(guān)聯(lián)起來并進(jìn)行參數(shù)化、模型化，解決了經(jīng)典測量理論的諸多缺陷。

因此，語言測試的分?jǐn)?shù)合成與解釋也分為經(jīng)典測量理論和項(xiàng)目反應(yīng)理論兩種類型。基于經(jīng)典測量理論的分?jǐn)?shù)合成方法包括直接相加法、加權(quán)累積法、多重分段法；基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成方法主要包括只考慮難度、區(qū)分度等題目特征的項(xiàng)目反應(yīng)模型合成法；綜合考慮題目特征、評(píng)卷教師特征、考生特征的多面Rasch模型分析法。

三、基于經(jīng)典測量理論的分?jǐn)?shù)合成

（一）直接相加法

直接相加法就是將測驗(yàn)中的各個(gè)維度直接累加得到一個(gè)分?jǐn)?shù)。一個(gè)完整的語言測試，一般會(huì)同時(shí)設(shè)計(jì)語言學(xué)習(xí)的多個(gè)方面，如英語考試一般會(huì)包括聽力、口語、閱讀、寫作四個(gè)維度。以直接相加法計(jì)算的英語考試成績就是四個(gè)維度得分的簡單加總。

各維度之間的得分直接相加的前提是各種分?jǐn)?shù)之間是同質(zhì)的，且各維度或分測驗(yàn)的得分在總分中所占的權(quán)重相同。在滿足上述前提的情況下，直接相加法具有操作簡便、容易理解、處理快速等優(yōu)點(diǎn)。

英語的聽力測試、口語測試、閱讀測試、寫作測試分別對(duì)應(yīng)聽、說、讀、寫四種能力。學(xué)術(shù)界對(duì)二語能力的結(jié)構(gòu)尚未形成統(tǒng)一的認(rèn)識(shí)，主要的爭議在于：聽、說、讀、寫是四種獨(dú)立的語言能力，還是統(tǒng)一在語言能力下的四個(gè)方面。只有后一種理論才滿足四個(gè)測驗(yàn)是同質(zhì)的，才允許將四個(gè)得分直接相加。另外，語言測試中，針對(duì)不同的能力設(shè)計(jì)了不同的題型，如聽力、閱讀等能力的測試以客觀題為主，寫作能力的測試以主觀題為主。兩類題目從考察的認(rèn)知能力、題目難度、考察方式上都有明顯區(qū)別，不考慮這些差別的情況下直接將得分相加顯然不太合理。

（二）加權(quán)累積法

為解決直接相加法不考慮題目難度、認(rèn)知要求、考察方式等差異的缺陷，加權(quán)累積法根據(jù)題目屬性之間的差異，給予不同的權(quán)重，然后進(jìn)行加權(quán)求和計(jì)算總分。合成分?jǐn)?shù)過程中的權(quán)重是命題者根據(jù)題目的不同屬性賦予的。如高考英語中，考察閱讀能力的客觀題每答對(duì)一題計(jì)4分，考察聽力能力的客觀題每答對(duì)一題計(jì)1.5分，考察語言知識(shí)運(yùn)用的客觀題每答對(duì)一題計(jì)0.5分。加權(quán)累積法雖然增加了權(quán)重，但除了權(quán)重的設(shè)計(jì)需要一定的理論支持，分?jǐn)?shù)的合成過程仍簡單快捷，因此在教育考試中應(yīng)用最為廣泛。

加權(quán)的方式一定程度上解決了不同題目測量屬性有別的問題。但權(quán)重的確定沒有統(tǒng)一標(biāo)準(zhǔn)，均由命題者主觀確定。這就有可能導(dǎo)致不同作答模式被試因加權(quán)方法不同，得到的分?jǐn)?shù)不同。假設(shè)兩名學(xué)生參加通一次英語考試，考試中聽、說、讀、寫各一個(gè)題目。甲學(xué)生做對(duì)了聽、說、讀三個(gè)題目，乙學(xué)生做對(duì)了說、讀、寫三個(gè)題目。若四個(gè)題目的權(quán)重為1：1：1：2，則甲學(xué)生得3分、乙學(xué)生得4分；若四個(gè)題目的權(quán)重為1：1：1：1，則兩名學(xué)生得分相同，均為3分。這表明，完全主觀的權(quán)重設(shè)計(jì)有可能影響評(píng)價(jià)結(jié)果的效度。

（三）多重分段法

為解決加權(quán)累積法在權(quán)重設(shè)置上的缺陷，當(dāng)認(rèn)為語言測試中的各項(xiàng)分測驗(yàn)不具有互償性時(shí)，就采取為每個(gè)測驗(yàn)指定一個(gè)計(jì)分標(biāo)準(zhǔn)。互償性是指A測驗(yàn)上的高分不能彌補(bǔ)B測驗(yàn)上的低分。例如在語言測試中，一名學(xué)生聽力能力上的高低不能影響其在寫作測驗(yàn)上的表現(xiàn)。

語言測試中的多重分段法是指語言能力的評(píng)價(jià)和預(yù)測可以有多個(gè)預(yù)測源，且這些預(yù)測源的預(yù)測方法、計(jì)分方式各不相同。如口語能力和閱讀能力都是語言能力的一部分，但聽力能力以一對(duì)一的口語交流形式來評(píng)價(jià)，閱讀能力以紙筆測驗(yàn)的形式來評(píng)價(jià)。兩種能力有本質(zhì)的不同，兩個(gè)測試得分不能相加。所以需要在每個(gè)分測驗(yàn)內(nèi)獨(dú)立評(píng)價(jià)。在使用這些得分評(píng)價(jià)及篩選學(xué)生時(shí)，應(yīng)分別劃線。如托福、雅思考試，在報(bào)告考生分?jǐn)?shù)時(shí)將不同能力模塊分開報(bào)告。

多重分段法解決了不同能力得分不能相加的問題，但也違背了分?jǐn)?shù)合成的經(jīng)濟(jì)性原則。更豐富的分?jǐn)?shù)報(bào)告雖然保證了科學(xué)性，但不報(bào)告總分的形式也給選拔工作增加了困難。

四、基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成

在經(jīng)典測量理論框架下的分?jǐn)?shù)合成方法，雖然考慮到了題型、考察內(nèi)容、難度等題目屬性，但在分?jǐn)?shù)合成過程中主觀因素對(duì)總分的影響很大。如何真正實(shí)現(xiàn)基于題目屬性的客觀測量是語言測試所面臨的最大挑戰(zhàn)。

項(xiàng)目反應(yīng)理論的提出，解決了這一難題。以最簡單的Rasch模型為例，認(rèn)為被試正確作答題目的概率可以用個(gè)體能力θ與該題目難度δ的一個(gè)簡單函數(shù)來表示：

f（Pni1）=θn-δi

其中，Pni1表示考生n回答第i個(gè)題目得1分的概率。在0-1計(jì)分題目中，得1分表示考生答對(duì)該題目。函數(shù)表示被試答對(duì)該題的概率Pni1取決于考生能力θn及題目難度δi。Rasch利用自然常數(shù)進(jìn)行轉(zhuǎn)換，使用最大似然估計(jì)法經(jīng)過多次迭代估計(jì)出考生能力。整個(gè)計(jì)算過程中未對(duì)任何題目進(jìn)行加權(quán)，僅考慮考生作答情況。因此，分?jǐn)?shù)合成過程更加客觀、科學(xué)。

基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成結(jié)果還有以下幾個(gè)優(yōu)點(diǎn)：

1.針對(duì)不同被試精確估計(jì)測量誤差。經(jīng)典測量理論的分?jǐn)?shù)合成過程對(duì)誤差的控制很弱。項(xiàng)目反應(yīng)理論將考生參數(shù)估計(jì)和題目參數(shù)估計(jì)統(tǒng)一在同一個(gè)框架下，對(duì)誤差的控制可以精確到每一名考生和每一個(gè)題目。

2.分?jǐn)?shù)合成僅依賴題目與考生特征。經(jīng)典測量理論的任何題目參數(shù)的計(jì)算都受考生能力分布的影響。例如難度的計(jì)算，難度以正答率為指標(biāo)。如果答題的學(xué)生能力普遍偏高，則計(jì)算出的題目難度就低，反之如果答題的學(xué)生能力普遍偏低，則計(jì)算出的題目難度就高。題目不變，但計(jì)算出的題目參數(shù)差異巨大，這顯然是確定題目參數(shù)的算法不合理。基于項(xiàng)目反映理論的合成方法僅考慮難度與能力兩個(gè)因素，且通過算法保證了在考生能力分布不同狀況下題目難度穩(wěn)定。

3.能力與難度具有統(tǒng)一量尺

基于經(jīng)典測量理論的分?jǐn)?shù)合成方法得到的總分與題目難度之間沒有可比性。例如，經(jīng)典測量理論無法估預(yù)測一名總分為80分的學(xué)生在一個(gè)難度為0.8的題目上的正答率。項(xiàng)目反應(yīng)理論解決了這一問題，將學(xué)生能力與題目難度統(tǒng)一在同一個(gè)量尺下，單位統(tǒng)一為Logit。

但基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成在數(shù)據(jù)的收集、參數(shù)估計(jì)等方面要求都比較高，這從一定程度上限制了這一方法的推廣。但隨著計(jì)算機(jī)技術(shù)、測量學(xué)技術(shù)的普及，更加科學(xué)、合理的分?jǐn)?shù)合成方法一定會(huì)快速普及起來。

五、總結(jié)

總體來說，采取哪種分?jǐn)?shù)合成方法應(yīng)當(dāng)是在綜合考慮人力、財(cái)力、測試目的等多個(gè)因素后決定的。在考慮上述因素的情況下，綜合運(yùn)用多種合成方法，從多個(gè)角度評(píng)價(jià)考生才能夠保證分?jǐn)?shù)報(bào)告的科學(xué)性、合理性。

【參考文獻(xiàn)】

[1]袁方，朱軍梅.多面Rasch模型：結(jié)構(gòu)化面試分?jǐn)?shù)合成的新方法[J]. 中國人力資源開發(fā)，2009（08）：53-55.

[2]陽輝，車宏生，卞冉.分?jǐn)?shù)合成：測評(píng)中不可忽視的重要環(huán)節(jié)[J]. 中國人才，2008 （15）：49-51.

[3]王克盈.關(guān)于測驗(yàn)分?jǐn)?shù)合成方法的探討[J].陜西教育學(xué)院學(xué)報(bào)， 2000（01）：73-76.

[4]郭述平，金松堯.兩種分?jǐn)?shù)合成方法的比較[J].遼寧高等教育研究，1990（02）：133-135.

作者簡介：袁淑敏（ 1980—），女，貴州貴陽人，貴陽學(xué)院，講師，碩士，研究方向：應(yīng)用語言學(xué)。