999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言測試的分?jǐn)?shù)合成方法研究

2016-11-16 10:31:30袁淑敏
大觀 2016年9期
關(guān)鍵詞:方法

摘要:語言測試是我國現(xiàn)行考試體系中比重最大、普及范圍最廣、影響范圍最廣的考試。語言測試在教育、人事選拔等領(lǐng)域都發(fā)揮著無可替代的作用。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高,對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。本文對(duì)考試分?jǐn)?shù)的合成方法做了總結(jié),以其為相關(guān)研究提供參考。

關(guān)鍵詞:語言測試;合成;方法

一、引言

中國是最早使用考試的國家,從古代的科舉發(fā)展到現(xiàn)代的考試,考試在教育、人事選拔、職業(yè)能力鑒定等領(lǐng)域都發(fā)揮著無可替代的作用。受國外托福、雅思等語言測試的影響,國內(nèi)于70年代末開始引進(jìn)或開發(fā)第二語言測試。第二語言測試是針對(duì)第二語言習(xí)得提出的,如大學(xué)英語考試(CET)、英語水平考試(EPT)、公共英語水平考試(PETS)等。

語言測試的目的是評(píng)價(jià)學(xué)習(xí)者的學(xué)業(yè)成就或語言水平,評(píng)估教學(xué)效果。除此之外,CET、托福、雅思、PETS等語言測試的結(jié)果已經(jīng)成為人才選拔時(shí)的重要依據(jù);英語作為國內(nèi)學(xué)校教授的最主要的第二語言,在高考選拔中的重要性越來越高。社會(huì)對(duì)考試結(jié)果的認(rèn)可越高,對(duì)考試的專業(yè)性要求也就越高。語言考試實(shí)際上已經(jīng)成為了一項(xiàng)高風(fēng)險(xiǎn)考試。

語言測試專業(yè)性不僅表現(xiàn)在題目的命制、考試組織與管理、考試結(jié)論的應(yīng)用等方面,更體現(xiàn)在開始分?jǐn)?shù)的導(dǎo)出、報(bào)告與解釋上。但目前國內(nèi)自主組織的語言測試依然采取基于經(jīng)典測量理論的分?jǐn)?shù)合成方法,使得考試之間的可比性、分?jǐn)?shù)解釋的科學(xué)性、結(jié)果應(yīng)用的外部效度都受到了極大的影響。

本文擬從經(jīng)典測量理論和現(xiàn)代測量理論的角度,對(duì)國內(nèi)幾種常見分?jǐn)?shù)合成方式的原理與特點(diǎn)做比較分析,并提出語言測試分?jǐn)?shù)合成及報(bào)告的解決方案。

二、分?jǐn)?shù)合成方法的分類

語言測試屬于典型的能力水平測試,是教育與心理測量學(xué)領(lǐng)域的重要研究主題。對(duì)能力測試數(shù)據(jù)的分析經(jīng)過了兩個(gè)重要的發(fā)展階段。以1968年Lord發(fā)表《心理測驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》為界,教育與心理測量學(xué)經(jīng)歷了經(jīng)典測量理論和現(xiàn)代測量理論兩個(gè)發(fā)展階段。19世紀(jì)末真分?jǐn)?shù)理論提出到20世紀(jì)60年代末的70年間是經(jīng)典測量理論占主導(dǎo)的發(fā)展階段。經(jīng)典測量理論為教育與心理測評(píng)的發(fā)展做出了卓越的貢獻(xiàn),但也存在很多理論本身無法避免的缺陷。最典型的缺陷是:“統(tǒng)計(jì)指標(biāo)與實(shí)際意義相悖”,以難度的計(jì)算為例,客觀題難度即正確率。例如選擇題正答率為0.8則難度為0.8,代表題目非常簡單;若正答率為0.1則難度為0.1,代表題目非常難。難度的理論區(qū)間為[0,1],數(shù)值越大難度越小、數(shù)值越小反而難度越大。經(jīng)典測量理論的缺陷還包括:題目屬性的分析依賴于被試樣本、分?jǐn)?shù)不等距、基于加權(quán)累積方式合成分?jǐn)?shù)等。為解決這一問題,以項(xiàng)目反應(yīng)理論、概化理論為代表的現(xiàn)代測量理論逐漸發(fā)展起來。項(xiàng)目反應(yīng)理論是現(xiàn)代測量理論的核心理論。與經(jīng)典測量理論相比,項(xiàng)目反應(yīng)理論深入測驗(yàn)的微觀領(lǐng)域,通過將學(xué)生與項(xiàng)目(題目)關(guān)聯(lián)起來并進(jìn)行參數(shù)化、模型化,解決了經(jīng)典測量理論的諸多缺陷。

因此,語言測試的分?jǐn)?shù)合成與解釋也分為經(jīng)典測量理論和項(xiàng)目反應(yīng)理論兩種類型。基于經(jīng)典測量理論的分?jǐn)?shù)合成方法包括直接相加法、加權(quán)累積法、多重分段法;基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成方法主要包括只考慮難度、區(qū)分度等題目特征的項(xiàng)目反應(yīng)模型合成法;綜合考慮題目特征、評(píng)卷教師特征、考生特征的多面Rasch模型分析法。

三、基于經(jīng)典測量理論的分?jǐn)?shù)合成

(一)直接相加法

直接相加法就是將測驗(yàn)中的各個(gè)維度直接累加得到一個(gè)分?jǐn)?shù)。一個(gè)完整的語言測試,一般會(huì)同時(shí)設(shè)計(jì)語言學(xué)習(xí)的多個(gè)方面,如英語考試一般會(huì)包括聽力、口語、閱讀、寫作四個(gè)維度。以直接相加法計(jì)算的英語考試成績就是四個(gè)維度得分的簡單加總。

各維度之間的得分直接相加的前提是各種分?jǐn)?shù)之間是同質(zhì)的,且各維度或分測驗(yàn)的得分在總分中所占的權(quán)重相同。在滿足上述前提的情況下,直接相加法具有操作簡便、容易理解、處理快速等優(yōu)點(diǎn)。

英語的聽力測試、口語測試、閱讀測試、寫作測試分別對(duì)應(yīng)聽、說、讀、寫四種能力。學(xué)術(shù)界對(duì)二語能力的結(jié)構(gòu)尚未形成統(tǒng)一的認(rèn)識(shí),主要的爭議在于:聽、說、讀、寫是四種獨(dú)立的語言能力,還是統(tǒng)一在語言能力下的四個(gè)方面。只有后一種理論才滿足四個(gè)測驗(yàn)是同質(zhì)的,才允許將四個(gè)得分直接相加。另外,語言測試中,針對(duì)不同的能力設(shè)計(jì)了不同的題型,如聽力、閱讀等能力的測試以客觀題為主,寫作能力的測試以主觀題為主。兩類題目從考察的認(rèn)知能力、題目難度、考察方式上都有明顯區(qū)別,不考慮這些差別的情況下直接將得分相加顯然不太合理。

(二)加權(quán)累積法

為解決直接相加法不考慮題目難度、認(rèn)知要求、考察方式等差異的缺陷,加權(quán)累積法根據(jù)題目屬性之間的差異,給予不同的權(quán)重,然后進(jìn)行加權(quán)求和計(jì)算總分。合成分?jǐn)?shù)過程中的權(quán)重是命題者根據(jù)題目的不同屬性賦予的。如高考英語中,考察閱讀能力的客觀題每答對(duì)一題計(jì)4分,考察聽力能力的客觀題每答對(duì)一題計(jì)1.5分,考察語言知識(shí)運(yùn)用的客觀題每答對(duì)一題計(jì)0.5分。加權(quán)累積法雖然增加了權(quán)重,但除了權(quán)重的設(shè)計(jì)需要一定的理論支持,分?jǐn)?shù)的合成過程仍簡單快捷,因此在教育考試中應(yīng)用最為廣泛。

加權(quán)的方式一定程度上解決了不同題目測量屬性有別的問題。但權(quán)重的確定沒有統(tǒng)一標(biāo)準(zhǔn),均由命題者主觀確定。這就有可能導(dǎo)致不同作答模式被試因加權(quán)方法不同,得到的分?jǐn)?shù)不同。假設(shè)兩名學(xué)生參加通一次英語考試,考試中聽、說、讀、寫各一個(gè)題目。甲學(xué)生做對(duì)了聽、說、讀三個(gè)題目,乙學(xué)生做對(duì)了說、讀、寫三個(gè)題目。若四個(gè)題目的權(quán)重為1:1:1:2,則甲學(xué)生得3分、乙學(xué)生得4分;若四個(gè)題目的權(quán)重為1:1:1:1,則兩名學(xué)生得分相同,均為3分。這表明,完全主觀的權(quán)重設(shè)計(jì)有可能影響評(píng)價(jià)結(jié)果的效度。

(三)多重分段法

為解決加權(quán)累積法在權(quán)重設(shè)置上的缺陷,當(dāng)認(rèn)為語言測試中的各項(xiàng)分測驗(yàn)不具有互償性時(shí),就采取為每個(gè)測驗(yàn)指定一個(gè)計(jì)分標(biāo)準(zhǔn)。互償性是指A測驗(yàn)上的高分不能彌補(bǔ)B測驗(yàn)上的低分。例如在語言測試中,一名學(xué)生聽力能力上的高低不能影響其在寫作測驗(yàn)上的表現(xiàn)。

語言測試中的多重分段法是指語言能力的評(píng)價(jià)和預(yù)測可以有多個(gè)預(yù)測源,且這些預(yù)測源的預(yù)測方法、計(jì)分方式各不相同。如口語能力和閱讀能力都是語言能力的一部分,但聽力能力以一對(duì)一的口語交流形式來評(píng)價(jià),閱讀能力以紙筆測驗(yàn)的形式來評(píng)價(jià)。兩種能力有本質(zhì)的不同,兩個(gè)測試得分不能相加。所以需要在每個(gè)分測驗(yàn)內(nèi)獨(dú)立評(píng)價(jià)。在使用這些得分評(píng)價(jià)及篩選學(xué)生時(shí),應(yīng)分別劃線。如托福、雅思考試,在報(bào)告考生分?jǐn)?shù)時(shí)將不同能力模塊分開報(bào)告。

多重分段法解決了不同能力得分不能相加的問題,但也違背了分?jǐn)?shù)合成的經(jīng)濟(jì)性原則。更豐富的分?jǐn)?shù)報(bào)告雖然保證了科學(xué)性,但不報(bào)告總分的形式也給選拔工作增加了困難。

四、基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成

在經(jīng)典測量理論框架下的分?jǐn)?shù)合成方法,雖然考慮到了題型、考察內(nèi)容、難度等題目屬性,但在分?jǐn)?shù)合成過程中主觀因素對(duì)總分的影響很大。如何真正實(shí)現(xiàn)基于題目屬性的客觀測量是語言測試所面臨的最大挑戰(zhàn)。

項(xiàng)目反應(yīng)理論的提出,解決了這一難題。以最簡單的Rasch模型為例,認(rèn)為被試正確作答題目的概率可以用個(gè)體能力θ與該題目難度δ的一個(gè)簡單函數(shù)來表示:

f(Pni1)=θn-δi

其中,Pni1表示考生n回答第i個(gè)題目得1分的概率。在0-1計(jì)分題目中,得1分表示考生答對(duì)該題目。函數(shù)表示被試答對(duì)該題的概率Pni1取決于考生能力θn及題目難度δi。Rasch利用自然常數(shù)進(jìn)行轉(zhuǎn)換,使用最大似然估計(jì)法經(jīng)過多次迭代估計(jì)出考生能力。整個(gè)計(jì)算過程中未對(duì)任何題目進(jìn)行加權(quán),僅考慮考生作答情況。因此,分?jǐn)?shù)合成過程更加客觀、科學(xué)。

基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成結(jié)果還有以下幾個(gè)優(yōu)點(diǎn):

1.針對(duì)不同被試精確估計(jì)測量誤差。經(jīng)典測量理論的分?jǐn)?shù)合成過程對(duì)誤差的控制很弱。項(xiàng)目反應(yīng)理論將考生參數(shù)估計(jì)和題目參數(shù)估計(jì)統(tǒng)一在同一個(gè)框架下,對(duì)誤差的控制可以精確到每一名考生和每一個(gè)題目。

2.分?jǐn)?shù)合成僅依賴題目與考生特征。經(jīng)典測量理論的任何題目參數(shù)的計(jì)算都受考生能力分布的影響。例如難度的計(jì)算,難度以正答率為指標(biāo)。如果答題的學(xué)生能力普遍偏高,則計(jì)算出的題目難度就低,反之如果答題的學(xué)生能力普遍偏低,則計(jì)算出的題目難度就高。題目不變,但計(jì)算出的題目參數(shù)差異巨大,這顯然是確定題目參數(shù)的算法不合理。基于項(xiàng)目反映理論的合成方法僅考慮難度與能力兩個(gè)因素,且通過算法保證了在考生能力分布不同狀況下題目難度穩(wěn)定。

3.能力與難度具有統(tǒng)一量尺

基于經(jīng)典測量理論的分?jǐn)?shù)合成方法得到的總分與題目難度之間沒有可比性。例如,經(jīng)典測量理論無法估預(yù)測一名總分為80分的學(xué)生在一個(gè)難度為0.8的題目上的正答率。項(xiàng)目反應(yīng)理論解決了這一問題,將學(xué)生能力與題目難度統(tǒng)一在同一個(gè)量尺下,單位統(tǒng)一為Logit。

但基于項(xiàng)目反應(yīng)理論的分?jǐn)?shù)合成在數(shù)據(jù)的收集、參數(shù)估計(jì)等方面要求都比較高,這從一定程度上限制了這一方法的推廣。但隨著計(jì)算機(jī)技術(shù)、測量學(xué)技術(shù)的普及,更加科學(xué)、合理的分?jǐn)?shù)合成方法一定會(huì)快速普及起來。

五、總結(jié)

總體來說,采取哪種分?jǐn)?shù)合成方法應(yīng)當(dāng)是在綜合考慮人力、財(cái)力、測試目的等多個(gè)因素后決定的。在考慮上述因素的情況下,綜合運(yùn)用多種合成方法,從多個(gè)角度評(píng)價(jià)考生才能夠保證分?jǐn)?shù)報(bào)告的科學(xué)性、合理性。

【參考文獻(xiàn)】

[1]袁方,朱軍梅.多面Rasch模型:結(jié)構(gòu)化面試分?jǐn)?shù)合成的新方法[J]. 中國人力資源開發(fā),2009(08):53-55.

[2]陽輝,車宏生,卞冉.分?jǐn)?shù)合成:測評(píng)中不可忽視的重要環(huán)節(jié)[J]. 中國人才,2008 (15):49-51.

[3]王克盈.關(guān)于測驗(yàn)分?jǐn)?shù)合成方法的探討[J].陜西教育學(xué)院學(xué)報(bào), 2000(01):73-76.

[4]郭述平,金松堯.兩種分?jǐn)?shù)合成方法的比較[J].遼寧高等教育研究,1990(02):133-135.

作者簡介:袁淑敏( 1980—),女,貴州貴陽人,貴陽學(xué)院,講師,碩士,研究方向:應(yīng)用語言學(xué)。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久综合成人| 色婷婷在线影院| 日韩欧美中文字幕一本| 国产精品免费电影| 呦女亚洲一区精品| 99久久国产综合精品2023| 免费看的一级毛片| 日韩人妻少妇一区二区| 欧美精品另类| 欧美色图久久| 国产在线精品香蕉麻豆| 成人在线观看不卡| 亚洲精品国产精品乱码不卞| 欧美区一区二区三| 99精品欧美一区| 麻豆精品在线视频| lhav亚洲精品| 亚洲人成人无码www| 在线观看视频一区二区| 91麻豆国产在线| 国产成年无码AⅤ片在线| 中文字幕伦视频| 91年精品国产福利线观看久久| 麻豆精品在线| 天堂在线亚洲| 青青极品在线| 操美女免费网站| 不卡色老大久久综合网| 久久香蕉国产线看精品| 伊人欧美在线| 欧美亚洲日韩中文| 亚洲一级毛片在线播放| 久久亚洲国产视频| 热久久国产| 日韩中文精品亚洲第三区| 亚洲精品片911| 色九九视频| 中文字幕无码制服中字| 久久久久国产精品嫩草影院| 精品国产成人av免费| 91福利免费视频| 五月激激激综合网色播免费| 中美日韩在线网免费毛片视频| 精品夜恋影院亚洲欧洲| 国产综合另类小说色区色噜噜| 国产精品亚洲片在线va| 亚洲三级影院| 精品国产福利在线| 亚洲水蜜桃久久综合网站| 992Tv视频国产精品| 欧美一级大片在线观看| 亚洲国产欧美中日韩成人综合视频| 国产69囗曝护士吞精在线视频| 欧美色99| 欧美日本激情| 99九九成人免费视频精品| 成人福利在线看| 欧美伊人色综合久久天天| 毛片基地美国正在播放亚洲| 亚洲综合色区在线播放2019| av手机版在线播放| 成人毛片免费观看| 成人无码区免费视频网站蜜臀| 色丁丁毛片在线观看| 精品人妻系列无码专区久久| 成人国产免费| 五月婷婷丁香综合| 国产成人一区免费观看| 91久久青青草原精品国产| 国产va视频| 欧美色视频日本| 国产高清不卡视频| 国产全黄a一级毛片| 久操中文在线| 国产精品福利尤物youwu| 久草热视频在线| 亚洲精品视频免费| 欧美天天干| 2020最新国产精品视频| 国产91视频观看| 欧美另类图片视频无弹跳第一页| 亚洲一区二区无码视频|