摘 要: 本文從語言測試?yán)碚摰慕嵌汝U述語言測試對外語教學(xué)的影響,指出語言測試是衡量外語教與學(xué)的有效方法,好的測試題應(yīng)具有效度、信度、實(shí)用性以及對學(xué)生的積極引導(dǎo)作用。許多研究表明高質(zhì)量的測試必須滿足五個要求:效度、信度、區(qū)分度、實(shí)用性和反撥作用。眾所周知,有教學(xué)就要有考核和評估,作為考核和評估的一種手段,科學(xué)的、合理的測試會對教學(xué)產(chǎn)生正面的反撥效應(yīng);反之,則會帶來負(fù)面的影響。
關(guān)鍵詞: 英語語言測試 測試要素 基本策略
英語語言測試是英語教學(xué)活動中的有機(jī)組成部分,是英語教學(xué)過程的一個重要環(huán)節(jié)。測試與其他教學(xué)環(huán)節(jié)一樣,同樣負(fù)有培養(yǎng)人的責(zé)任。從二者之間的關(guān)系來講,它們既互相促進(jìn)又彼此制約。因?yàn)檎Z言教學(xué)從目標(biāo)、內(nèi)容、方法與手段等方面制約著測試,而語言測試又在目標(biāo)、內(nèi)容和方法上對教學(xué)起著重要的反撥作用(馬云桂,2002)。英語語言測試與英語教學(xué)有密切的關(guān)系在當(dāng)今語言測試界已達(dá)成一種共識。而語言測試對教學(xué)的反撥作用是語言測試的最大用途之一。隨著對語言測試研究的不斷深入,語言測試的理論和方法日新月異。由于語言測試對教學(xué)具有指導(dǎo)和反撥作用,因此隨著語言測試重點(diǎn)的轉(zhuǎn)移,語言教學(xué)重點(diǎn)也相應(yīng)發(fā)生了變化。下面就從語言測試要素及基本策略幾個方面談?wù)勅绾芜M(jìn)行語言測試。
一套好的測試題應(yīng)具有效度、信度、區(qū)分度、實(shí)用性、反撥作用的特征。首先,一套試題檢測的應(yīng)是考試大綱要求考查的某個內(nèi)容或能力,這就是一次效度高的測試。其次,信度,即可靠性,或者說測試結(jié)果是否穩(wěn)定。信度的另一方面是評分因素。再者,一套好的試題應(yīng)便于使用,要有可操作性。同樣,區(qū)分度也是語言測試的重要因素,即通過測試是否能夠區(qū)別出不同程度的考生或反映出每個考生答卷情況的差別。最后,一套測試題對學(xué)生的學(xué)習(xí)要有督促和積極引導(dǎo)作用。
1.語言測試的效度(validity)
測試的效度是一次考試對其所要測試的語言能力能夠測到的程度。效度側(cè)重的是測試的內(nèi)容,它檢驗(yàn)測試的目的是否一致(朱海燕,2004)。測試有各種不同的效度,總的來說可分為四種類型。
(1)卷面效度。也稱為表面效度,是指考試在表面上使考生及其他有關(guān)人員憑直覺感到的有效程度。Ingrem(1977:18)認(rèn)為卷面效度指的是“考試的表面信譽(yù)或公眾對考試的接受程度”。如果測試項(xiàng)目表面上適合于測試者、受試者和教師,它就可被看作具有卷面效度。如果一份測試具有好的卷面效度,學(xué)習(xí)者的學(xué)習(xí)意愿就能得到激發(fā)和保持,因?yàn)檠芯勘砻鞔蠖鄶?shù)受試者在測試表現(xiàn)出適合于他們的時候會加倍努力;相反,如果受試者看到某一測試與測量其某一語言能力無關(guān)或者高出其語言能力水平,考生就容易喪失參與的積極性。
(2)內(nèi)容效度。就是指考試內(nèi)容對預(yù)測內(nèi)容的代表性的程度。內(nèi)容效度評價一個考試的出發(fā)點(diǎn)是看其內(nèi)容是否與考試目的一致,在內(nèi)容正確的基礎(chǔ)上,再看其內(nèi)容是否具有代表性。內(nèi)容的代表性與內(nèi)容樣本量的充足性——考試的題量、主題覆蓋面等。如果一項(xiàng)詞匯測試只檢測考生介詞的能力,內(nèi)容效度就很低;再如,一項(xiàng)聽力測試采用口語考試的形式進(jìn)行,這類考試肯定缺乏內(nèi)容效度。
(3)構(gòu)卷效度。指測試題目反映出測試構(gòu)建于某個理論本質(zhì)方面的程度。如果一項(xiàng)測試能夠反映出與語言學(xué)習(xí)理論一致的一些具體特征,那它就有構(gòu)卷效度。它要求測試的語言理論基礎(chǔ)要與最終的語言行為相符。它不僅要揭示現(xiàn)在的語言行為,而且應(yīng)能揭示最終的語言行為。測試的設(shè)計(jì)者應(yīng)根據(jù)語言學(xué)習(xí)者將來會如何使用語言的預(yù)見來設(shè)計(jì)試題。一種試題的編制要以某種語言行為理論和語言學(xué)習(xí)理論作為依據(jù)。如果以功能語法為基礎(chǔ),認(rèn)為語言習(xí)慣主要是通過語言環(huán)境和實(shí)際運(yùn)用而獲得的,那么強(qiáng)調(diào)句型操練和語法分析的測試就失去了編制效度(陳志學(xué),2003)。
(4)經(jīng)驗(yàn)效度。指一項(xiàng)測試的結(jié)果如果與一些外部測量標(biāo)準(zhǔn)相關(guān)聯(lián),這份測試就可以說具有經(jīng)驗(yàn)效度。經(jīng)驗(yàn)效度是通過把測試與一個或更多的標(biāo)準(zhǔn)測量相比較而得出的,這種比較可以通過兩種方式得到:共時效度和預(yù)測效度。①共時效度,即同時從外部而不是從內(nèi)部通過某些方法論證考試的效度。它是通過定性與定量分析兩個方式來進(jìn)行的。如,對共時效度的定量分析,是通過用一個得到公認(rèn)的外部考試的方式與被評估的考試作比較,看求得的相關(guān)系數(shù)是否理想,如兩者之間的相關(guān)系數(shù)達(dá)到理想的數(shù)值,那么就表示被評估的考試與外部的考試具有同等效度。當(dāng)測試結(jié)果在同一時期與其它測試結(jié)果相一致時,它可被看作具有共時效度。②預(yù)測效度,即考試成績要能夠預(yù)測考生以后的學(xué)習(xí)狀況。它的測量方法是將兩組數(shù)據(jù)進(jìn)行相關(guān)比較,論證它們之間的關(guān)系。當(dāng)測試結(jié)果與以后的其它測試結(jié)果或以后取得的其它行為標(biāo)準(zhǔn)相一致時,那么這個測試就可以說具有預(yù)測效度。
2.語言測試的信度(reliability)
語言測試的信度是指考試測量學(xué)生語言能力一致性、可靠性的程度。它是任何一個好的語言測試必備的特征,也是考試結(jié)果是否可靠的關(guān)鍵指標(biāo)。一個測試的信度主要看該測試所要測量的東西是否達(dá)到前后一致的程度,即考試結(jié)果不受考試施考時間、監(jiān)考人員、場地等外部因素的影響。如果對同一個受試者連續(xù)進(jìn)行兩次測試或試卷被不同的人批改而得到的結(jié)果相同或相似,這樣的測試就被看作是具有較高的信度。可靠性也可稱為一致性(consistency),這種可靠性或一致性是任何一種考試都不可缺少的一個重要特征,否則,考試成績將無法真實(shí)準(zhǔn)確地反映出考生的被測試語言能力和水平。而且用不可靠的成績來決定,就會不可避免地造成一些失誤甚至是不可彌補(bǔ)的損失(郝利群,2002)。
影響信度的因素有:
(1)試卷編制。信度側(cè)重的是測試內(nèi)容的覆蓋面是否大,是否具有代表性,項(xiàng)目是否均勻。采樣越多,測試的信度越高。郝利群認(rèn)為,一套試卷無論是常模參照考試(norm-referenced),還是標(biāo)準(zhǔn)參照考試(criterion—referenced),長的要比短的更具可靠性。測試必須包含各種類型內(nèi)容的試題。一種測試必須涵蓋本專業(yè)領(lǐng)域內(nèi)盡可能多的內(nèi)容,而且試題必須有一定的難度。測試提出的任務(wù)必須具有標(biāo)準(zhǔn)性。在試題庫中任意挑出的試題在難度、類型、形式上都必須基本一致。事實(shí)上,只要試卷中所使用的試題具有測試某種能力的代表性,這種試題越多,試卷對某種能力的反映就越充分和越可靠。因此越是重要的考試,題量越要充分。當(dāng)然,題量也不能過大,否則考生的疲勞和厭倦就會影響考試的信度。
(2)測試的執(zhí)行。主要是涉及考試環(huán)境、試卷安排、時間分配、題意說明、考試方式、答題方式、評分標(biāo)準(zhǔn)等是否所有的考生對試題的要求都很清楚。是否相同的測試是在不同的受試對象之間,不同的條件下及不同的時間內(nèi)進(jìn)行的,這是決定信度的一個重要因素。如在一次聽力測試中,一組考生所聽到的錄音效果好,另一組考生聽到的錄音效果差,那么,這次聽力測試就無信度可言。試題說明在考生的答題中起著舉足輕重的作用。如果考生對題目要求的理解程度和他們對所要完成任務(wù)的清楚程度很高,他們就會積極地投入考試中去。相反,含糊不清的試題說明會直接影響考生的答題,降低測試結(jié)果的信度。所以試題說明一定要做到簡潔、準(zhǔn)確、明了,試題說明所使用的語言應(yīng)簡單清楚,避免考生不熟悉的術(shù)語出現(xiàn)。
(3)個人因素。受試者的個體因素如動機(jī)、情感、心理狀況、身體條件會對測試信度有很大的影響。這些因素包括考生考試前和考試中的心理或生理方面的波動或變化,如疾病、疲勞、缺乏考試動力、情緒波動等。這些因素會影響考生的正常發(fā)揮,從而降低測試結(jié)果的可靠性。盡管這些因素是不可預(yù)測的,也常常因一些意外而無法控制,但教師們也要有所作為,要設(shè)法將這些因素的影響降到最低點(diǎn)。同時閱卷員的評分也是影響信度的一個重要因素。客觀試題的評分基本沒有問題,信度較高,關(guān)鍵是對主題試題評分標(biāo)準(zhǔn)的把握。為減少評閱的誤差首先要制定詳細(xì)的評分標(biāo)準(zhǔn),而且所有的閱卷人應(yīng)統(tǒng)一進(jìn)行培訓(xùn),讓大家選用一些例卷共同進(jìn)行打分練習(xí)和討論,從而給出相近的分?jǐn)?shù),使語言測試充分體現(xiàn)公平公正。
3.語言測試的區(qū)分度
區(qū)分度是指通過測試是否能夠區(qū)別出不同程度的考生或反映出每個考生答卷情況的差別。對整份試卷及每道大題、小題進(jìn)行全面、系統(tǒng)地計(jì)算,可參照區(qū)分度的計(jì)算公式:
D=(Correct U-Correct L)/N
D:語言測試區(qū)分度,將被測試的考生按成績平均分成兩小組;N:每一小組的考生人數(shù);U:成績高的一組考生;L:成績差的一組考生。
一般認(rèn)為,區(qū)分度應(yīng)在0.3以上,才表示試題可以接受,因?yàn)樗哂幸欢ǖ蔫b別考生優(yōu)劣的能力;若區(qū)分度在0.3以下,則試題對考試的區(qū)分作用不大。試題的區(qū)分度指試題區(qū)分好、中、差考生的程度。試題的區(qū)分度由區(qū)分度指標(biāo)來顯示,其范圍在1—-1之間。區(qū)分度高,表明試題能完全區(qū)分不同能力的考生,即答對試題的是能力強(qiáng)的考生,答錯試題的是能力差的考生;反之,試題的區(qū)分度低,表明試題不能區(qū)分不同能力的考生,試題的區(qū)分度最低可為-1,此時,答對試題的是能力差的考生,而答錯試題的反而是能力強(qiáng)的考生,測試產(chǎn)生了反向區(qū)分的作用。即使評分百分之百客觀,這樣的測試也根本無客觀性和公正性可言。
4.語言測試實(shí)用性
主要指試卷設(shè)計(jì)和考場安排等考試實(shí)施過程中是否對測試的公正性和信度構(gòu)成影響。這要求試題設(shè)計(jì)者和考務(wù)人員做到以下幾點(diǎn):
(1)試題的題目、要求要清楚易懂,試題要設(shè)計(jì)得一目了然,無深奧難懂的術(shù)語,最好在試題要求下給出相應(yīng)例子,試題要求無需監(jiān)考人員作口頭解釋。
(2)試卷必須整齊、干凈,盡量避免出現(xiàn)拼寫、打印等技術(shù)錯誤。
(3)考試輔助設(shè)備必須正常。如無線聽力系統(tǒng)、錄音機(jī)、計(jì)算機(jī)工作必須正常穩(wěn)定,考場座位必須具有舒適度,遠(yuǎn)離外界干擾。
(4)答題紙的使用。答題紙大小和編排要與相應(yīng)的題量相一致,滿足考生準(zhǔn)確地書寫答案。同時它也必須能使教師清楚地看清答卷,以增加閱卷的準(zhǔn)確性和閱卷速度。
5.語言測試反撥作用
一般來講,教學(xué)目標(biāo)決定語言測試目標(biāo)。因此語言測試目標(biāo)必須為實(shí)現(xiàn)語言教學(xué)目標(biāo)服務(wù)。然而,語言教學(xué)與語言測試的發(fā)展并非總是同步的。語言測試體系一經(jīng)確定,它就具有一定時限的相對穩(wěn)定性,對語言教學(xué)產(chǎn)生積極或消極的反撥作用(馬云桂,2002)。語言測試目標(biāo)對語言教學(xué)目標(biāo)的反撥作用極其重要:如果語言測試目標(biāo)科學(xué)、準(zhǔn)確,就能夠科學(xué)有效地檢測教學(xué)目標(biāo),并積極地促進(jìn)教學(xué)目標(biāo)的實(shí)現(xiàn)或進(jìn)一步修正。反之就不能科學(xué)檢測教學(xué)目標(biāo),同時阻礙后續(xù)教學(xué)目標(biāo)的確定與實(shí)現(xiàn)。語言測試內(nèi)容對語言教學(xué)內(nèi)容的反撥作用,從理論上看,教學(xué)先于測試。教什么內(nèi)容就檢測什么內(nèi)容,這是一種理想的教學(xué)和測試的關(guān)系。然而,在具體的教學(xué)與測試實(shí)踐中往往是要考什么然后才教什么。這種語言測試與語言教學(xué)的邏輯倒置,我們可以看作是語言測試內(nèi)容對語言教學(xué)內(nèi)容的反撥作用。語言測試方法對語言教學(xué)方法也會產(chǎn)生重要的反撥作用。比如科學(xué)的考卷應(yīng)采取多種題型,主客觀試題相結(jié)合的方法。科學(xué)的語言測試對語言教學(xué)的各方面都應(yīng)起著正面的引導(dǎo)作用。
語言測試應(yīng)符合國際形勢與新時代經(jīng)濟(jì)發(fā)展的需要,還應(yīng)與專業(yè)設(shè)置、課程建設(shè)、教學(xué)過程與方法等緊密結(jié)合,應(yīng)借鑒國際通行的評價體系,創(chuàng)新課堂教學(xué)模式,重視靈活教學(xué),設(shè)計(jì)以學(xué)生為主體、學(xué)習(xí)和創(chuàng)造為核心的教學(xué)方法,大力提倡和運(yùn)用各種現(xiàn)代手段,以科學(xué)靈活的考試培養(yǎng)學(xué)生的自主意識、創(chuàng)新精神和創(chuàng)造能力。然而在語言測試的具體實(shí)施過程中,由于受實(shí)用目的的影響,往往會出現(xiàn)一些偏差,比如語言測試純粹為鑒別語言水平等級為目的、純粹作為高一級學(xué)校錄取新生或用人單位錄用人才的尺度等(豐國欣,2004)。這樣,在理論上加劇了語言測試的信度和效度之間的矛盾,狹隘了語言測試的內(nèi)涵;在實(shí)踐中,受試者或?qū)W生常常感到教學(xué)、學(xué)習(xí)同測試脫節(jié),提高語言技能同測試脫節(jié)。筆者在個人研究的基礎(chǔ)上,對語言測試設(shè)計(jì)的原則與實(shí)踐作一個理論上的探討,以便更清楚地認(rèn)識語言測試本質(zhì),避免被語言測試的一些意義模糊了概念,更有效地把語言測試同教學(xué)、素質(zhì)教育結(jié)合起來,最大限度地克服測試的負(fù)面反撥效應(yīng)。
總之,有教學(xué)就必然要有測試,兩者缺一不可。教學(xué)通過測試了解學(xué)生的學(xué)習(xí)情況、問題的癥結(jié),檢查教學(xué)的效果,而測試可以影響和促進(jìn)教學(xué)的改進(jìn)。通過對語言測試?yán)碚摵头椒ǖ难芯浚瑴y試本身會得到進(jìn)一步的完善與提高,它將對英語教學(xué)起到積極的引導(dǎo)作用,對完善教學(xué)內(nèi)容、課程設(shè)置、教材建設(shè)等具有極高的參考價值,對推動我國英語教學(xué)的改革及發(fā)展具有深遠(yuǎn)的意義。
參考文獻(xiàn):
[1]劉潤清.論大學(xué)英語教學(xué)[M].北京,外語教學(xué)與研究出版社,1999.
[2]朱海燕.語言測試的效度與信度[J].佳木新教育學(xué)院學(xué)報(bào),2004,(3).
[3]豐國欣.語言測試設(shè)計(jì)的原則與實(shí)踐[J].周口師范學(xué)院學(xué)報(bào),2004,(3).
[4]馬云桂.語言測試對語言教學(xué)的反撥作用[J].教育導(dǎo)刊,2002,(10).
[5]郝利群.影響語言測試信度的主要因素[J].錦州師范學(xué)院學(xué)報(bào),2002,(6).
本論文為成都信息工程學(xué)院人才引進(jìn)啟動資金項(xiàng)目“高校大學(xué)英語教師發(fā)展研究”系列成果之一。項(xiàng)目編號:KYTZ 200911