楊 華 沈麗坤
(保定科技職業(yè)學(xué)院,河北 保定 071000)
考試,作為教學(xué)的一部分,在教學(xué)過程中起著必不可少的作用。實(shí)行得當(dāng)?shù)目荚囉兄诮虒W(xué)的順利開展,對教學(xué)有很強(qiáng)的導(dǎo)向作用,有助于提高教學(xué)效果。一次成功的考試,可以幫助教師真實(shí)有效地獲取所需要的有關(guān)學(xué)生能力或具體技能的信息。信度和效度是衡量考試質(zhì)量的兩個(gè)重要標(biāo)準(zhǔn),是考試必須滿足的兩個(gè)基本條件。成功的考試應(yīng)盡可能做到可靠、可信。
考試信度(reliability),用確切的語言講,應(yīng)該是測量結(jié)果的信度。考試中的信度理論,就是教育和心理測量中關(guān)于測量誤差的理論。
根據(jù)現(xiàn)行的教育和心理測量理論和實(shí)踐情況,要給信度下一個(gè)較完整的定義十分困難。下面我們從定性和定量兩個(gè)方面嘗試給信度下個(gè)定義。
定性定義:信度是關(guān)于測量結(jié)果一致性程度的量度。這種一致性可能是關(guān)于不同時(shí)間的一致性,也可能是關(guān)于由等價(jià)項(xiàng)目組成的不同試卷間的一致性,也可能是關(guān)于不同評分者間的一致性,也可能是關(guān)于不同次決策的一致性,也可能是關(guān)于以上幾種因素不同組合情況下的一致性。這種一致性通常用信度系數(shù)(一般用相關(guān)系數(shù))表示。
定量定義:信度是關(guān)于測量結(jié)果偏離真值大小的量度。這種量度通常用測量的標(biāo)準(zhǔn)誤差來表示(鄒申,2005:132-134)。
考試要成為有效的測量手段,信度是其關(guān)鍵因素之一。在教學(xué)實(shí)踐中,我們可以通過重復(fù)考試法、平行卷考試法、對半分析法三種方法來測定考試信度(鄒申,2000:34-35)。
衡量考試的另一個(gè)標(biāo)準(zhǔn)是考試效度(validity)。效度,是在教育和心理測量學(xué)這一特定語境中對“有效程度”或“有效性”一詞的簡稱。
簡單說,考試效度就是它在多大程度上考了想要考的內(nèi)容。每次考試,不管何種類型,都應(yīng)盡可能有效。考試必須針對提供對想要測量的個(gè)別技能的真實(shí)的測量:在一定程度上同時(shí)測量外部知識和其他技能,否則,它不是一個(gè)有效的考試。
例如,教師編制了一套口試題目,來考試學(xué)生口頭表達(dá)語言的能力,考試的結(jié)果顯示這套題目的確檢查了學(xué)生在規(guī)定方面的能力,我們可以說這套考試題目具有效度。
又如,如果我們只想測量寫作能力的話,下面這個(gè)考試項(xiàng)目就是無效的:“討論‘?dāng)z影是一門藝術(shù)還是科學(xué)?’”很簡單,因?yàn)樗枰恍z影知識,必然會對一些學(xué)生有利(Heaton,2000:159)。
考試的效度可以通過表面效度、內(nèi)容效度、尺度關(guān)聯(lián)效度、結(jié)構(gòu)效度幾個(gè)方面來檢驗(yàn)。
考試效度是一個(gè)整體概念,四種效度應(yīng)為這個(gè)概念的不同側(cè)面。在確定一個(gè)考試的效度時(shí),我們必須通盤考慮效度的各個(gè)方面。我們既不能只滿足考試的表面效度,又不能孤立地評價(jià)考試的內(nèi)容效度。只有聯(lián)系結(jié)構(gòu)效度來評價(jià)內(nèi)容效度時(shí),我們才能作出有意義的結(jié)論。任何論證結(jié)構(gòu)效度的過程都包含內(nèi)容效度、尺度關(guān)聯(lián)效度或表面效度等方面。
考試效度和信度構(gòu)成評估考試的兩個(gè)主要標(biāo)準(zhǔn)。如前所述,信度是關(guān)于測量結(jié)果一致性程度的量度,指的是考試結(jié)果(分?jǐn)?shù))的可靠性;效度指的是考試達(dá)到預(yù)定目的的程度。
一個(gè)考試可以具備較高的信度,但缺乏效度。如果我們用一個(gè)已被證明具有較高信度的閱讀試卷去考學(xué)生的寫作能力,考試結(jié)果有很高的穩(wěn)定性也沒用。試卷的誤用無法使我們測量到期望的能力或技能。如果用尺子作為工具來測量人的體重,可能很“可靠”,在不同的被測者之間、不同的地點(diǎn)之間,可能會有很高的一致性,但這種測量對于測量體重來說是一個(gè)有效度不高的測量。
理想中的考試應(yīng)該既有信度又有效度。然而,信度和效度之間存在著矛盾。考試的信度越高,通常效度越低。包含創(chuàng)造性技能的主觀考試比如口試、角色扮演等在失去信度的情況下才可能得到較高的結(jié)構(gòu)效度和表面效度。語言學(xué)習(xí)行為不可能只靠從所給選項(xiàng)中選擇正確答案的能力去論證。
考試工作者所面臨的選擇是增加有信度的考試的效度還是增加有效度的考試的信度。如果想要增加有信度的考試的效度,這是不可能達(dá)到的,因?yàn)槟切┦箍荚嚳尚诺奶卣饕舱鞘箍荚嚐o效的特征。我們可以先設(shè)計(jì)一個(gè)有效考試,然后增加其信度。一個(gè)效度高的測評,一定有好的信度。但有高信度的測評,不一定有好的效度。信度是效度的必要條件,但并不充分。考試結(jié)果與要考試的內(nèi)容越吻合則效度越高;反之,則效度越低。總之,某些測試對所要測量的行為具有更明顯的代表性;而有些則不具有代表性。
信度是效度的前提條件。一個(gè)有效度的考試一定有信度,而一個(gè)信度很高的考試不一定有效度,這是信度與效度的最基本的關(guān)系(鄒申,1998:259)。如果考試本身不可靠,我們就不能說考試有效地檢測了所選定的語言能力或技能。確定效度的一些方法需要考試結(jié)果作為基本數(shù)據(jù),如試卷內(nèi)各項(xiàng)目之間相關(guān)的關(guān)系、考試成績與考生特征之間關(guān)系的分析等。如果數(shù)據(jù)不可靠,考試效度也是無法確定的。
信度和效度似乎存在著不可調(diào)和的矛盾,是一種“你進(jìn)我退”的關(guān)系,多一點(diǎn)信度就少一點(diǎn)效度,反之亦然。傳統(tǒng)上,人們往往努力追求絕對的信度和效度,結(jié)果終究是徒勞的。因?yàn)椴豢紤]效度,盲目增加信度,結(jié)果是一個(gè)考試在信度很高地測試著并非我們想測試的內(nèi)容;而不顧信度盲目地提高效度,其測試結(jié)果只能是不準(zhǔn)確不可信的,即絕對的信度和效度是沒有意義的。兩者相互妥協(xié)以達(dá)到共存的目的才是我們經(jīng)過努力能夠達(dá)到的,追求“絕對”只是一個(gè)美麗的“憧憬”(鄒申,1998:260)。 總而言之,對于考試來說,信度與效度都是必不可少的,信度是保證效度的基礎(chǔ),撇開效度只談信度是沒有實(shí)際意義的。
信度和效度是衡量考試質(zhì)量的最重要的兩項(xiàng)指標(biāo)。它們之間既相互依存,又相互排斥。一項(xiàng)考試如果可靠,則其效度很可能高,也很可能低;但是,如果一項(xiàng)考試不可靠,則該考試必然無效。保證考試的高信度和高效度是考試工作者追求的目標(biāo)。但這只能是一個(gè)理想化的目標(biāo),因?yàn)橐豁?xiàng)考試要想做到信度和效度很高往往是不可能的,但我們絕不能為了追求信度而忽視效度,也不能為了追求效度而放棄信度。
[1]Heaton,J.B.W riting English Language Tests[M].北京:外語教學(xué)與研究出版社,2000,8.
[2]鄒申.語言測試[M].上海:上海外語教育出版社,2005,9.
[3]鄒申.英語語言測試——理論與操作[M].上海:上海外語教育出版社,1998,7.
[4]鄒申,楊任明.簡明英語測試教程[M].北京:高等教育出版社,2000,7.