語言測試中完形填空內容效度研究綜述

2019-09-12 12:19:44岳斌

大經貿 2019年7期

岳斌

【摘要】完型填空這種測試項目被多種語言測試所采用，但卻一直具有爭議性。內容效度為測試效度中最重要的一個方面，而完型填空的內容效度如何仍然存有爭議，基于對該問題的興趣，作者決定對完型填空的內容效度進行綜述，有助于理清該領域的研究思路與發展方向，促進語言測試效度，尤其是內容效度的提高。

【關鍵詞】語言測試完形填空內容效度

一.語言測試的內容效度

評估一項測試有四個因素：信度、效度、難度和區分度。其中效度是最重要的因素，“因為如果一項測試對其設計目的是無效的，那么分數也就沒有意義”（Alderson&Urquhart，1983）。.作為語言測試最關鍵的因素，在效度在語言測試領域引起了眾多研究者的關注。效度通常是指測試或其組成部分的適當性，作為其應測量內容的衡量標準（Herming，2001年）。因此，效度是測試應該遵循的基本標準。效度可分為表面效度、內容效度和建構效度。本文主要從內容效度的角度對完形填空測試進行研究。

（1）效度的分類

效度根據不同標準的分類吸引了眾多學者的關注。學者們對效度進行了幾種分類，如Davies（1986）和Alderson等人（2000年）。Alderson提出的分類法是最廣泛采用的一種。他指出，效度分為三種類型：表面效度、內容效度和結構效度。表面效度是根據觀察者的主觀判斷，測試似乎是衡量了其應該要衡量的知識或能力。如果一個考試對教師和考生看起來說是正確的，那就可以說它具有表面效度。內容效度是指測試內容必須對于課程中所教的內容具有代表性和典型性。結構效度是指一個測驗實際測到所要測量的理論結構和特質的程度，是指實驗與理論之間的一致性。然而，由于時間和精力的限制本研究僅探討內容效度。

（2）內容效度的定義和意義

如果考試的內容構成了語言技能、結構等的代表性樣本，則認為該考試具有內容效度（休斯1989：22）。正如Kerlinger（1973）所說，“內容效度就是內容的代表性和抽樣的充分性”。Bachman認為，內容效度主要包括兩個方面：內容相關性和內容覆蓋面（Bachman，1990）。對于相關性，考試越與考試規范或考試大綱相關，它就越有效。內容覆蓋面關系到測試任務在目標語境中充分展示的程度，這可以通過隨機選擇的代表性樣本實現。

Alderson（2000）提出，內容效度在國際效度中是最重要的，因為高的內容效度的測試傾向于準確地測量應該測量的內容。如果沒有可靠的內容效度，分數解釋可能會被曲解。Hughes（2000）指出，“內容效度越高，測試越能準確地測量出它應該測試的內容”。一種測試，其中測試規范中所要求的內容領域或語言行為表示不足或根本不表示，往往是不準確的。此外，他（2000）還指出，僅包含部分內容的測試，將不利于指導教學或提高實踐語言能力。

（3）內容效度的分析方法

一般來說，語言測試的內容效度構建和評估分為兩個階段：測試前和測試后。

在測試前階段，測試設計者的任務是構建語言行為或待測試內容領域的類別，并給出測試任務的清晰藍圖。最后，測試設計者使用測試規范來確定要測試的語言行為。該規范必須描述測試中所涉及的特定語言技能和領域的詳細術語。

對于測試后階段，分析語言測試內容效度的一種常見方法是將其與內容應該是什么的陳述進行比較。在這里，內容陳述可以是測試規范、正式的教學大綱、課程或領域規范（Alderson等人，1995）。這類似于Bachman對內容相關性的觀點。當測試規范和測試內容進行比較時，很容易發現內容相關性的程度。通過這種方式，測試應該通過反映語言行為和應該覆蓋的區域來實現內容效度。（Hilton，2000）。

二.語言測試中的完形填空

完形填空廣泛應用于各個層次的語言測試。完形填空有四種類型：按固定比率刪詞的完形填空、意向刪詞完形填空、多項選擇完形填空和C-test。完形填空與閱讀、語法和詞匯有著密切的關系，這是完形填空研究中不可避免的問題。

（1）完形填空的定義、起源和發展

基于“閉合”心理格式塔理論，完形填空即是通過回憶不完整的視覺形狀從而趨向于閉合.1953年，Wilson Taylor首次使用完形填空法，稱為“cloze”。從那時起，許多研究人員和學者使用完形填空來衡量學生的閱讀理解力，其前提是完形填空不僅僅是一個完成任務的模式，也涉及從上下文推理（Rye，1982）。而以Oller為代表的一些研究者則認為完形填空是一種既能測試閱讀理解力又能測試全球語言能力的有效方法，因為它要求被測試中整合所有相關的系統知識，以便理解整體語境。到目前為止，對完形填空程序的研究仍在進行中，但爭議仍然懸而未決。

盡管得到了一些贊譽并且在應用語言學和語言測試中取得一些實證結果，完形填空的效度一直存在較大的爭議。然而，大多數研究者都認為完形填空是一種綜合性測試，而不是離散點測試。這導致了完形填空在各種語言測試中的應用發生了變化。

（2）完形填空測試內容效度的相關要素

完形填空與語法和詞匯有關，這已被廣泛接受。完形填空沒有語法和詞匯是不可能存在的。為了做出正確的選擇，考生必須對選項有一個全面而嚴謹的知識。考生必須掌握基本的語法知識，才能理解話語，找出并解釋所提供的線索，選擇最合適的單詞。正如Darnell（1968）提出的，完形填空可以有效地評估語法和詞匯，因為語篇提供了與語法和詞匯相關單詞的關系和線索。

完形填空也與閱讀有關。在完形填空測試中，考生使用閱讀技巧來識別單詞和理解上下文。實驗證明完形填空能有效地評價學生的閱讀能力。完形填空與閱讀有著密切的關系，這兩種測試需要相似的技巧和能力。Guning（1988）還指出，完形填空可以作為閱讀測驗的替代品，因為如果考生不理解他所讀的內容，他就不知道要如何填空。

三.完形填空內容效度的研究綜述

在完形填空60多年的發展歷程中，效度研究一直是研究的核心。相關研究主要有兩種觀點。

John·Oller 所代表的一種觀點認為完形填空在評估整體語言能力方面是有效的。根據他的定義，語用測試必須是綜合性的，因為它試圖評估考生同時使用多種語言知識或技能的能力。因此，在語用測試中，為了完成任務，測試者必須將給定的語言序列與必須推斷的外部語境聯系起來（Oller，1979）。他的理論得到了許多統計證據的支持。Cohen（1980）稱完形填空評估整體語言能力，包括語言知識、文本知識和單詞知識。Ahluwalia （1992年）還指出完形填空是一種綜合的、全球性的語言能力測試。Steinman（2002）甚至認為完形填空可以取代結構測試、詞匯測試和閱讀理解測試。Azevedo（1998）也列舉了完形填空的優點，認為它是以被測試者為導向的，因為它的評估和反饋是同時進行的。

相反，還有另一種關于完形測試的觀點。Alderson （1979）指出，完形填空是一個離散的點狀測試，因為它僅僅是句子綁定，似乎衡量的是“低階”而不是“高階”語言技能。他（1983）認為，很難保持完形填空的效度和信度之間的一致性，因為刪除不同的單詞會導致不同的結果。此外，Brown（1998）證明了完形填空的效度在19%到83%之間，其信度在3%到96%之間。Namara（2000）認為，完形填空總體上似乎與語法和詞匯的離散點測試相同。

到目前為止，關于完形填空是離散還是的語言測試的爭論一直沒有平息下來，也沒有得出任何結論。但研究者更傾向于將完形填空作為一種綜合性的語言能力測試。

四.結語

完形填空廣泛應用于國內各類別、各級別的語言測試中，其效度如何，尤其是效度中最重要的內容效度如何，具有重要意義。對此方面的研究進行綜述，將有助于我們全面了解完形填空的特點，提高語言測試的效度。由于個人精力有限，完形填空的表面效度和結構效度的研究綜述可以留待學者繼續分析，以得出更加全面的結論。

大經貿2019年7期

大經貿的其它文章: 數理統計在生產質量中的應用; 讀費希特《論學者的使命》; 中學生共情與受網絡欺凌的關系：父母溫暖的調節作用; 人類命運共同體視域下中國在上合組織中的作用; 知識型員工的離職因素及價值分析; 淺談中國共產黨對三大規律的探索與實踐