效度驗證模式系統整合與效度研究發展策略

2021-11-27 07:12:48李田

考試研究 2021年6期

關鍵詞：研究

李田

效度（validity）是評價測試質量最重要的因素。從19世紀20年代開始，效度理論發展大致歷經了120多年，在本世紀初逐漸進入我國相關領域的研究視野。效度的定義從最初簡單的“測試是否測量了它目標測量的東西”[1]發展成為同時包含測量屬性和社會屬性的復雜概念，經歷了相關系數（Cureton，1951）、效度三分（Cronbach，1971）、整體效度觀（Messick，1989）三個發展時期[2]。從Cronbach開始，效度研究就高度重視測試使用的社會效應，這也使得效度研究不再是簡單的系數計算，而是對復雜的測試系統進行全面綜合研究。效度研究的復雜性催生了效度驗證模式理論。

效度驗證模式，是為整合效度概念和規范指導效度驗證過程而構建的研究框架，對測試效度的實踐研究有重要的理論意義。第一個效度驗證模式——測試有用性框架（Test Usefulness Framework）[3]于19世紀90年代被提出，是整體效度觀在實踐層面上的發展。之后各種效度驗證模式開始被提出，推動了效度理論的不斷發展。Kane提出的基于論證的效度驗證模式（Anargument-based approach to validation）[4]更被認為開啟了效度研究的新道路。因此可以說，效度驗證模式是當前效度理論研究的聚焦。

但效度驗證模式理論并不是更迭相繼的發展，而是在不同地區圍繞不同核心測試演變和發展，各自形成了不同的術語體系和研究模式。這種一致性的欠缺對于理論的進一步發展十分不利，也容易讓嘗試進入效度研究領域的研究者步入誤區。因此本文將在對比經典效度驗證模式的基礎上，探討效度理論的分歧和研究發展的方向，并嘗試整合效度驗證研究系統，探索推進我國效度理論和實踐研究發展的策略。

一、經典效度驗證模式

1.Weir[5]于2005年提出的社會認知框架（Socio-Cognitive Framework，SCF）是與整體效度觀一脈相承最完善的效度證據整合框架，整合了證據收集來源（理論/認知、環境、評分、效標關聯和后果）、收集順序（測前和測后）以及數據分析方法，可操作性較強。該模式在劍橋主體證書考試（KET、PET、FCE、CAE、CPE）的效度對比研究中得到了豐富和完善。

2.Kane[6-8]提出的解釋/使用論證模式（Interpretation/Use Argument，IUA）將哲學家Toulmin的實用論證模型和現代測試學測量模型理論運用到測試效度驗證中，避開了構念環節，是第一個基于辯證推理的驗效模式。IUA模式主張將效度證據整合在環環相扣的推理鏈中，在證據之間建立邏輯聯系，并證明聯系的可信度和合理性。Kane的推理鏈包含考生表現、觀察分數、預測分數、目標域、決策五個因素，評分、概化、外推、使用四個推理環節，結構精簡開放。許多學者在此結構基礎上進行拓展，發展出更具體的效度驗證框架。IUA的拓展分兩條道路：一條是延續Kane主張的基于數據的推理（Aryadoust[9]）；而另一條則轉向了基于思辨的推理（Chapelle[10]，Xi[11]，Hopster-den Otter et al.[12]）。其中，Chapelle 的模式是專門為TOFEL測試效度驗證研究設計的效度驗證模式。

3.Bachman & Palmer[13]提出的測試使用論證模式（Assessment Use Argument，AUA）借鑒吸收了Messick和Kane的思想和觀點，是專門針對語言測試的論證模式。AUA將IUA模式的推理鏈拓展為兩個方向，整合了測試的設計開發和分數的解釋使用，并對推理的結構進行了細化和衍生。但這不等于AUA是IUA的改進和升級。單從數據驗證的角度看，IUA的推理更連貫，思路更清晰，而AUA的推理則對社會因素的融合更全面。AUA在我國引起的關注較多，評價也較高[14-17]。

4.Cizek[18]提出的可辯護的測試效度驗證修訂框架（Framework for Defensible Testing，FDT）是效度理論保守派[19]的代表。該框架將分數解釋效度驗證（validation）與測試使用合理性證明（justification）分離開來，認為它們是系統上不兼容、邏輯上漸進的兩個過程。FDT的理念與主流的整體效度觀不同，但也代表了許多學者的觀點。在證據問題上，Cizek將關于測試使用的證據來源細化成四類：測試結果、測試代價、除測試外其他選擇、基礎公平性，相當于發展了證據框架，對證據收集有積極指導作用。

5.Mislevyet al.[20，21]提出的證據中心模式（Evidence Centered Assessment Design，ECD）是圍繞計算機輔助測試開發和效度驗證設計的論證模式。測量模型和概念評測框架是該模式的兩個核心模塊，前者的模型結構與IUA類似，但具有更強的網絡性，概念評測框架則類似一些心理研究模型。該模式受關注度不如前面四個模式，但是在處理復雜心理能力測量方面有其獨特的結構優勢，值得進一步研究。

二、效度驗證模式對比

在語言測試領域出現的效度驗證模式非常多，但基本上都是在上述五個模式的基礎上發展而來的。這五個框架模式在提出時間上頗為相近，它們的提出者和支持者之間也互有爭論及影響。五個模式在效度內涵主張、驗證模式構建的思路方法及證據收集分析上都有一定差異。

SCF和FDT是證據框架模式的代表，用以厘清效度證據來源和證據收集順序。該類模式的效度評判是綜合評價各種效度證據以形成一元多維的結論，但該方式在執行層面上采用的仍然是三分效度觀時期的效度驗證方法，針對各類證據的效度結論相互之間缺乏邏輯。在目前的效度理論研究中，證據框架模式頗受批判[22，23]，但在實踐研究中仍然被廣泛采用[24]。

IUA、AUA和ECD是論證模式的代表，均基于Toulmin論證模型[25]在證據間搭建具有特定邏輯的聯系，以辯證的方式論證測試的測量準確性和使用合理性；IUA的邏輯基于測試學測量模型，以數據推論為核心，從測試表現開始推導，最終證明測試使用的合理。AUA將Toulmin模型與Messick的整體效度觀結合，以思辨的方式論證如何全面保證測試的效度；ECD則基于心理研究模型構建模式，以類計算機模塊思路分析效度問題。IUA強調測試的測量屬性和社會屬性同等重要，在測量和使用之間架構聯系橋梁，強調效度問題的特殊性和目的性，是開放性很強的模式；AUA則將測試的社會屬性置于首位，認為測試的期待效度是實現測試對社會的有益影響，并將此作為測試設計的目的和檢驗效度的標準，因而AUA模式是一種理想化的設計框架，模式規定性很強；ECD以測量為核心，主要用于計算機輔助測試設計和效度驗證，具有較強的程式性。

在效度驗證實踐中，幾種效度模式都有自己的優勢和弱點。證據框架模式（SCF、FDT）基于證據類型對證據收集時間和步驟進行規劃，可以將效度驗證過程化整為零，可操作性較強，但效度評價的內部結構缺乏邏輯，也沒有檢定的標準，效度結論難以直接用于決策。基于數據的論證模式（IUA、ECD）效度驗證邏輯清晰，強調明確的研究目的，驗證效率較高，但對數據分析技術要求較高，且對測試社會屬性的研究面也相對較窄。基于思辨的論證模式（AUA）則整合了測試的開發與使用，高度重視測試的使用效果，對測試的開發或效度研究工作有良好的導向作用，但采用該模式的效度驗證工作量大，研究難度高。可見，任何單一的模式在面對效度研究實踐問題時都不是萬能的，效度研究實踐需要針對不同的研究情境選擇合適的方法和思路，甚至需要對經典模式進行發展。而這需要對效度驗證模式的理論有更全面、完整的認識。因此，本文將進一步將五個驗證模式梳理在一個系統中，以厘清各種術語之間的差別和聯系，領會效度驗證不同方法的思路和分歧，以期對實踐中的效度驗證獲得更清晰的認知。

三、效度驗證研究的系統整合

雖然幾個模式的差別較大，但相互之間也不無聯系。首先，論證模式是在證據框架模式的基礎上發展而來的，將證據框架模式中松散整合的不同來源的證據組建成具有邏輯聯系的證據鏈，再加以論證形成環環相扣的效度推論。其次，不同論證模式的推理過程也較為相似，都是基于樣本理論、測量理論，將分數解釋的過程表現為若干個環節，進而在效度不同維度間形成邏輯聯系。基于這種聯系，將從效度內涵和證據整合兩個方面梳理測試效度驗證的研究系統。

本次實例數據來源于某河道的控制測量，每隔5 km左右布設一對D級GPS控制點，一共布設16點，每個控制點均聯測四等水準高程。四等水準測量采用S05級電子水準儀和配套的銦瓦水準尺進行，并嚴格執行GB/T12898—2009《國家三、四等水準測量規范》。

1.效度內涵

目前，在測試研究領域基本達成共識的效度內涵定義是美國心理學會（American Psychological Association，APA）編纂的2014年版《教育和心理測驗標準》（以下簡稱《標準》）對效度的定義：“實證證據和理論依據對基于特定測試目的的測試分數解釋和使用合理性的支持程度。”[26]這個定義涉及四個層面因素，如圖1所示。

圖1 效度結構圖

第一個層面是測試的過程層面。測試過程即對考生測試表現進行評分，并基于這個得分執行一系列決策。分數代表的是考生的能力，分數解釋就是對如何通過分數區分考生能力進行解釋。而測試使用指的是基于測試（有意義的）分數執行決策，涉及一系列社會因素。

第二個層面效度評價是效度的本質，可以分為兩個基本環節，測量的準確性（測試分數解釋）和使用的合理性。

第三個層面是支持效度評價的證據來源，《標準》將其梳理為五種來源：關于測試內容、應答過程、內部結構、外部結構和后果的證據。一般來講，測試內容和應答過程方面的證據屬于經驗證據（理論依據），內、外部結構和后果證據屬于實證證據。這五個來源的證據可以被評價為四個維度的效度。

第四個層面的“效度維度”是整體效度觀[27]時期采用的術語，是在三分效度觀時期不同效度類型的基礎上發展而來。構念指的是測試的設計理念，包括內容、結構方面，一般基于認知和其他相關理論構建。價值意義指的是測試的結果（分數）能代表和概化考生能力，可以體現為測試的一致性。相關性是指測試結果與其他測試或外部標準（如能力量表）、相關結構（如閱讀能力和語言綜合能力）的聯系，也被稱為效標關聯。社會后果泛指測試使用帶來的影響。構念是測試效度建立的基礎，也貫穿和影響著其他維度。

在目前的研究中，四個層面中測試的使用后果部分的界定均相對比較籠統模糊，這是由于測試的使用受社會、學校、個人多種因素影響，本身較為復雜，而對測試使用環節的研究又是近二十年才興起的課題，因此研究不足，也存在許多分歧和研究空白，如關于公平性和后效界定的分歧和爭論等。因此這一部分將有待后續的研究發展。

除了效度的四個層面，還需要注意的是，效度所涉及的證據是具有獨特情境屬性的，即這些證據都是在某一次特定考試中產生的證據，具有一定情境代表性。因此，效度指的是測試過程的效度，而不是測試本身的屬性。效度研究要結合測試的目的，因為測試的目的決定了效度研究的廣度和深度。

四、效度證據整合模式

效度驗證需要整合效度證據以體現測試的合理性程度，效度驗證模式的核心在于整合證據。梳理效度證據整合的模式，首先區分為證據框架和論證模式兩種方式。證據框架的中心在第三個層面的效度證據，評價結果體現為第四個層面——不同維度的效度，主要采用歸類的方式進行效度驗證；論證模式則是將第三個層面證據基于第一個層面測試過程邏輯進行整合。

測試的本質是一種抽樣檢測，是通過考生在某一次考試中的作答反映推測其某一目標域能力或者屬性值。在圖1過程層面的測試過程實際上還包含了一系列的潛在推理，如圖2所示：觀察分數指的是基于考試評分規則對考生表現評價得出的分數。因為是單次抽樣，存在測量誤差，而全域分指的是去除測量誤差后的真實分數。目標域代表測試的目標能力或屬性。測試的目標與真實分數是兩個概念，全域分到目標域之間，還可能存在測量偏差。由此，從考生表現推測考生能力實際上經過了評分、概化和外推三個環節。通過這三個環節對分數的意義進行解釋，再基于測試分數解釋實施決策，這就是測試需要效度驗證的整個潛在過程。效度論證模式的整體思路就表現為：論證從考生表現到決策這一系列環節都是合理的，能被證據支持。

圖2 測試過程解釋圖

由此可見，證據框架和論證模式幾乎是兩個不同的系統。雖然兩者之間可以進行簡單的關聯：信度大致對應概化環節；而構念、效標關聯等大致對應外推環節，后效大致對應測試使用。但是證據框架是對效度證據的分類，而論證模式是對整個測試過程邏輯的合理性推導。論證模式基于的測試過程的邏輯是連續的，而證據框架基于的效度維度與傳統分類效度觀的本質并無明顯差別，是相對分離的，片段的，雖然效度維度在整體效度觀框架下以構念為核心形成統一的整體，但是在效度驗證時，構念的證明本身就是一個邏輯問題。因此，據Chapple等學者的觀點，Kane的論證模式代表了效度理論進入整體效度觀之后的第四個發展時期——效度論證觀[28]。結合上述分析也不難發現，證據框架中的不同來源的證據在論證模式中能有更清晰的邏輯解釋，因此，在系統整合中，效度維度的功能可以完全被測試過程解釋取代，進而形成以過程推理為核心的整合結構，作為效度證據整合的基礎。

對效度證據的整合，論證模式采用的是哲學家Toulmin（1958）的實用論證模型。該推理模型包含六個要素：基于“理由（Warrant）”從“數據（Datum）”推導出“主張（Claim）”，如果存在“反駁（Rebuttal）”即例外（Exception）情況，則需要在主張之前加上“限定（Qualifier）”。理由本身可能無須證明，有時需要“支撐（Backing）”證明[29]。這個模型在傳統三段論大小前提的基礎上增加了支撐、反駁和修飾，使整個論證過程更加全面準確。但根據論證模式對Toulmin模型六要素的不同解讀方式和應用，在構建思路上分成兩類：基于數據推理模式和基于思辨推理模式。

基于數據推理的模式以IUA為代表，其推理結構顯示為圖3中的下半部分。推理鏈被解釋為基于考生在測試中的表現，可以推導出學生具有什么樣的目標域能力或屬性。推導的理由通過對測試樣本數據即效度證據的分析得出，可能是公式、函數或規則，并可以通過限定詞對推導條件進行限定。限定詞很多時候可以表現為置信區間、解釋力等量化分析數值。推理結構本身只是對測試效度的客觀描述，因此效度驗證還要對整個推理結構進行整體評價，檢視推理鏈是否連貫、清晰、合理，是否存在推理的薄弱環節。ECD模式的推理邏輯類似，但是沒有使用線性推導，考生表現被分解為考生表現數據和測試情境數據，測量模型使用網絡結構。這種結構對于驗證形成性評價、高階能力評價等復雜表現形態的測試有很好的適配度。

圖3 效度論證推理結構圖

基于思辨的效度推理，以AUA為例，顯示為圖3中的上半部分。它的推理是要證明評分、概化、外推、使用這些環節的合理性。在每個環節上，主張即合理性表現為具體的標準，而理由為要達到這些標準需要滿足的條件。不同來源的證據可以分列在各個環節中用于檢驗具體的測試過程是“支持”還是“反駁”這些標準。效度驗證推理可以解釋為：因為這些環節達到了預設標準，因此測試是合理的。

圖3中的推理鏈、理由、證據的解釋說明都不是固定的。例如，推理鏈的兩頭和中間都可以加入新的環節，或因研究目的刪除不必要的環節；概化理論也可以使用IRT等其他測試理論替代；每個環節的標準要求可以因不同的測試使用情境而變化；證據類型也可以進行拓展，等等。

在數據邏輯中，每一次的效度檢驗都需要有具體的分數解釋方式，效度驗證要驗證這種分數解釋的合理性。因此效度不僅是測試過程的效度，還是對分數解釋的效度和基于這種解釋使用的合理性。而思辨邏輯則仍然以測試為核心而不是具體的分數解釋。思辨邏輯中的分數解釋意義籠統，在具體的實踐情境下才能對其進行詳細說明。由此可見，數據模式用于對具體的測試使用的效度進行驗證，而思辨模式則是綜合評價測試質量的效度驗證方法。

這樣，測試的效度驗證系統就可以被整合為四層面、一邏輯、兩方式的統一理論體系。四個層面指的是測試過程、效度評價、證據來源和效度維度四個層面，其中：效度維度主要用于銜接傳統效度理論和論證效度理論；測試過程作為整個效度驗證系統的核心邏輯；效度證據基于測試過程推理進行整合，形成數據推理效度驗證模式和思辨推理驗證模式兩種效度驗證方式，分別用于具體的或者整體的測試使用效度驗證。

數據推理效度驗證模式的發展主要在于對分數的解釋模型的發展，即如何應用和改進測量模型挖掘測試數據，量化效度驗證研究，如IRT模型和Rasch模型在效度驗證中的應用。而思辨推理效度驗證模式的發展則在于構建更全面的效度研究框架，尤其是加深對測試社會屬性的研究，如對測試后效公平性的研究、測試后果的證據來源研究。兩種方式的發展相互聯系，相互影響。

五、我國效度研究的發展策略

目前效度驗證模式的理論和實證研究主要集中在國外，我國業界對效度驗證的關注和研究相對較少。測試和測量被廣泛應用于各種教學和研究中，但測試的效度驗證研究卻比較滯后，這十分不利于我國測試的發展以及測試對教學和社會帶來積極的影響。當然，這種現象也有其現實的原因。我國測試開發機構、研究人員的構成以及測試的使用環境均與國外有較大差異。國外的商用測試開發體系比較成熟，效度作為測試質量控制研究的核心，無論是對于測試開發方推廣測試或者測試使用方選用測試都十分重要，效度驗證有較明確的責任歸屬和分工。而在我國，測試效度研究的責任歸屬仍不夠清晰，如大規模高風險測試被開發出來之后，常被用于不同地區、人群和目的，測試的測量屬性和社會屬性問題遠比國外測試使用更為復雜。對于開發方而言，全面驗證測試的效度工程過于龐大，實施難度大，因此研究項目少。而對于一般測試使用者而言，由于效度理論體系復雜，又涉及大量證據收集和數據分析，研究門檻高，一般研究者很難開展關于效度驗證的研究。針對我國目前這種情況，提出關于效度驗證模式研究的以下三個發展策略。

第一，區分效度研究的開發者和使用者視角，明確測試效度研究責任，采用合適的效度驗證模式。傳統的效度理論將效度視為測試質量屬性，效度驗證責任則理所當然歸于測試開發者。但隨著社會的發展，測試的使用范圍越來越廣，開發者難以也不應當承擔測試效度驗證的全部責任。而測試使用者視角的效度研究既能解決具體測試使用問題，又能填補測試開發者對測試研究的空白，因此應當被提倡和重視。

如圖4所示，測試的開發者對測試效度的研究是大范圍研究，基于某種開發目的的測試構念對于測試開發效度而言至關重要。而測試的使用效度研究屬于具體研究。測試的使用目的與測試的開發目的可能相同但也可能只是相關，考生群體可能屬于測試開發的目標群體，也可能超出開發群體范圍。因此，測試使用效度是區別于測試開發效度的效度研究。測試開發者和使用者是測試效度研究的兩個主體，開發者承擔測試開發效度驗證的主體責任，而測試使用者承擔測試使用效度驗證的主體責任。兩個主體效度研究的視角不同、規模不同，采取的方式也應當有所區別。測試的開發具有實現“測試帶來有益影響”的責任，效度驗證不僅要關注測量的準確性，更需要研究測試使用帶來的各種影響。因此，開發者需要使用綜合性強的效度驗證模式（如AUA），全面檢驗測試效度的方方面面。而測試使用者對測試使用效度的驗證則應該基于具體明確的測試目的，采用目的性強的效度驗證模式（如IUA），解決測試使用的關鍵問題。只有兩者相互協調配合，各自明確效度驗證的責任，才能推進測試效度研究的發展。

圖4 測試開發使用效度對比圖

第二，發展數據分析手段，提高研究效率。測試本身就是一種收集信息的方式。試題體現測試設計構念，應答表現則包含了大量考生信息。深化對測試數據的信息挖掘，則能降低對其他輔助證據的需求，進而簡化證據收集工作，使效度研究更有效率。因此，數據模型的研究和應用對發展和促進效度研究十分關鍵。

第三，利用測試后效研究基礎，帶動測試的整體效度研究。目前，我國對測試的效度研究已具備一定的研究基礎。測試的反撥效應和后效研究是近10年來一個備受關注的研究話題，體現了業界對測試使用研究的重視，也將我們的視線從測試的使用轉移到對測試的研究上。反撥效應特指測試對教學的影響。雖然業界對反撥效應、后效與測試效度關系界定有爭議[30]，但它們是很容易被聯系在一起的課題，反撥效應的理論框架和實證研究能夠為測試效度整體研究發展提供一定研究范式基礎，尤其是對效度中測試使用后果方面的研究發展有啟示作用。但目前的反撥效應研究大多聚焦在測試后的影響研究，與測試過程本身幾乎是分離的。這種研究方式會越來越局限研究視野，難以客觀全面地體現測試對教學的影響。因此，將業界對測試反撥效應的關注拓展到對整個測試的使用過程和影響的研究不僅能夠突破目前研究的一些瓶頸，而且能打開新的局面，帶動測試效度研究，促進測試研究的平衡發展。

六、結語

測試效度研究的受關注度低并不是測試效度問題不重要，相反，效度研究是保證測試合理使用和促進測試對社會、教學、個人積極影響的前提。測試效度理論體系相對復雜，并涉及大量不統一的術語，使得理論推廣有一定難度。因此，本文在對比現有效度驗證模式的基礎上，對效度驗證研究體系進行了梳理，總結出基于數據的效度論證模式和基于思辨的效度論證模式這兩種主流模式，并對其原理和發展方向進行闡釋，以期加深讀者對效度驗證模式理論的理解和認識。對于不同視角的研究，研究主體應該選取合適的驗證模式以實現不同的效度研究目的。效度驗證研究體系不僅對測試效度研究十分有用，還可以拓展到教育心理測量工具的效度研究上，規范測量工具的效度驗證，整體提高測試、開發者和使用者的效度驗證意識，進而促進測試更科學、嚴謹的使用和發展。