普通高中學業水平考試命題公平性與適應性評價指標體系的構建與應用

2020-07-21 00:43:48樂洪勇熊建文

考試研究 2020年3期

艾靜樂洪勇熊建文

2014 年，國家啟動新一輪高考綜合改革，上海、浙江成為首批試點省市；2017 年，北京、天津、山東、海南四省市成為第二批試點；2018 年，高考綜合改革由試點進入全面推進階段。為保障高中學業水平考試（以下簡稱“學考”）順利實施，對學考命題相關問題進行深入研究具有重要意義。以往命題研究更多的從科學性、選擇性方面進行研究。新高考背景下，隨著考試模式的重大變化，學考命題的公平性與適應性成為影響學考改革與推進的主要問題。課題組對學考命題公平性與適應性進行深入研究，為后續合理、規范、科學推進學考命題改革構建理論基礎和標準依據奠定基礎。

一、學考命題公平性與適應性的內涵

實施新高考改革的核心目標在于培養、選拔適應經濟社會發展需要的人才，促進學生全面而有個性的發展，促進素質教育的深入實施，逐漸改變“一考定終身”“唯分數論”等弊端。在國際課程改革背景下，我國也正積極探索基于核心素養培養的課程改革，旨在實現立德樹人的教育根本任務，新高考方案與新課程標準構成新課程改革的核心內容，兩者目標一致，相互關聯，共同促進新課程改革順利實施。學考的價值在于促進全體學生“在共同基礎上的個性化發展”[1]，命題是學考的核心環節，不僅決定試題質量，也決定著學考功能的實現。

公平作為一種價值觀，反映了人們從某種特定的標準出發，在主觀上對“應得”與“實得”是否相符的一種評價和體驗。關于公平有許多觀點和學說，有的甚至針鋒相對，但不管哪家學說，都將機會均等作為公平的基石或核心，這是無異議的。盡管命題公平性在教育理論和實踐研究中都很重要，但至今學界仍沒有對該概念進行準確界定。在本研究中，為方便后續研究有序開展，將學考命題的公平性界定為：能促使參與學考的考生的能力、素養等在學考測評中得到盡可能公平的評價依據或準則。

1994 年，美國教育研究協會（AERA）、美國心理學協會(APA）和美國國家教育測量協會(NCME）在整合幾個測試指導文件的基礎上形成了《教育和心理測試標準》（Standards for Educational and Psychological Testing）（以下簡稱《標準》），該標準是美國測試界對測試應遵循的準則所形成的共識，盡管不具有法律的強制性，但對本領域的各項操作極具規范作用[2]。該《標準》2014 年版的修訂版中，將公平問題放在與效度、信度同一層次來討論，其中公平性包含21 個條目[3]。ETS 是全球最大規模、也是公認最專業的考試機構。該機構命題標準中，明確提出并規定了ETS 提供的測驗或產品的相關文檔中必須包括有關公平性的描述，并且必須包含規定的信息，同時強調復審、修訂以及證據的收集，以及實證方法對公平性的評估[4]。多年來，中國的教育考試領域一直在不斷進行著確保考試公平性的實踐[5]。已有研究大多集中在高考公平性，命題公平性主要從定性的角度進行分析，極少有定量的分析[6-15]，對于命題公平問題的標準化研究還有待加強，從而保障學考改革的順利推進。

適應性一詞源于生物學領域，是一個生態學術語，指通過生物的遺傳組成，賦予某種生物的生存潛力。隨后適應性一詞廣泛應用于其他領域，其意義也得到了拓展，如借助對模型的適應性定義“某個模型應對它所對應的實踐場合變化的能力，當實際問題發生波動時，模型是否仍然成立”。本研究將學考命題適應性定義為：高考方案發生變化時，學考命題為適應變化需求所作出的適應性調整的能力。

國內外對命題適應性的研究極少，我國的歷次高考改革的實施皆與相應政策、實施對象等具有高度相關性，當前高考方案發生較大變化，為適應新高考方案，在學考命題方面應積極研究應變方法和路徑，以保障高考順利實現其改革目標。因此，將學考命題的適應性研究作為保障高考改革穩步推進的核心問題進行研究，在適應性研究中可將新、舊高考方案中與學考命題相關因素的變化，作為學考命題適應性研究重點，從變化中找尋適應性研究的關鍵研究點。

二、影響學考命題公平性與適應性的因素分析及指標體系的構建

學考命題公平性與適應性指標體系是指一系列具體化、可測量的指標綜合體，是對學考命題公平性與適應性進行評價、判定的依據。課題組在設計指標體系時，堅持全面性、可測性等原則，做到既能夠比較有效地評價學考命題公平性與適應性，又能通過評價初步診斷改進命題不足之處，盡可能使各項指標的表述簡單明了，便于進行定量評價和反思改進。為此，課題組專家對學考命題公平性與適應性指標體系進行了認真探討，分析確定各級指標。這一指標體系是按照評價對象的邏輯結構排列組合成的有機整體，比較全面、系統地反映了學考命題公平性與適應性的整體情況，并具有可操作性。本研究的公平性研究從“學考命題組織與管理”“學考命題資源”“學考命制試題質量”“命題試題的橫縱向差異”四個維度構建；適應性研究從“命題團隊”“命制試題”兩個維度構建。經專家篩選，確定了16 個二級指標和26個三級指標（觀察點），它們之間呈逐級分解和細化的關系。其中，一級指標和二級指標比較抽象和概括，基于歸類統計的需要進行提煉，不能直接用于測評；三級指標是具體可測、具有行為特征的用于評價的觀測基點（見表1）。

本研究以三級指標為基點設計了若干個觀測點，設計若干題目，形成一套社會調查問卷（共設計27 道題目，其中第27 題為開放性題目），選取命題專家進行民意測評，回收有效問卷91 份。調查問卷中選擇題采用李克特5 級量表，分數越高表示受訪對象對該題項所描述內容越認同。開放性問答題主要用于征集信息，完善指標體系①為最大程度降低專家測評的主觀性，本研究采用德爾菲法，經過反復征詢、歸納、修改，最后匯總成基本一致的專家看法。但在測評計分過程中，都以匿名的方式進行。。為了使統計評分簡便易行，所有評分及等級確定只計到二級指標，三級指標及其每項指標所涉及的多項測量項目都取平均值。在分值權重設計上，按專家問卷反饋信息整合指標得分。對于各級指標的分數整合，根據德爾菲法以經驗性判斷作為權重計算的基礎，經專家論證和調查問卷，進行權重設計（見表2）。

表1 學考命題公平性與適應性指標體系

表2 學考公平性與適應性指標體系權重一覽表

此次課題組對學考命題公平性與適應性指標體系的構建只是一次實驗和探索，力求在學考公平性與適應性量化評價方面邁出第一步。要實現真正意義上的學考命題公平性與適應性評價，需要全社會的廣泛參與和專業化的科學測評研究，許多方面還有待進一步完善。首先，明確所設計的這一套指標體系是否科學，包括能否全面涵蓋學考命題的公平性與適應性的影響因素，問卷的設計能否如實促進受訪對象對學考命題公平性與適應性的真實評價等，這些問題都值得進一步研究論證。第二，本研究設定的量表所測試的人群都是與高考相關的利益群體，盡可能考慮到樣本的代表性，但由于人力物力有限，涉及人群還不夠廣泛，抽取樣本的合理性有待商榷[16]。因此，后期可通過與有關專家聯合進行理論研究和技術研發，進一步完善指標體系；在實際命題中對評價結果進行跟蹤比較研究，對靜態指標和動態指標的變化進行深入分析，在實踐中積累命題組織與管理經驗，促進學考命題科學發展。

三、完善學考命題公平性與適應性的有效路徑

對學考命題公平性與適應性進行研究，可參考以往理綜卷和會考命題過程中積累的經驗。在新高考背景下進行學考命題時，除須保留原有命題優秀特質外，還需對命題作出適應性調整。

第一，深化學考命題與新課程標準要求、新高考方案的適應性研究。命題者應牢牢把握學業水平合格性與選擇性考試“一體四層四翼”的考核目標，開展基于學科核心素養的學業質量標準的命題研究，努力提高命題質量。依據學業水平合格性考試和選擇性考試的性質、特點及考試的功能定位，結合實際，開展試題命題研究。充分考慮命題的延續性和繼承性，盡量減少考試帶來的波動[17]。建構以學科核心素養為導向的命題框架，準確理解學科核心素養內涵、具體表現以及水平描述，并與學科學業質量標準建立聯系，以相應水平的質量標準確立試題的測試目標，以實際問題為測試任務，以真實情境為測試載體，以學科觀念、學科思維等作為解決問題的工具，實現學科教育立德樹人的根本任務。試題建構基于學科學考核心素養試題特征的命題模式，試題特征體現為試題容量、題型結構、信息量呈現、新信息融合、STSE 鏈接、核心主題、知識要求、考查層次、學科思想等多方面的綜合特征[18]。

以物理學科的學考命題為例，應積極研究如何在試題命制時體現對立德樹人教育根本任務落實的導向性。這要求試題命制時不僅要從傳統重視 “雙基”考查逐漸轉向重視“學科核心素養”的考查，還要體現出對學生學科“德育”目標的考核，以體現對立德樹人的課程價值觀的評價。物理學科是自然學科之一，德育目標的考核須借助實際問題情境，通過實際問題的解決，間接考查學生是否具備科學的態度和價值觀。其中物理學科的科學態度主要表現為：（1）客觀的態度。表現為主動聯系生產生活實際，尊重現象的科學本質，秉承實事求是的態度；（2）批判性思考。如正確看待不同時期科學家研究的價值和局限性，再如正確看待知識應用的雙面性（如電磁原理應用帶來的科技進步及電磁污染的危害）；（3）基于證據對問題進行評估、論證或質疑。（4）積極的科學品質。如具有好奇心、誠實、嚴謹、具有包容性等。社會責任或科學價值觀主要包括：（1）關注科技發展，對“科學·技術·社會·環境”（STSE）關系的正確理解；（2）正確的知識應用觀。如知識用于促進個體科學素養的提高或用于促進社會科技的發展等。上述科學態度或價值觀多以隱性的方式融入到試題的命制中，應積極研究如何在學科學考命題中落實對“德”與“智”的全面評價，促進學科命題的適應性轉變。

第二，深入研究先行試點已有學考命題經驗。如將試點省份的高中學考科目的合格性考、選擇性考與以往高考試題進行比較，從3 類考試在學科中的內涵功能、命題內容及能力要求等方面進行了對比[19]，深化對學考命題的認識和理解。借鑒上海、浙江等試點省市對學考命題的研究，高中學業水平考試在學業水平測評與區分、選拔之間找到一個合適的平衡點。例如，如何設定試卷的難度？根據測量學、考試學的理論原理，水平考試與選拔考試定位與功能不同，在難度值設定上差別較大，如以物理學科為例，專家研究認為，選擇性考試與合格性考試的難度設計應具有一定的、合適的差距，選擇性考試難度值設定在0.55左右，合格性考試難度設定在0.75 左右。而試卷難度值會受到考生群體的實際水平影響，如選考物理的學生的認知水平較高，若未對考生群體實際水平有較為深入的了解，可能會導致預設難度與實際測試難度偏差較大，從而導致命題不公平等問題。再如命題時如何整合試卷的能力、學科核心素養要求？兼顧水平考試和選拔考試的定位與功能考量，滿足“等級賦分”的改革。通過比較研究先行試點的命題經驗，秉承“穩健推進”“穩妥過渡”的思路，“穩中求新”[20]。

第三，對學考試題質量建立評價與預評價機制。如試題各項參數是否符合要求，可與有關專家聯合進行理論研究和技術研發的攻關，進一步完善指標體系。通過基于數據的證據收集，用合理的方法，給出能證明考試公平性的證據評估。例如，在考試內容方面，必須證明考試沒有偏倚（Test Bias），考試偏倚多數是通過DIF（題目功能差異）研究來完成的，如試題命制是否存在地域差異，可進行發達地區與偏遠地區的樣本對比分析；在性別差異上可進行男生、女生群體樣本比較分析；在為特殊群體開啟考試便利時，以該指標為判斷依據，通過樣本答題情況分析，判斷各種便利條件的設計和使用是否合理。此外，在基于數據的統計分析中，因素方程、回歸分析等工具都能提供相對直觀的結果，這種結果會使考試的公平性更具有公信力[21]。

試題難度系數可通過預估方式進行調控：一是考試群體能力水平的摸底分析。通過對考生群體特別是選考學科的考生群體結構分布、學習能力狀況的調查與分析，尤其是省一、二、三級重點高中及一般普通高中學生報考各學科的占比，研究與設計各學科命題的總體難度及結構分布。二是命題過程中對試題難度的預估。命題教師必須對每道試題逐一進行預估。浙江省在學科命題方面有如下經驗值得借鑒：一是研發命題輔助系統。通過模塊化和集成化處理，形成涵蓋難度預估、試卷自動生成、計算機輔助磨合等多數據包命題自動化系統，提高學考、選考命題的智能化水平。二是建立命題質量偏差預防和校正機制。在出現命題把握偏差造成原始分數堆積或斷檔，造成既定的等級賦分目標無法實現時，需采取切實有效辦法提高選考試卷的區分度[22]。

第四，探索并完善題庫建設。運用項目反應理論等現代教育測量理論，積極開展學考試卷等值研究和題庫建設，創設學生多次參加水平性考試的條件，保證成績的可比性，維護考試的公平公正[23]。國際上一些著名考試如PISA、雅思、托福、SAT 等，其采用的試題大都經過測試和冷卻過程，并以題庫的方式運行。此外，題庫建設應在保障科學性、公平性的基礎上，做出適應性調整，如學科命題時設置試題學科性、育人價值和測評效能等評價指標，其中學科性包含學科素養的必備知識和關鍵能力；育人價值表現為以“立德樹人”為中心，促進學生科學價值觀和社會責任感的發展；測評效能對應試題難度、區分度和信度等指標[24]，其中學科性、育人價值等均是適應新高考改革理念做出的調整。

在試卷命制層面，可運用認知任務分析（Cognitive Task Analysis）。通過研究題目自身結構特點，如題目的要素數量、要素辨識難度、原理數量、原理辨識難度和認知負荷等，借鑒SOLO（Srtucture of the Observed Learning Outcome，SOLO）分類的成果，將試題的問題結構由簡單到復雜劃分為前結構（Prestructural，PS）、單一結構（Uni-structural，US）、多重結構（Multi-structural，MS）、關聯結構（Relational Structral，RS）及拓展抽象結構（Extended Abstract，EA）等標準結構，以及介于這些標準結構之相鄰結構之間的過渡結構。以題目所蘊含的這些結構來度量題目的難度[25]，作為試題難度評價的參考依據，以提高命題公平性。

第五，做好學考試題反饋信息的收集與跟蹤分析。分析和反饋不同教師或考生對試卷的評價意見，可以加強對命題的反饋與評價；通過訪談調研、試卷評價量表調研和考后對學生學業考試成績的年度分析，以及縱向的年度分析，對比年度間數據，提升試卷命題質量[26]。