周丐曉 劉恩山 黃 瑄
(1 溫州大學生命與環境科學學院 浙江溫州 325035 2 北京師范大學生命科學學院 北京 100875)
當前世界各國均從國家戰略的高度,將教育質量提升作為國家發展的重要目標和推動力。作為教育質量的核心指標,學生的學業質量的監測和評估,可為教育改革和決策提供重要參考。越來越多的國家將開展學生學業質量監測,作為教育質量提升的重要途徑,為政府教育決策、國家教育管理和學校教育診斷和改進提供實證支持。通常學業質量監測包括框架設計、工具研發、試點實驗、正式測試、結果反饋等若干環節,其中最為關鍵的是開發高信效度的測評工具,在此基礎之上獲得的診斷信息才有參考價值。而當前關于學業質量測評工具的開發仍存在諸多困難,如何科學評價監測工具的質量是其中亟待攻克的重點難關,理解開展學業質量測評研究的重要意義、學業質量監測工具開發中存在的挑戰,以及如何評價監測工具的質量,將有效提高學業質量監測工具的信效度,為進一步提高學業質量監測結果的科學性及有效性奠定良好基礎。
當前建設和完善教育質量監測評估體系已成為國際教育改革的一大趨勢,開展學業質量測評研究是完善教育質量監測評估體系的有效措施。學業質量測評研究可為國家或區域教育質量的提升和改進提供客觀的坐標定位和有效的參考依據,學業質量的監測結果可在一定程度上反映當地教育質量的水平,客觀評估當前教育發展的優勢和不足,為下一步進行教育改進和提升提供有效的反饋建議和努力方向。
1.1 完善教育質量監測評估體系已成為教育改革的迫切需求和重點議題 長期以來,由于缺乏客觀準確衡量學校教育質量的標準和數據支持,我國以升學率和考試成績片面評價教育質量的做法屢見不鮮,這已成為制約教育質量評價發展的一大瓶頸,也影響了學校教育質量的提高和改進。為此,建立和完善國家義務教育質量監測評估體系,有效診斷和客觀評價我國教育質量現狀,為教育部門科學決策和有效管理提供依據被提到了議事日程。2010年我國頒布了《國家中長期教育改革和發展規劃綱要(2010—2020年)》,明確指出“要建立教育質量監測、評估體系,整合國家教育質量監測評估機構及資源,完善監測評估體系,定期發布監測評估報告”[1]。開展教育質量監測研究,對教育質量進行科學、全面、有效的評價,為教育改革和發展提供咨詢和論證,提高重大教育決策的科學性和有效性,已成為實現我國基礎教育科學發展、內涵發展的重大舉措和戰略任務。
1.2 開展學業質量測評研究是完善教育質量監測評估體系的有效途徑 學生學業質量的水平是衡量一個國家教育質量的重要標準之一,同時也是教育改革的核心議題,開展學業質量測評研究已成為世界各國提升教育質量的重要措施。縱觀當前國際教育改革發展趨勢,為提升和改進國家和地區的教育質量,眾多教育發達國家和組織,嘗試通過開展學生學業質量測評項目獲悉學生的學業現狀和影響因素,影響較為廣泛的包括PISA、TIMSS 和NAEP 等,以國際或區域教育發展狀況為標準坐標尺,對比分析本國的優勢和不足,從而為教育質量提升和政府教育決策提供論據和支持。我國也認識到開展學業質量測評工作的迫切性和重要性,教育部在2014年的工作要點中明確指出“開展義務教育階段學生學業質量監測,研究制定中小學各學科學業質量標準”。為落實這一工作,教育部隨后制定了《國家義務教育質量監測方案》,從2015年起在全國開展義務教育質量監測工作[2]。
開展學業質量監測的研究是改進和提升教育質量的重要措施,其中客觀且準確診斷教育質量現狀,才可為教育質量的改進提升提供有效的靶向和指導。這一目標的實現有賴于研發科學有效的測試工具,測試工具的質量直接影響診斷的結果及其教育決策價值。但由于我國教育測量理論和技術的相關研究仍處于起步階段,當前在工具質量分析的過程中存在諸多問題和挑戰,主要表現在以下3 個方面。
2.1 統計學指標的濫用和不恰解讀,數據分析缺乏連貫一致的頂層設計 在實際分析中有一誤區,研究者容易盲目追逐統計指標的新意和數量,認為用盡可能多的較為高級的數據統計指標,便可為質量分析提供更為科學的論證和論據。然而統計學指標的應用一般需考慮測驗的具體情境,根據測試的要求選擇適宜的指標,才可獲得有價值的測試信息和對數據的正確解讀。例如在SPSS中做因子分析時,需先做KMO 檢驗和Bartlett 球度檢驗,通過對原有變量間相關性的檢驗,判斷變量是否適合做因子分析,只有二者均符合要求時,因子分析的統計學指標才具有參考價值。
除了統計學指標的濫用和不恰解讀,另一常見問題是研究者傾向于碎片化的數據分析,數據分析方案缺乏連貫一致的頂層設計。連貫一致的頂層設計要求統籌考慮工具分析的各要素和測驗情境,工具質量的分析需要系統性而非碎片化的指標解讀。碎片化的分析猶如管中窺豹,不能得其全貌,常導致分析指標間功能重疊、缺乏邏輯上的連貫一致,難以獲得全面有效的質量分析信息。工具的質量分析實質為一個論證分析過程,是對工具合適性和科學性的邏輯分析和實證分析,對質量分析方案進行頂層設計有助于優化分析方案,從而提高質量分析的效率和科學性。
2.2 測量理論的單一化,難以整合各種理論的優勢進行工具的分析 在測量理論的發展過程中,經典測驗理論(classic test theory,CTT)和項目反應理論(item response theory,IRT)在心理學與教育測量方面發揮了重要作用。當前在學科測試工具質量評估方面,國際主流方向是結合項目反應理論(IRT)和經典測試理論(CTT)綜合分析試題和問卷數據,從而提高工具的科學性和有效性。
然而在實際分析中,我國研究者往往仍選擇CTT 作為工具質量分析的優先選擇,測量理論的單一化使得研究者難以整合各種理論的優勢進行工具的分析。究其原因在于CTT 所涉及的數學模型相對簡單,參數和估算方法易于理解和掌握,對研究者統計學原理知識的掌握程度要求不高。但是CTT 有其理論和方法體系的弱點,例如:項目難度與被試能力互相依賴,各參數受樣本質量的影響;不區分問題重要性,項目均是平行的無重要性的差別;統計量(難度、區分度、誤差等)是籠統的全組被試的平均值,因此CTT 的信度僅能代表平均測量精確度,信度較低等。項目反應理論克服了CTT 的缺點,相比CTT 易受樣本影響的特點,IRT 中所用的項目參數(例如題目難度、區分度等)是一種不受樣本影響的指標,被試能力與難度參數相互獨立,這些參數的獲得不會因被試樣本的變化而變化,同時對被試能力的估計不會因為試題的不同而不同[3]。其次,它將定序測量轉化為等距測量,將項目難度與被試放在同一量尺上進行測量,便于比較操作。最后,基于IRT 的測量能將誤差具體到個人,更為精確也更能反映客觀的被試情況。因此,充分利用CTT 和IRT 的優勢共同分析工具質量,優劣互補協同并進,可極大提高工具質量分析的科學性和有效性。
2.3 效度的程式化驗證,缺乏實際情境的考量相比信度的檢驗,工具效度的評定更為靈活多變,長期以來一直是教育測評領域的一大難題,研究者對效度的檢驗偏于程式化和單一化,以經驗和主觀因素判定工具的效度,忽略樣本、工具和測試本身的屬性,單純從內容效度的角度進行專家評估以解釋工具的效度,缺乏實際情境的考量。
效度是指根據制定用途支持分數解釋的那些事實和理論的有效程度[4]。效度檢驗強調從多種渠道獲取效度證據,例如基于內容、反應過程、內部結構、與其他變量之間關系、測驗結果等的證據,以驗證測驗目的(理論框架)與從測驗分數或其他評估中獲得的推論之間的一致程度。因此效度的檢驗較為靈活,沒有程式化的模式。把握效度驗證的核心在于用邏輯或實證的方法證明假設,通常可從理論框架是否能解釋評價者在工具上的作答表現,根據理論框架推演有關測驗成績的假設與作答成績的一致程度等方面進行實證檢驗。好的效度論證應考慮實際測驗情境,整合多種論據構建對測試目的達成度的良好論證,而非程式化的效度指標報告。
工具分析是以教育測量理論為基礎,獲得試題及整個測驗的難度、區分度等一系列客觀定量指標,然后再結合命題目的、框架、藍圖、內容效度等資料,實現對于測驗及其題目進行定量與定性分析的系統過程[5]。根據測驗目的及檢驗指標對工具中的試題進行篩選是設計良好工具的重要保障,這一過程的實現主要依賴于以下3 個核心要素:①對測量學指標和方法的深入理解;②測量理論的綜合運用;③各個指標的綜合參考。
3.1 深入理解測量學指標和方法,形成結構良好的頂層設計方案 對測量學指標和方法的深入理解是靈活運用各種統計指標和方法的前提。每種測量學指標和方法有其特殊的內涵、使用條件及情境、樣本要求,例如基于CTT 的量表分析與樣本之間有一定的依賴性。實際選擇哪種指標和統計方法需參考多方面的信息,例如每個變量的類型,連續變量、雙歧變量或順序變量;潛在的分布性質,正態分布還是非正態分布;變量分布特征,線性的還是非線性的;樣本的小大等。而且多數指標和統計方法有特定的適用條件,如若依據試題信息函數驗證試題質量,首先要確定題目特征曲線能與試題相擬合,若擬合度差,則會產生誤導作用[6]。測量方法和指標的選擇決定了工具質量分析的有效性和科學性。
深入理解測量學指標和方法的關鍵在于把握工具質量檢驗的核心本質,其實質在于把握3 個關鍵要素:信度、效度和客觀度。信度的本質在于了解測試結果的一致性和穩定性; 而效度則是為了探查測試的正確性和有效性; 客觀性是為了確定測試工具對不同群體有無偏見。工具質量的檢驗參數也可根據這3 個關鍵要素進行分類,如表1所示,試題信息量分析、信度分析、誤差、評分者一致性分析本質上都是為了提高工具的信度,題總相關、效度分析、擬合度分析、懷特圖、因子載荷和項目特征曲線則是效度檢驗的證據,項目功能檢驗則為工具客觀度的檢驗提供了參考。在此基礎上形成結構良好的頂層設計方案可化繁為簡、精簡指標,有效提高分析的效率和科學性。

表1 工具質量檢驗核心要素的指標分類
3.2 測量理論的綜合運用,達到優劣互補的良好效果 經典測量理論和項目反應理論是當前測驗理論的兩大流派,經典測量理論操作方便、便于理解,但存在樣本依賴、誤差較大等問題,項目反應理論下的指標更為精確、參數之間相互獨立,但不易理解且操作更為復雜、對樣本和測試條件要求較為苛刻,因此兩者各具優勢,可為互補。在工具質量的檢驗中可綜合應用2 種理論,篩選題目提供更多、更為全面的信息。此外,在分析中還可根據具體測試類型及測試特點偏重參考某一測量理論分析結果,例如在做試題質量分析時,CTT 和IRT 參數均能提供較多的有效信息,但若要做跨年度的測試結果分析,則建議重點選用IRT 理論做試題分析,輔助參考CTT 理論的項目分析參數,因為建立在CTT 理論上的數據指標與樣本是相互依賴的,由此測試的結果缺乏穩定性,不利于開展跨年度結果比較的深入研究,而基于IRT 理論分析的量表可通過設置鏈接題對跨年度的數據進行追蹤研究。此外,在做問卷質量分析時,基于IRT 理論的數據分析在效度的驗證方面可提供更多的方法和參數,為問卷的信效度提供更多客觀有效的信息,因此,問卷分析可更多參考IRT 參數以提高問卷質量。
3.3 各個指標的綜合參考,充分考慮測驗本身的特征和情境 在工具質量的檢驗中,需注意綜合參考各個指標。通常工具質量檢驗的指標如表2所示,參考時應根據測試目的、試題類型、樣本情況等選取分析指標及決定指標參照的優先次序,例如在選擇信度指標時,若涉及主觀題的等級評分情況,則需考慮評分者一致性信度,若只有客觀題則無需參考評分者的一致性。此外,某些指標的取值范圍可有一定的浮動,例如項目擬合度(MNSQ)的取值范圍與測試的要求有很大關系,若是高利害測試,取值范圍較為嚴格,一般要求在0.7~1.3 之間,若非高利害測試,在0.5~1.5 之間也為可接受水平,工具開發者需根據被試情況及測試要求等實際情況選取適當的取值范圍。另一方面,數據的解讀也需參考具體的測試背景,例如很多指標與樣本量有關,擬合度檢驗中近似誤差均方根(RMESA)的大小就與樣本量有關,當抽樣較大時RMESA 值可能會偏高,因此,當數據結果不夠理想可結合樣本情況做具體分析,指標的解讀不能教條地看數據,還需綜合各個指標才能判斷測試結果的信效度。

表2 工具質量檢驗的常用指標
在對工具質量的檢驗分析時,深入理解各種測量學指標和方法,是靈活運用各種統計指標和方法的前提,在此基礎之上需綜合運用CTT 和IRT 測量理論,根據實際情況靈活選取分析指標,采用多種測量學指標和數據分析方法,以全面考察工具的質量,確保工具的科學性和有效性,才能為教育研究與實踐提供客觀準確的數據結果,進一步提高教育研究與實踐的質量。與此同時,還需指出的是統計指標是試題修改的輔助工具,研究者除了綜合參考各種統計指標外,試題的修改及刪除與否還需參考試題設計的理論框架和測試藍圖等,結合測試目的才能最終確定試題的修改方向。工具質量評估的過程是一個不斷尋找證據支持論證工具信效度和客觀性的過程,除了側重量化分析的測量學指標的運用,還需特別注意參照工具開發的測試目的及理論框架,這些均能為工具質量評估提供重要的證據支持,因此,要充分重視并綜合運用這些信息,促進高質量工具的開發。