課程標準與評價一致性實證研究的文獻評論

2018-04-12 06:46:04丁巧燕曾家延

現(xiàn)代基礎(chǔ)教育研究 2018年1期

丁巧燕，曾家延，2

(1.浙江師范大學外國語學院，浙江金華 321004；2.上海外國語大學外國語言文學博士后流動站，上海 200083)

曾家延，浙江師范大學外國語學院講師，博士，上海外國語大學外國語言文學博士后，主要從事課程實施與評估、語言教育政策研究。

我國推行基于標準的新課程改革已近17年，2001年頒布的《基礎(chǔ)教育課程改革綱要(試行)》，標志著我國進入新課程改革階段。《基礎(chǔ)教育課程改革綱要(試行)》中規(guī)定：“國家課程標準是教材編寫、教學、評估和考試命題的依據(jù)，是國家管理和評價課程的基礎(chǔ)。”[1]因此，課程標準、課堂教學和學業(yè)評價應(yīng)該保持一致。三者的協(xié)調(diào)一致有利于達成教學目標，發(fā)展學生學業(yè)成就，取得新課程改革的成果。其中，課程標準與評價的一致性是當前基于標準改革的重要主題。[2]博拉(Bhola)等人將這種“一致性”定義為特定學科內(nèi)容標準與學生學業(yè)成就評價的匹配程度。[3]內(nèi)容標準規(guī)定了各年級學生需要掌握的知識和技能。評價就是利用測試或其他方式來收集信息以推測學生對課程標準內(nèi)容的掌握程度的過程，“一致性”是課程標準與評價的一種關(guān)系品質(zhì)。[4]

為了支持基于標準的課程實施，我們需要開發(fā)基于標準的評價。課程標準與評價一致性對社會、教學和測試效度有著重要意義。測試結(jié)果主要衡量學生是否達到國家規(guī)定的學習要求，在一些國家和地區(qū)，大型統(tǒng)一測試的結(jié)果，比如中考成績，是學生能否畢業(yè)和繼續(xù)升學的重要依據(jù)。有些學校根據(jù)測試內(nèi)容來制訂教學內(nèi)容，同時向公眾、政策制定者、教育者、家長和學生提供學生學業(yè)成就的信息，以測量教育改革的成效并指明改進的方向。[2]因此，若測試內(nèi)容效度缺失，就不能對學生學習成就、教師和學校教學成就做出客觀公正的評價。為了保證測試的有效性和公平性，使測試成為衡量學生成就的有效指標，必須要實現(xiàn)課程標準與評價的一致性。課程標準與評價一致性，有利于全面落實課程標準、深化教學改革、提高測試質(zhì)量和公平性。我國在課程標準與評價一致性方面還存在一些問題。有學者檢測了江蘇省物理課程標準與該省物理會考的一致性程度，研究結(jié)果顯示一致性程度較低，與課程標準相比，物理會考試卷在內(nèi)容主題和認知水平的側(cè)重上均有一定程度的偏差。[5]為了提高課程實施的品質(zhì)，落實課程標準中的課程目標，我國需要進一步開展課程標準與評價一致性的研究。

一、文獻檢索和篩選

1.文獻檢索和篩選

基于標準的一致性研究以西方國家為主，因此，為了更好地了解課程標準與評價一致性的研究現(xiàn)狀，有必要對國外關(guān)于標準與評價一致性研究的文獻進行梳理。國外表述基于標準的一致性研究的詞語較多，本文選用“Alignment Standards”“Aligning Standards”和“Agreement Standards”為搜索詞，在“EBSCO”“SAGE”和“JSTOR”數(shù)據(jù)庫中選中1992—2016年11月的文獻。(1)經(jīng)過檢索EBSCO，發(fā)現(xiàn)有839篇文獻，然后選擇有全文和學術(shù)(同行評審)期刊標識的選項，剩下236篇文獻。(2)“JSTOR”可下載的有319篇文章。(3)“SAGE”中有409篇文章。共計946篇。本研究主題是課程標準與評價一致性研究，文獻中很大一部分(805篇)是關(guān)于標準與課堂教學、標準與教科書、標準與教師專業(yè)發(fā)展一致性及非教育領(lǐng)域的研究，因此排除掉這些方面的文獻后，只剩下159篇文獻。我們對這159篇文獻做了進一步篩選，篩選標準如下：第一，標準與評價一致性實證研究的文獻優(yōu)先；第二，涉及標準與評價一致性分析方法的文獻優(yōu)先。經(jīng)過上述步驟的篩選，最后只剩下37篇文獻。通過對這37篇文獻進行逐一閱讀，發(fā)現(xiàn)有13篇文獻與本研究主題密切相關(guān)，因此本研究主要以這13篇文獻為分析基礎(chǔ)。

2.文獻檢索結(jié)果

根據(jù)文獻檢索和篩選結(jié)果，這一部分將具有代表性的實證研究文獻呈現(xiàn)出來。基于作者、研究工具、研究對象、研究問題和研究結(jié)果這幾個重要維度，將課程標準與評價一致性的實證研究逐一刻畫，為進一步分析和比較一致性的分析方法提供了文獻基礎(chǔ)。

二、課程標準與評價一致性分析模式

世界上一些國家采用基于標準的一致性分析模式已經(jīng)長達20余年。[6]我們要想判斷課程標準與評價一致性的程度，就需要開發(fā)系統(tǒng)的一致性分析工具。國外已經(jīng)研發(fā)了多個系統(tǒng)規(guī)范的一致性分析工具，最具代表性的三種一致性分析模式是韋伯一致性模式(Webb，以下簡稱韋伯模式)、成功分析模式(Achieve)和課程實施調(diào)查模式(Survey of Enacted Curriculum)。

1.韋伯一致性分析模式

韋伯模式[7]由美國學者韋伯在1997年開發(fā)，是最早的一致性研究工具。韋伯模式從四個分析維度進行分析，分別為知識種類一致性(Categorical Concurrence)、知識深度一致性(Depth of Knowledge)、知識廣度一致性(Range of Knowledge Correspondence)和知識分布平衡性(Balance of Representation)。韋伯一致性分析模式一般選取3～10位評估者，評估者首先根據(jù)認知要求對標準和評價項目進行編碼，然后將評價項目與標準中的目標進行匹配，每個評價項目最多對應(yīng)三個目標。這是進行知識種類一致性、知識深度一致性、知識范圍一致性分析的基礎(chǔ)。對標準中的目標進行認知水平評定時，評估者要達成共識。為了提高研究過程的信度，評估者要接受培訓，熟悉課程標準、測試以及整個編碼過程。

(1)知識種類一致性。即評價與標準內(nèi)容主題間的匹配程度，主要看評價與課程標準兩者是否包含了相同或一致的內(nèi)容范疇。某個標準的知識種類一致性主要取決于標準下的目標相對應(yīng)的評價項目的數(shù)量，取不同評估者的平均數(shù)。可接受的知識種類一致性水平為每個標準至少有6個相對應(yīng)的評價項目。

(2)知識深度一致性。即學業(yè)成就評價項目對學生認知水平的要求，是否與課程標準對學生學習目標的期望保持一致。如果至少50%的評價項目與對應(yīng)的目標有著相同或更高的認知要求，則為可接受的一致性；如果在40%～50%之間則表明一致性弱，低于40%則表明評價與課程標準不一致。認知水平主要分為以下四類：第一，回憶(Recall)。學生只需識記或者記住答案，在回答問題時不需要進行推理，只需回憶信息，比如事實、定義、術(shù)語或者簡單的步驟。第二，技能和概念(Skills and Concepts)。學生需要進行一些心理活動，不再是習慣性的反應(yīng)。這個過程需要學生思考如何回答一個題目，解決一個問題，如歸類、組織、估計等。第三，策略性思考(Strategic Thinking)。學生需要更復雜的認知過程，包含推理、計劃、使用證據(jù)。回答問題時，學生需要完成多個步驟，驗證答案；通過觀察得出結(jié)論，解釋現(xiàn)象。第四，拓展性思維(Extended Thinking)。學生需要在思想和觀念之間建立聯(lián)系，從多種方法中選出解決問題的方法，或者應(yīng)用其他領(lǐng)域的實驗結(jié)果。完成這一認知水平的活動一般需要較長的時間。

(3)知識廣度一致性。基于某一標準的知識廣度，指的是學生為了準確地回答評價項目所需要的知識范圍，主要取決于標準中有對應(yīng)的評價項目目標的數(shù)量。如果某個標準中至少50%的目標有一個或一個以上的評價項目，則是可接受的一致性，40%～50%則表明一致性弱，低于40%則表明不一致。該維度只考慮至少有一個對應(yīng)的評價項目的內(nèi)容目標的數(shù)量，不考慮內(nèi)容標準被考查的頻率。[8]

(4)知識分布平衡性。即測試中的評價項目是否較好地體現(xiàn)課程標準中的重點內(nèi)容。如果課程標準中各個內(nèi)容之間沒有優(yōu)先性，那么各個內(nèi)容在評價中都要有相應(yīng)的體現(xiàn)。韋伯模式用一個平衡指標來判斷評價項目的分布情況，這個指標只考慮那些有對應(yīng)的評價項目的目標，通過考慮目標的比例和考查該目標的評價項目的比例來計算指標。

2.成功分析模式

成功分析模式[4]是由美國非營利教育測評服務(wù)機構(gòu)——成功公司在1998年提出的。它是為了解決以下幾個問題而構(gòu)建的一致性研究方法：第一，每項學業(yè)評價只考查課程標準中要求的內(nèi)容嗎？第二，每項學業(yè)評價都公正有效地考查標準中的重要知識和技能了嗎？第三，學業(yè)評價項目對學生有足夠的挑戰(zhàn)性嗎？成功分析模式一致性的基本框架主要從“內(nèi)容集中度、表現(xiàn)集中度、挑戰(zhàn)、平衡和范圍”四個維度來判斷課程標準與評價的一致性，每個維度相應(yīng)設(shè)置多個匹配程度等級。

(1)內(nèi)容集中度(Content Centrality)。該維度檢測每個測試題目與標準內(nèi)容上的匹配程度，評估者檢測每個評價項目是否考查了標準中規(guī)定的內(nèi)容。匹配程度從“明顯一致”到“不一致”分為四個等級。

(2)表現(xiàn)集中度(Performance Centrality)。即評價項目要求的認知深度與標準期望學生達到的要求的一致性程度。每一個評價項目都有一個認知要求(比如選擇、識記、比較、分析等)。匹配程度也從“明顯一致”到“不一致”分為三個等級。

(3)挑戰(zhàn)(Challenge)。該維度回答了“要想在測試中取得好成績，是否需要掌握具有挑戰(zhàn)性的學科知識”這一問題。評估者從兩個方面進行評估：挑戰(zhàn)的來源(Source of Challenge)和挑戰(zhàn)的水平(Level of Challenge)。第一，挑戰(zhàn)的來源。即評價項目具有挑戰(zhàn)性，是否是因為指向于與本學科無關(guān)的知識和技能，比如有些題目的回答需要考生應(yīng)用到背景知識。挑戰(zhàn)的來源分為合適和不合適兩個等級。第二，挑戰(zhàn)的水平。即把評價項目的認知要求與標準中規(guī)定的認知要求進行比較，評估者判斷評價項目的難度是否適合特定年級的學生。評估者需要對每個項目的挑戰(zhàn)水平進行總結(jié)。

(4)平衡和范圍(Balance and Range)。“平衡”指標主要指各內(nèi)容標準得到反映的程度。測試中不能考查標準中所有的知識點，很大程度上要對知識點進行抽樣。覆蓋的目標范圍不能局限于小部分的目標，而是要盡可能涉及各類目標。評估者也要判斷測試是否更重視特定年級較重要的內(nèi)容。“范圍”指標主要說明測試內(nèi)容對標準內(nèi)容的覆蓋程度。

成功分析模式中，應(yīng)先用“定錨項目”對評估者進行培訓，讓他們熟悉每個評估階段、步驟和維度。然后將該模式應(yīng)用于已分析過的測試中，來檢測評估者對該模式的理解程度，最后正式分析課程標準與測試的內(nèi)容。成功分析模式分為兩個階段：第一階段判斷單個測試項目與標準的一致性，從內(nèi)容集中度、表現(xiàn)集中度和挑戰(zhàn)來源三個方面進行分析；第二個階段判斷測試整體與標準的一致性，從范圍、均衡和挑戰(zhàn)水平三個方面進行分析。單個測試項目和測試整體與標準的一致性程度可能會存在較大的差異。雷斯尼克(Resnick)采用成功分析模式，選取美國5個州來檢測標準與測試一致性程度，研究結(jié)果表明，單個評價項目與標準的一致性程度較高，但從測試整體上看一致性程度低，測試內(nèi)容覆蓋率不高，平衡度低，認知水平不符合標準規(guī)定的要求。[4]

3.課程實施調(diào)查模式

課程實施調(diào)查模式[9]由波特(Porter)于2001年開發(fā)。其首先把課程標準和測試項目按“認知水平”和“內(nèi)容主題”兩個維度歸入兩個相同結(jié)構(gòu)的表格，一個表格為課程標準，另一個表格為測試。認知水平一般采用布盧姆(B.S. Bloom)的認知目標分類修訂版，一共為六種認知水平，分別為記憶(Remember)、理解(Understand)、應(yīng)用(Apply)、分析(Analyze)、評估(Evaluate)和創(chuàng)造(Create)。[10]然后根據(jù)課程標準與測試題目中的“行為動詞”來確定對應(yīng)的認知水平。如果某個目標或者題目中有兩個或兩個以上的“行為動詞”，對應(yīng)兩個或兩個以上的認知水平，則取最高的認知水平。不同課程標準或不同學科的內(nèi)容主題分類不同。表格中單元格的數(shù)量由認知水平和內(nèi)容主題的數(shù)量來決定。比如認知水平為六個，內(nèi)容主題分為五類，那么表格中就有30個單元格。課程標準的表格中，單元格的數(shù)值指同時對應(yīng)某個認知水平和內(nèi)容主題的目標數(shù)量；測試的表格中，單元格的數(shù)值指同時對應(yīng)某個認知水平和內(nèi)容主題的評價項目的分數(shù)總和。為了便于兩個表格的比較，所有單元格值都要進行標準化處理，轉(zhuǎn)成總和為1的比率，形成兩個比率表。然后再利用一致性分析公式來計算標準與評價的一致性指標。波特一致性分析公式為：

公式中“n”代表表格中單元格的總數(shù)，“i”的范圍從“1”到“n”。“Xi”和“Yi”分別代表兩個歸一化表格中對應(yīng)的比率值。“︱Xi-Yi︱”表示兩個表格中對應(yīng)的單元格的數(shù)值差。一致性指標的取值范圍從“0”到“1”，其中“0”表示課程標準和測試完全不一致，“1”則代表兩者完全一致。通過公式，任意兩個相同結(jié)構(gòu)的表格都能計算出一個一致性指標，因此我們需要規(guī)定可接受的一致性指標。但是波特沒有明確規(guī)定可接受的一致性指標，其他學者對此有不同的解釋。恩邁(Emine)指出，以往的研究將波特一致性指標0.50左右算為“中等一致性”，高于0.60認為是“高一致性”。[6]有學者提出，在微軟VBA(Visual Basic for Application)中計算隨機分布的100分制的課程標準和測試兩個表格的一致性指標，多次重復，得出0.780的一致性指標為“可接受的一致性”，用電子表格來計算所有的數(shù)據(jù)，那么0.780是一致性指標的臨界值。[5]富爾麥(Fulmer)指出，一致性指標的臨界值由表格中的單元格數(shù)量和標準分決定。不同的單元格數(shù)量和標準分會有不同的一致性指標臨界值。比如20個單元格30標準分的一致性指標臨界值為0.8674。[11]將計算所得的P值和臨界值進行比較，可以大致了解課程標準和測試一致性程度的高低。

課程實施調(diào)查模式一般需要兩位或以上具有特定學科背景的編碼者。他們先單獨對課程標準和測試進行編碼，然后再進行信度檢測，計算組內(nèi)相關(guān)系數(shù)。如果信度較高，則兩位評估者一起對課程標準與測試進行編碼，意見不一致時可討論協(xié)商以達成共識，或者咨詢第三位專家，得出最后的結(jié)果。

課程實施調(diào)查模式既可以評估課程標準與評價的整體一致性，也可以比較標準與評價在內(nèi)容主題和認知水平上的側(cè)重點和差異，還可以分析課程標準中“考查過多”和“考查過少”的內(nèi)容和認知要求。比如肯帝諾(Contino)檢測了紐約州“地球科學”課程標準與該州高中會考測試卷的一致性，研究結(jié)果發(fā)現(xiàn)：兩者在內(nèi)容側(cè)重點上相似，但是在認知水平上有所偏差，課程標準側(cè)重“理解”“應(yīng)用”和“評估”這三種認知水平，而會考測試卷側(cè)重“記憶”“理解”和“應(yīng)用”這三種認知水平。[12]

課程實施調(diào)查模式的結(jié)果除了一致性指標之外，通常采用兩種形式呈現(xiàn)：第一種是圖表，用來描述課程標準與評價或評價之間分別在內(nèi)容領(lǐng)域和認知水平上的差異。第二種是內(nèi)容地圖，使用表面積映射來表示數(shù)據(jù)。內(nèi)容地圖將內(nèi)容主題和認知要求結(jié)合起來比較標準與評價，用不同的顏色代表不同的重要性。研究者能輕松地發(fā)現(xiàn)課程標準與評價一致和不一致的地方。內(nèi)容地圖按照紋理圖可以進一步劃分為粗紋理圖和細紋理圖。粗紋理圖展示全部內(nèi)容主題的內(nèi)容，細紋理圖縮小到某一特定主題的內(nèi)容。以上這兩種方式都能直觀清晰地提供大量描述性信息。

4.三種一致性分析模式的比較

三種一致性分析模式廣泛應(yīng)用于課程標準與評價的一致性研究中，涉及語言藝術(shù)、數(shù)學、社會研究和科學等學科。三種分析模式都需要評估者進行編碼。為了保證評估過程的信度，一般需要多名教學和評估經(jīng)驗豐富的評估者參與編碼過程。而且還需要對評估者進行培訓，使其了解評估過程的每個步驟和階段，熟悉所要檢測的課程標準和測試的內(nèi)容和特點。評估者單獨評定后，再進行相關(guān)系數(shù)檢測。

然而，以上三種一致性分析模式的維度不同，復雜程度也不同。不同的分析模式反映課程標準與評價的不同方面的關(guān)系。成功分析模式能從單個測試和整體測試兩個層面分析與課程標準的一致性。課程實施調(diào)查模式從內(nèi)容主題和認知水平兩個維度比較標準與評價的側(cè)重點和異同。韋伯模式有四個維度，能夠更加具體詳細地分析課程標準與評價的關(guān)系。

在三種一致性分析模式中，韋伯一致性分析模式是最早的模式，課程實施調(diào)查模式具有計算簡單的特點，它能采用通用語言框架來描述課程、教學和評價的內(nèi)容，計算所得的一致性指標是一個簡單的數(shù)字，而且還能用圖標清晰地展示兩種教育要素的內(nèi)容。因此課程實施調(diào)查模式可以分析不同教學材料的一致性，包括評價、標準和教科書等，而韋伯模式和成功分析模式一般只能分析課程標準與評價的一致性。

可接受的一致性水平是判斷課程標準與評價一致性程度的必不可少的要素。韋伯模式和課程實施調(diào)查模式都有一致性程度的定量數(shù)據(jù)。韋伯模式每個維度中都包含了一致性的特定水平，這樣有利于評估者判斷課程標準與評價是否達到了充分的一致性。波特在課程實施調(diào)查模式中雖然沒有明確規(guī)定可接受的一致性水平，但有學者對其進行了界定。成功分析模式?jīng)]有確定各維度的可接受的一致性水平，其研究結(jié)果主要是細致的定性描寫，缺少可信度。

表1　三種一致性分析模式的比較

三、啟示與建議

課程標準與評價一致性研究在國內(nèi)已經(jīng)起步，有不少研究成果介紹了一致性研究的理念、模式和應(yīng)用等。本研究是在國內(nèi)已有研究基礎(chǔ)上的進一步綜合和深化。通過分析國外課程標準與評價一致性實證研究的文獻，我們可以從中得出以下幾點啟示：

1.開發(fā)本土化的課程標準與評價一致性分析工具，改進我國課程實施質(zhì)量監(jiān)測

基于標準的學業(yè)成就評價有利于深化新課程改革。當前我國的評價項目與課程標準還存在較大的偏離，不僅無法準確獲取學生成就信息，也不利于教師在教學過程中有效地落實課程標準。我國缺乏定量分析學業(yè)成就評價的分析模式，大部分研究只是在對測試卷進行效度、信度以及區(qū)分度等維度的分析。美國通過一致性分析模式來檢測課程標準與評價的一致性程度，為我國提高基于標準的學業(yè)評價的質(zhì)量，提供了新路徑。鑒于中美兩國教育系統(tǒng)的差異性，美國的一致性分析模式不能完全照搬應(yīng)用于我國的一致性研究中，還需要進行本土化改造。國外已有學者對韋伯分析模式進行修改，羅切(Roach)等人為了檢測學前兒童測試與幼兒園課程標準的一致性水平，剔除了韋伯分析模式中的“擴展性思維”這一認知水平，且只選取了“知識廣度和知識深度一致性”兩個維度進行分析，因為學前教育不涉及“擴展性思維”這一高階認知水平。[13]因此，我國在借鑒國外的一致性分析模式時，需要考慮所分析的課程標準的具體情況。比如我國各學科課程標準中的“認知水平劃分”并沒有與布盧姆的認知分類修改版完全相同，在認知水平的劃分上可以綜合考慮兩者，確定合適的劃分方式。課程標準與評價的一致性是衡量新課程改革成果的重要指標，我國教育研究者需要進一步深入研究，開發(fā)本土化的一致性研究工具。

2.提高一致性分析結(jié)果的信度，提升課程實施監(jiān)測質(zhì)量

三種一致性分析模式都需要評估者進行編碼，因此如何選擇評估者至關(guān)重要，影響著一致性評估結(jié)果的信度。韋伯(Webb)和赫爾曼(Herman)等學者研究發(fā)現(xiàn)，評估者類型、組合形式以及評估者一致性(Rater Agreement)對標準與評價一致性研究結(jié)果有重要的影響。赫爾曼比較了大學教師和高中教師對課程標準與評價項目的編碼結(jié)果，發(fā)現(xiàn)大學教師和高中教師對評價項目的維度和難度有不同的看法：高中教師認為大部分的評價項目是多維的(指一個評價項目對應(yīng)兩個目標)，難度中等；而大學教師認為大部分的評價項目是一維的且難度較低。除此之外，不同的評估者組合也會得到不同的一致性結(jié)果。[2]另一個影響一致性結(jié)果的因素為評估者一致性。韋伯等人研究發(fā)現(xiàn)，考慮評估者一致性會減少歸入分析過程的評價項目的數(shù)量，而且一般會減弱標準與評價的一致性程度，其中韋伯分析模式中“知識種類”和“知識廣度”這兩個維度受到的影響最大。[14]因此我國在開展一致性研究時，為了提高分析結(jié)果的信度，需要選取具有代表性、多樣性的評估者。在其正式進行編碼前，需要接受培訓，熟悉整個一致性分析流程，以提高評估者一致性。在保證一致性分析結(jié)果的信度上，助推課程實施質(zhì)量監(jiān)測往更加精準的方向邁進。

3.修改和完善課程標準,促進課程標準的落實

課程標準是進行有效評價以及檢測標準與評價一致性程度的基礎(chǔ)。上文三種一致性分析模式都需要對標準中的目標進行認知水平界定，一般根據(jù)目標中的“行為動詞”來判定。美國課程標準中除了對教學內(nèi)容進行具體規(guī)定之外，還包括規(guī)定表現(xiàn)性評價標準。表現(xiàn)性標準具體規(guī)定學生學習目標的達成程度，而我國有些學科的課程標準中缺乏表現(xiàn)性評價標準，對學生認知要求的規(guī)定比較籠統(tǒng)、混亂，這樣在分析課程標準與評價的一致性水平時，就增加了評估者的編碼難度，使得評估者難以確定目標的認知要求，從而降低了一致性分析過程的信度。我國應(yīng)完善課程標準，彌補其“缺失表現(xiàn)性評價標準”的不足，制定科學、合理、嚴謹?shù)恼n程標準。這樣不僅有利于教學者更好地落實課程標準，有利于命題者準確把握課程標準，進而保證學業(yè)評價的科學性和公平性，也有利于開展課程標準與學業(yè)評價的一致性研究，進一步提高兩者間的一致性水平。

4.規(guī)范測試結(jié)構(gòu)，促進命題與評價走向?qū)I(yè)化

測試結(jié)構(gòu)和教育研究者的命題技能直接決定了學業(yè)評價的質(zhì)量。基于課程標準的命題能力是教育研究者應(yīng)具備的專業(yè)技能，因此應(yīng)加強對命題者的專業(yè)化培訓，要求命題者不僅需要掌握一定的理論知識，還需要進行科學化的實踐。測試卷的自身結(jié)構(gòu)特征會影響一致性結(jié)果。測試結(jié)構(gòu)包括題目數(shù)量和類型。題目數(shù)量過少會降低課程標準與測試的一致性程度，很難達到韋伯模式中的知識種類和知識廣度一致性水平，可以通過增加測試題目數(shù)量來改進，或者設(shè)置多選題，因為多選題能同時考查多個思維技能。[15]測試題型需多樣化，選擇題對高階認知內(nèi)容的考查具有局限性，如一些要求學生基于項目來得出結(jié)論的表現(xiàn)指標就很難考查。因此可以在測試中添加復雜綜合的評價項目，或者在傳統(tǒng)筆試的基礎(chǔ)上，增加表現(xiàn)性評價，實行多元評價機制。

參考文獻：

[1]中華人民共和國教育部. 基礎(chǔ)教育課程改革綱要(試行)[S]. 北京：人民教育出版社, 2001.

[2]Herman, J.L.et al.Measurement Issues in the Alignment of Standards and Assessments: A Case Study[J]. Applied Measurement in Education.2007,20(1):101-126.

[3]Bhola D.S., Impara J.C., Buckendahl C.W. Alignment Tests with States’Content Standards: Methods and Issues[J]. Educational Measurement Issues and Practice. 2003,22(3):21-29.

[4]Resnick, L.B. et al. Benchmarking and Alignment of Standards and Testing[J].Educational Assessment.2003/2004,9(1/2): 1-27.

[5]Liu X. et al. Alignment Between the Physics Content Standard and the Standardized Test: A Comparison Among the United States-New York State, Singapore, and China-Jiangsu[J]. Science Education. 2008,93(5):777-797.

[6]Emine,C. Alignment between Turkish Middle School Science Curriculum Standards and High School Entrance Examination[J].Journal of Turkish Science Education.2015,12(2): 33-48.

[7]Webb, N.L. Alignment of Science and Mathematics Standards and a Assessments in Four States. Council of Chief State School Officers and National Institute for Science Education[R]. Madison: University of Wisconsin, Wisconsin Center for Education Research.1999.

[8]Lopez,A.A.Alignment Between Standardized Assessments and Academic Standards: The Case of the Saber Mathematics Test in Colombia[J].e-Journal of Educational Research, Assessment and Evaluation. 2013,19(2): 1-16.

[9]Poretr,A.C.Measuring the Content of Instruction: Uses in Research and Practice[J].Educational Researcher.2002,31(7): 3-14.

[10] Anderson, L.W., Krethwohl, D.R. A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom’s Taxonomy of Educational Objectives[M]. New York: Longman.2001.

[11] Fulmer, G.W. Estimating Critical Values for Strength of Alignment among Curriculum, Assessments and Instruction[J]. Journal of Educational and Behavioural Statistics. 2011,36(3):381-402.

[12] Cotino,J.A Case Study of the Alignment between Curriculum and Assessment in the New York State Earth Science Standards-Based System[J].Journal of Science Education & Technology.2013,22(1): 62-72.

[13] Roach A.T. et al. Aligning an Early Childhood Assessment to State Kindergarten Content Standards: Application of a Nationally Recognized Alignment Framework[J]. Educational Measurement: Issues and Practice. 2010,29(1): 25-37.

[14] Webb, N., Herman, J. & Webb, N. Alignment of Mathematics State-Level Standards and Assessment: The Role of Reviewer Agreement[J]. Educational Measurement: Issues and Practice. 2007, 26(2):17-29.

[15] Claudia,F.An Analysis of Three States’ Alignment Between Language Arts and Mathematics Standards and Alternate Assessments[J]. Exceptional Children. 2006,72(2):201-215.