


一、選擇題作為測試工具的基本意義:引出“反應”,體現“建構”
在教育測量與評價話語系統中,選擇題是一種測量與評價“工具”。在測量與評價理論體系中,工具(題目)通常是第二位的,在這之前首先有一個理念或概念一建構?!敖嫛敝傅氖俏覀兿胍獪y量的對象?!敖逃郎y量的對象多屬于人的心理屬性,它是不能作為物質實態來操作的結構概念。這種結構概念,不能直接測量,只能從測量與這個結構概念有關的或從反映這種結構概念的(可測量的)因素著手,對這個結構概念進行間接的測量。”“我們假設要測量的建構有一個特定的、簡單的形式:從一極到另一極,譬如從高到低,從小到大,從正面到負面……我們的主要興趣是考察特定的‘反應’處于兩極之間的哪個位置。”然而,建構的特征是“潛在的”,因此測量與評價要解決的一個關鍵問題是如何用外顯的“工具”引發學生隱性的思維過程、認知“反應”,并據此測量其潛在的“建構”水平。工具、反應、建構之間的關系可以用下圖表示:
依據上述理念,選擇題作為測試工具的一種,其使命自然也是以恰當的形式引發學生適宜的反應,而這個反應應該恰好與所要測量的建構(如語文閱讀能力的某個方面)相吻合。因此,測試目的、測試工具和答題實際反應之間的內在一致性是試題開發和檢視的一個基本立足點。這就是為何在《語文測試選擇題命制現狀管窺》(發表于《語文建設》2014年第3、4期)一文中,筆者會不遺余力地從顯性和隱性兩個層面分析題目試圖測試的能力和實際測試的能力。顯性層面為:題干表述提示的測試意圖和一些官方、公開解釋中明示的測試意圖;隱性層面為:題干、選項所引導的思維反應或學生在閱讀具體題干和選項后優先選擇的答題思路、行為反應。放大之后可以看到,其間可能存在的事實是:試圖測試的能力和實際測試的能力之間可能有落差;試圖明示的能力也存在諸多所指模糊的地方。根據測量建構理論,這些“事實”并不能就此接受,所以即使那些題目已經成了穩定的典型題目,我們還要進一步推敲和盡可能改正、優化。
那么,如何盡可能保證試題的意義呢?根據上圖,首先需要從調整宏觀流程開始。完整的命題、測試過程應該包括如下四個步驟:解釋要測量的建構;創設題目,確保能引導被試做出特定的反應以體現其相應的建構水平;實施測試;分析數據,檢查結果是否與最初的意圖一致,即學生的反應是否能對應于特定的建構水平或相關描述。
這四個步驟環環相扣形成一個圓周。這是一個基于對建構的理解,又完善對建構的理解的過程。理論上來說,我們在命題時應該盡可能嚴格遵守上述步驟,而不應該是習慣性地按照特定題型的樣子出題。
對照實踐,我們需要加強如下研究和實踐環節:加強基礎理論研究,包括語文素養、語文能力的勾勒,在此基礎上進一步明確測試語境中的具體所指;試題開發前盡可能明確需要測試的能力指向,并在試題開發過程中嚴格執行;在一些大規??荚嚭蟮姆治鲋屑{入測試結果和建構間相互關系的研究。一方面,分析試題是否較好地測量了試圖測量的建構,另一方面,可以根據測試結果來修正對建構的認識和理解。
二、選擇題的一般類型和一般功能
《語文測試選擇題命制現狀管窺》一文,在縱覽各省、歷年語文高考卷的基礎上,呈現了七類較為穩定的典型題目。梳理的標準主要是題干表述的相似性、穩定性。然而,這只是基于客觀現實而臨時采用的分類標準,不具有學理依據。我們不妨來看一下國際評價話語系統中關于選擇題類型的梳理和功能的定位。
1.選擇題的一般類型
選擇題的類型和意義還需要放在整體題型圖譜中來看。
國際學生評價項目(PIsA)的“測評框架”,在介紹其使用的題目類型時有這樣一段簡短的介紹:“主觀題,即需要專家評分的題型,包括開放性建構反應項目和簡短的建構反應項目;客觀題,即不需要專家評分的試題,包括多項選擇題、復雜的多項選擇題和封閉的建構性反應項目?!逼渲兄饔^題、客觀題是我們所熟悉的概念,但這段說明中還涉及兩對相對來說我們可能比較陌生的概念:建構性反應項目和選擇性反應項目;多項選擇題和復雜的多項選擇題。
建構性反應項目和選擇性反應項目,其實倒是在國外測量與評價話語體系中更常見的一對概念。顧名思義,建構性反應項目指的是學生必須獨立解決問題,譬如填空題、簡答題、作文題;選擇性反應項目,是學生從教師提供的答案中選出正確的答案。選擇性反應題目,并不僅僅指我們日常所說的選擇題,還包括是非題(二元選擇)、匹配題。
多項選擇題和復雜的多項選擇題,與我們的術語有些出入。前者,其實就是我國國內所說的單項選擇題。詹姆斯·波帕姆撰寫的《教師課堂教學評價指南(第5版)》中說到多項選擇題時明確指出:“多項選擇題都要求學生選擇一個符合題干的正確答案,或者一個最佳答案。”由此推斷,國外“多項選擇題”概念中的“多項”指的是備選答案,即選項,而我國所說的“多項選擇題”的“多項”指的是最終從備選選項中選擇的正確答案可能不止一個,大致對應于“PIsA”測試框架中說的復雜的多項選擇題。無論要求學生選出一個答案還是幾個答案,換個角度,從答案屬性來看,選擇題又可以分為兩類,正確答案形式和最佳答案形式。后者說的是:“其中所有選項都部分正確,但有一個明顯優于其他。這種類型用于考查較為復雜的成就,比如要求學生選擇某個行為的最好理由、做某事的最好方法或某個原理的最佳應用。用正確答案形式還是用最佳答案形式,取決于要考查的學習成果?!?/p>
從國際題目類型分類框架可以看出,題目分類的立足點不是題目本身的“模樣”差異,而是學生的行為反應差異。
選擇題不是萬能的,它只需充當好題型圖譜中所能承擔的角色即可,存在的價值也許恰恰就在于其“限制性”。某種程度上,就是要在限定的情境中,使“書寫能力的影響得以控制”,“發現學生的薄弱環節”。
2.選擇題的一般功能
選擇題引發學生做出選擇性反應之后,歸根結底是要從學生選擇的答案中判斷其在預期學習結果和表現方面的水平。那么,選擇題可以考查哪些預期學習成果和表現呢?
對此可以做兩個層面的思考:一是“一般性目標”,譬如,我們所熟悉的布盧姆教育目標分類學及其修訂版所要闡明的認知目標層級和知識類型;二是學科領域具體的學習成果和表現,是“一般性目標”在學科領域的具體化,是學科領域反過來對“一艘性目標”的發展。
關于第一個層次,我們可以看到不少積極的介紹:
多項選擇題在美國和其他國家已經主導了成就測驗領域長達幾十年,它可以用來測量學生對知識的掌握情況以及更高水平的思維能力。
它可以考查從簡單到復雜的多種學習成果,也可以產生質量最高的題目。
它適合于測量從機械記憶水平到最復雜水平間各水平的教學目標,當然,綜合能力除外;特別適合于項目分析,發現學生的薄弱環節。
測評最佳“best”答案的題目,允許比較高級的區分和辨析(allow for greater discrimination),能非常有效地測量理解能力。
麥克米蘭還曾嘗試把認知目標層級和各種題型的適用程度進行比對。他認為選擇性題目不僅適用于測試知識的記憶,如果出的題目巧妙還能非常有效地測評學生的理解能力(包括深度理解)和推理能力。
上述表達給我們一些信心,答案標準化的選擇題,是有其測試意義和價值的,我們努力的目標是在運用選擇題時,讓它恰如其分地發揮最大價值。至于其能測試怎樣的能力類型和水平,需要結合上文所述的關于語文測量建構的研究結果來進行恰當的選擇。
三、選擇題的開發:有意識的選用和有針對性的設計
1.有意識、有針對性的選擇題型
在上文提及的測量建構理念影響下,一些評價類著作,在介紹題型設計規則時會給出與上述建構理斜目呼應的提醒。例如:“決定測驗中采用哪種題目類型時,—個指導性的原則是:所使用的題目類型應當對預期學習成果所指明的學生表現做出最直接的考查。有效的成就測驗要求設計出一系列測驗題目來引出預期學習成果所描述的表現。”
與理論的呼吁相呼應,在一些國際著名的測評項目中,可以看到在其命題開發過程中有著相關的環節控制,有意識地考慮題型和能力測試目標之間的對應性。以“PISA”測評項目為例,“測評框架”文件會有專門的篇幅闡述題型選擇問題。
首先,測評框架指明,“反應形式”,即題型的選擇有兩個依據:一是題型必須有利于收集需要的證據(即上文所解釋的,以特定的形式引出學生特定的反應,以證明其在某方面的學習結果);二是大規模測試的實用性。
在綜合考慮各種情況的基礎上,“PISA”測評框架給出了在各個認知層級上,主客觀題型的比例分配(客觀題主要指選擇題和封閉的建構性反應題目),如下表:
雖然在大規模考試中客觀題比例適當偏多,但這也從側面反映出,選擇題測試的能力范圍是較為廣泛的。如“PISA”測評項目這樣,在命題之前有意識地考慮各類題型的利弊,有意識地將題型和所要測試的認知能力聯系起來思考,甚至對題量做出大致規定,有利于保證具體題目的測試針對性和測試結果的解釋力。
2.關注每一種能力的實質性考查
在“PISA”測評框架中,以及每次測評項目結束后公布的樣題中,有一個值得注意的部分,即關于每一個測評題目屬性的說明,例如:
題目1:英國研究者有什么建議?(筆者注:關于刷牙。因為篇幅原因,選項略,下同。)
情境:教育的
文本形式:連續文本
文體類型:說明
認知方面:訪問和檢索
題型:單項選擇題
難度:358(1a級)
題目2:從總體上說,劇作家默納在這部分節選中做了什么?
情境:個人的
文本形式:連續文本
文體類型:敘述
認知方面:整合和解釋一形
成廣義的理解
題型:單項選擇題
難度:556(4級)
題目3:為什么有兩個熱氣球的圖形?
情境:教育的
文本形式:非連續文本
文體類型:描述
認知方面:反思和評價反
思和評價文本內容
題型:單項選擇題
難度:411(2級)
對于這樣的公開解釋,應該可以起到兩個作用:一是讓我們看到每一個題目的具體指向和功能,考查的是學生閱讀特定類型文本的特定的認知過程;二是當把若干個題目放在—起看的時候,我們可以注意到題目之間相對明晰的差別。正是基于各個題目的特定指向和不同題目的合力作用,才能較為立體、全面地檢測出學生在閱讀素養方面的整體情況和特定維度上的表現。相比之下,我們也有公開解釋,但看到的是較為模糊的結果(見《語文測試選擇題命制現狀管窺》)。
3.虛心吸收既有命題規則
選擇題具體的產生過程,需要基于對試圖測試的目標的準確理解,基于對文本的準確把握。對這兩個方面的充分理解需要落實到具體的題目撰寫過程?!墩Z文測試選擇題命制現狀管窺》一文已經顯示:試圖測試的目標和實際測試的能力之間可能會有差距,題干指向和選項指向之間可能不一致,造成這種局面的原因,一方面可能是對目標定位不夠清晰,另一方面可能是試題編制技術不夠成熟,在題目撰寫過程中產生偏差。
在目前出版的測量與評價類書籍中都會有關于試題編制的專門章節,關于每一類題型都會介紹其作用、意義,并提出題目撰寫中的一些規則。雖然是一般理論、原則,但對于語文學科命題研制還是有一定啟發意義的。譬如,關于選擇題題干、干擾項、正確項的設計,以下一些建議值得我們參考。
每道題目的設計都要考查一個重要的學習成果題目所基于的問題情境應當是重要的,并且應與所要考查的預期學習成果相關
各道題目的目的是要引出某種類型的表現,以幫助判斷學生在多大程度上達到了預期學習成果。(筆者注:這是“建構原理”在題目撰寫層面的體現,抓手就是題目所表述的問題情境。)
在題目的題干中呈現一個清楚定義的、單一的問題題目的題干中所提出的任務應該非常清晰,這樣學生不用讀選項也可以理解它
事實上,檢驗選擇題題干的清晰性和完整性的一個好方法是,遮住選項并判斷沒有那些選項時是否可以回答題干中的問題。(筆者注:結合上面一條一起來反思我們既有的題目,不少題干缺乏問題情境色彩、缺乏問題解決意識,如“下列表述正確/不正確的是”等。也就說,題目要考的應該是酐所闡述的問題、任務引發的能力,而不是純粹的比較選項的能力,所以如《語文測試選擇題命制現狀管窺》一文中所提及的太多考查學生比對選項信息、比對選項和文本細節信息的題目是需要引起我們注意和酌情改變的。)
干擾項應該是合理且錯的如何產生好的干擾項?一個比較好的方法是先識別學生一般可能有的誤解或錯誤,由此干擾到那些有此誤解或錯誤理解的學生。(筆者注:反觀我們的命題實踐,這一步可能還要適當加強。)
使干擾項對未掌握者有迷惑性和吸引力:用學生的語言來表述選碩;在干擾項和正確答案中都用“好聽的”詞(準確、重要);使干擾項在長度和用詞復雜度上與正確答案相似……
確保預期答案是正確的或明顯最好的在用最佳答案形式時,預期答案應該是有實力的權威所公認為明顯最好的、在后一種情況中,可能還有必要在題目的題干中加上“下面中”,以考慮到題目中沒有包含的但同樣好的答案。
只要有可能,就以肯定形式表述題目的題干,這是因為,知道諸如最好方法或最恰當論述之類的東西通常比知道最差方法或最不恰當的論述有更大的教育意義,每當題目的題干中用了否定表述時,一定要對其進行強調,在有些情況下,要測量某個重要的學習成果,很有必要使用否定表述例如,知道不應該在亮紅燈時過街和不應該將某些化學品混合如此重要,以至于這些規則可能要直接教導和直接測驗任何存在危險的情境都需要否定性強調幾乎任何規則或程序都會對要避免的做法作一些強調。(筆者注:在語文學科中而言,似乎否定形式的題目有些泛濫。不乏—篇短文三個選擇題都是否定形式表述的情況。)
通過改變題干中的問題或者改變選項來控制題目難度一般而言,最好通過使問題更復雜來提高所需的知識水平,從而提高題目難度,但是,也可以通過使選項更相似來提高難度,當這樣做時,一定要小心確保所需的更為精細的區分具有教育意義,而且與所考查的學習成果相協調。(筆者注:最后一句提醒需要謹記。)
綜上,命題的過程不是習慣性的延續既有經驗、沿用傳統題型而已,而是一個包含了從深諳宏觀理念、明確中觀目標、熟微觀的系統工程。這三個層面都需要我們做出持續、深入的探索。