交互式試題，立足動態交流，實現智能測評

2022-05-22 02:07:33李振文

教育·綜合視線 2022年4期

關鍵詞：學生

李振文

在當今教育領域，各種測試題以紙筆測試居多。隨著信息技術的進一步應用，基于電子設備終端而進行的測試正在迅速發展，比如計算機等級考試、雅思和托福考試、建造師考試等。基于電子設備終端而進行的測試，為測試者和閱卷者帶來便利。

當前所出現的基于電子設備終端而進行的測試，多數是基于靜態文本而呈現的信息，即實現了將紙筆測試轉移到電子終端，但并沒有發揮電子終端的智能特征。而國際上在PISA（Programme for International Student Assessment，國際學生評價項目）和NEAP（National Assessment of Educational Progress，美國國家教育進展評價）測試中，其題目已經出現了顯著變化，即交互式試題。這種試題不再是紙筆測試，而是直接搬到電子屏幕上，利用電子設備的智能化特征，實現學生和終端之間的互動。這樣的測試能更深入地了解學生的能力值，能模擬現實世界中難以接觸的模型，能帶來學生和測試工具之間的互動，以實現紙筆測試所不能實現的功能。

由此可見，交互式試題是以計算機、手機、平板電腦等智能設備為工具，通過測試者與智能設備之間的信息互動，達到對測試者知識和能力考查的目標。

一、交互式試題的優勢

在PISA測試中，交互式試題一般由一個情景和多個問題組成，從而構成一個測試單元。交互式試題提供了一個模擬的互動科學探究環境，用以評估學生在現實世界中的真實科學能力，幫助測查學生對應的多個水平。在大多數情況下，每個交互式試題對應評估多個知識和能力類別，個別試題可能只對應評估一種形式的知識或能力。

PISA運用這種試題結構來達到盡可能真實的情景，從而有效反映現實生活的復雜性，高效利用測試時間。每個試題可以提出若干問題，避免針對不同情況單獨提出問題，避免因減少了測試字數而相應減少學生閱讀每個問題材料的時間。整個情景內的試題內容不能有關聯，不能影響測試的結果，要確保能使用足夠多的情景，還得保證情景的選擇不能影響測試的結果。

在NEAP測試中，交互式試題記錄了學生對多項選擇類問題的答案以及對描述類問題的反應，并能在學生完成任務期間捕獲學生的行為，這些行為提供了與探究技能相關的深層次信息。例如，在“神秘植物”任務期間，學生在進行實驗時所使用的植物托盤的數量可以由測試系統捕獲。交互式試題的評分環節由計算機依據一定的算法自動完成。

二、交互式試題的類別

當下出現的交互式試題主要集中在PISA和NEAP中，本文主要針對這兩種測評中的交互式試題分類進行說明。

在PISA測試中，交互式試題出現在“問題解決類”（problem solving）試題中。PISA根據問題情景的性質，將問題解決類題目分為靜態和互動兩種。靜態意味著所有的信息會在同一時間全部公開，包括文本、圖形、表格、圖表和相關問題等。互動意味著不是所有的信息會在同一時間全部公開，它包括互動的刺激材料和相關問題，所以有些信息必須通過探索過程才能被發現。交互式試題對應互動類別，通過模擬科學探究過程評價學生的科學素養。試題由特定刺激材料構成，其可以是簡短的書面段落或者帶有表格、圖像的文字，還可以包括非靜態刺激材料，如動畫和交互式模擬。試題中包含一組多種類型并獨立評分的問題。

在NEAP測試中，交互式試題出現在交互式計算機任務（interactive computer tasks，ICT）中。交互式試題通過模擬自然或實驗室環境，要求學生在基于計算機的環境中解決科學問題。這些任務為學生提供了一個多樣化參與科學問題的機會，但沒有與真實任務相關的物質條件等方面的限制。

三、交互式試題的示例

以PISA官網所呈現的交互式試題“圣德”為例，該題是以地理學科為主的題目，考查的核心目標是協作解決問題技能。試題開始有少量簡介，之后包含三部分內容。每個問題的選項限于篇幅，在本研究中未能全部包含，僅展示兩個問題的全部選項，并將其作為下文評分標準的示例。

試題簡介部分如下：

你的老師將全班學生分成三人小組進行比賽，回答12條有關一個名叫圣德的國家的問題，最先答對的組別將會獲勝。開啟圣德地圖上的聯結，可以找到有關的答案。有四條是“地理”的問題，如圣德最大的雨林是什么？有四條是“人民”的問題，如圣德人的平均年齡是多少？有四條是“經濟”的問題，如圣德的就業率是多少？

試題的第一部分主要是小組討論完成任務的策略和分工，內容如下：

你和你的組員麗斯和碩祺，可以使用以下功能：

聊天：用來互相溝通

標示主題的按鈕：用來顯示比賽的問題，并在圣德地圖上尋找答案。

計分卡：用來追查小組的進度。計分卡會顯示小組答對的題數。

老師要求小組在比賽開始前，不要尋找問題和答案。相反，她建議花一點時間與組員討論如何以最好的方法來完成比賽。你的組員麗斯和碩祺已經開始聊天。

點擊以下按鈕來加入聊天。

當點擊聊天按鈕后，界面顯示如圖1所示：

加入聊天后，窗口內是小組成員的聊天內容，下面有若干選項供學生選擇。點擊某個選項，然后點擊“傳送”按鈕即可參與聊天。

誰在聊天

你麗斯碩祺

麗斯：嗨，我不太肯定用什么方法來進行比賽最好。

碩祺：我們先做了再說。

你：

（問題1）

我懷疑其他組已經開始了。

我希望題目會容易一些。

或許我們應該先討論一下答題的策略。

麗斯，當我們開始以后，你會知道要做什么了。12636E9C-33EF-4825-A820-7112694E061A

你：或許我們應該先討論一下答題的策略。（選擇的選項）

在此部分，如果選擇不同的選項，聊天的內容還會繼續，且小組成員的聊天內容不會發生變化。

麗斯：我很想我們在開始之前有一個計劃。

碩祺：我們應該要盡快回答問題。

你：沒錯，但是用什么方法來作答才好呢？（選擇的選項）

麗斯：各位，我們需要想想小組如何才能好好合作啊。

碩祺：我們每個人用最快的速度來作答就是了。有什么難度呢？

你：假如我們分工，各自負責不同的題目，我們回答的問題可以更多。（選擇的選項）

麗斯：你知道嗎，如果我們一起找同一類的答案，只會做得很慢。

碩祺：噢，是的……我終于明白了。

你：我們可以每個人選擇一個主題。（選擇的選項）

試題的第2部分主要是每個小組成員選擇一個作答主題，內容如下：

你的小組同意每位組員負責回答一個主題內的問題。麗斯和碩祺已經開始了一個新的聊天。

點擊以下按鈕來加入聊天。

麗斯：我想選擇“人民”。

碩祺：喂！我也想選那個。

你：你們可以各自解釋為什么你想要這個主題嗎？（選擇的選項）

碩祺：我只是想“人民”的問題應該是最簡單的。

麗斯：我對不同國家的人民和生活方式十分感興趣。我經常閱讀與這個主題有關的書籍。

你：聽起來“人民”這個主題應該屬于麗斯。碩祺，你認為這樣好嗎？（選擇的選項）

碩祺：我想“經濟”應該可以吧。我喜歡錢。

你：那我選“地理”吧。（選擇的選項）

試題的第三部分主要是小組成員要完成自己選擇的主題，內容如下：

你的小組已經達成以下共識：

“地理”是你負責的主題。

“人民”是麗斯負責的主題。

“經濟”是碩祺負責的主題。

比賽開始了！請點擊一個主題按鈕來開始。

當點擊“地理”按鈕后，試題界面如圖2所示：

當選擇某個主題之后，點擊地形圖上面的標識，可以提取到題目給出的信息。如上圖點擊了左上角的標識后，題目給出的信息是圖中圈住的部分“圣德最高的山是莫祖山”。然后點擊第二個問題的答題按鈕，按鈕中就會填入莫祖山的答案。其他試題的作答過程類似。此時，小組聊天窗口還在繼續。

麗斯：我們答對了一題。我們繼續吧！（問題2）

時光飛逝，我們不要浪費時間聊天了。

是誰答了地理題啊？不錯啊！

既然有人回答了“地理”題，我轉答其他主題吧！

你：應該由我來回答“地理”題。我們做自己原本選擇的主題吧！（選擇的選項）

在一定的作答時間后，試題給出下一個頁面。

麗斯：我的計分卡是對的嗎？我們做得怎么樣？你：我們看來表現不錯，除了“經濟”外。（選擇的選項）

此后作答界面跳轉到最終界面，顯示答題成功，如圖3所示：

四、交互式試題的評分標準

PISA測試中，“圣德”交互式試題圍繞12種協作問題解決技能展開，這些技能是四種問題解決的過程和三種協作能力的交叉。PISA給出的協作問題解決技能框架見表1：

PISA還提供了一個整體協作問題解決能力量表，涵蓋了交互式協作問題解決中的所有項目。協作問題解決能力量表的設計目標是，經濟合作與發展組織國家的平均分為500分，約三分之二的學生得分在400分～600分之間。該量表分為五個熟練程度等級。其中1至4級是對成功完成問題的技能的描述，最低的級別是“低于1級”，對應學生得分為低于340分，表示學生缺乏這些技能。1級是協作問題解決能力的最低級別，表示初級水平，對應學生得分為340分～440分；2級對應440分～540分；3級對應540分～640分；4級對應協作問題解決能力的最高水平，對應學生得分為高于640分。成績在1級范圍內的學生有望成功完成大部分1級項目，但不太可能成功完成更高級別的項目。相比之下，成績在4級范圍內的學生很可能可以成功完成協作問題解決測試中的所有項目。

本研究以兩個具體問題的評分標準為例進行說明。

首先，以上文“圣德”試題中的問題1為例，其評分標準見表2。問題1關注學生討論過程中如何建立共同的理解。此問題的正確回答是“或許我們應該先討論一下答題的策略”，這有助于團隊關注如何以最佳方式完成任務。學生必須主動提出解決問題所需的邏輯選項，即應該先確定答題策略，才能幫助團隊取勝。該問題對應協作問題解決能力量表的2級，對應學生得分為502分。

其次，以上文“圣德”試題中的問題2為例，其評分標準見表3。該問題聚焦于對小組操作的監控與反饋。在學生嘗試回答地理類別中的問題之前，第一個地理問題的答案會顯示在記分卡上，并帶有復選標記。麗斯評論說有一個問題已經得到了回答。此時應該注意到，這個題目并不是由選擇地理主題的“自己”完成，而是由別人完成。所以，這位同學的行為違反了最初制定的規則。對于該題目，學生容易選擇“是誰答了地理題啊？不錯啊！”選項，因為該選項是對組員的鼓勵。但PISA更為關注小組合作時的規則，如果大家都不按照自己選擇的主題進行作答，而是喜歡哪個答哪個，將影響到小組的分工合作，并影響到最終整個題目的答題效率。

該問題對應4級難度水平，是測評中最難的水平。它要求學生不僅要跟蹤聊天，還要跟蹤答題狀態的變化。也就是說，學生必須注意到，現在發生的事件違反了每個成員只能選擇一個主題進行作答的協議。該問題的正確答案是合理阻止小組成員的違規行為，從而平衡個體的問題解決需求和在游戲中所分配的角色之間的關系。

五、未來展望

交互式試題在測評學生能力時，能夠更加關注學生的過程性技能，記錄的信息更加詳細，評分準則也將更加科學合理。在計算機應用更加普及、智能化水平越來越發達的今天，交互式試題的應用將引發測評領域的變革。

未來，交互式試題最為突出的特征，將是能夠隨著學生作答的變化而變化，深度適應當前學生的能力和水平，對應呈現與其吻合的測評工具，實現智能測評。首先，交互式試題與大數據若能取得更為緊密的結合，則能夠有效利用大數據背后的海量信息，及時準確地對當前學生的能力做出反饋。通過適時改變測試題組，更為準確地測評到學生的能力。其次，交互式試題如果能夠大范圍應用，將改變當前應試教育的局面。應試教育長期存在的重要原因之一，就是測試內容主要和知識相關，而交互式試題的變化性在能力測試方面具有得天獨厚的優勢。理想情況下，交互式試題可以不受考試時間的限制，對學生的能力進行科學評判。當考試的核心轉移到能力上時，應試教學將很難有所作為，必將得到有效限制。再次，交互式試題有助于人才選拔。當前，多元智能理論被普遍接受，但卻難以廣泛應用，究其原因就是單次、少量的測試工具終究難以直接測試出學生在某方面是否擅長、是否有天分。但交互式試題能夠依據學生的不同反應，持續不斷地輸出各個維度的試題，從而確定學生是否在某個方面有特長。這對于依據單次、少量的考試確定學生未來發展方向將具有重要意義。

【基金項目：中國教育科學研究院2021年度基本科研業務費專項資金所級基礎專項項目“中學物理課程中基于項目學習的傳統科學文化育人案例研究”，項目編號：GYJ2021013）】12636E9C-33EF-4825-A820-7112694E061A