詹澤慧 姚佳靜 吳倩意 黃秉剛
人工智能課程中表現(xiàn)性評價的設(shè)計與應(yīng)用*
詹澤慧1姚佳靜2吳倩意1黃秉剛3
(1.華南師范大學(xué),教育信息技術(shù)學(xué)院,廣東廣州 510631;2.深圳市鹽田區(qū)實驗學(xué)校,廣東深圳 518083;3.深圳龍華未來教育研究院,廣東深圳 518126)
在國家政策積極鼓勵人工智能教育、核心素養(yǎng)導(dǎo)向驅(qū)動課堂評價變革的大背景下,如何在人工智能課程中開展表現(xiàn)性評價成為了重要的研究議題。文章首先分析了表現(xiàn)性評價應(yīng)用于人工智能課程的適切性;隨后提出了“教—學(xué)—評”一體化的設(shè)計理念,構(gòu)建了“目標(biāo)—任務(wù)—評價”三步走的設(shè)計流程,并歸納了五種典型的表現(xiàn)性評價方式;最后,文章以H中學(xué)為例在人工智能課程中進(jìn)行了表現(xiàn)性評價的應(yīng)用,發(fā)現(xiàn)表現(xiàn)性評價可從不同角度進(jìn)行評判和反饋,但在使用表現(xiàn)性評價量表的過程中也存在內(nèi)容設(shè)計、計分方式、使用方式等方面的問題。在人工智能課程中開展表現(xiàn)性評價,推動以評定教、以評促學(xué),有助于學(xué)生高階能力的形成,是智能化時代創(chuàng)新人才培養(yǎng)的有效途徑。
人工智能課程;表現(xiàn)性評價;核心素養(yǎng);編程作品

在人工智能時代,世界各國意識到了掌握先進(jìn)技術(shù)和培養(yǎng)創(chuàng)新人才的重要性,紛紛重視發(fā)展人工智能教育。2016年,美國先后發(fā)布《為人工智能的未來做好準(zhǔn)備》《國家人工智能研發(fā)戰(zhàn)略規(guī)劃》,為人工智能的發(fā)展制定策略、規(guī)劃方向。緊追其后,英國發(fā)布《人工智能:未來決策制定的機(jī)遇與影響》,法國制定《國家人工智能戰(zhàn)略》,日本提出《超智能社會5.0戰(zhàn)略》,均強(qiáng)調(diào)人工智能對未來綜合國力的影響,并明確了迎接人工智能時代的積極態(tài)度。2017年,我國印發(fā)《新一代人工智能發(fā)展規(guī)劃》,號召各類學(xué)校逐步新增人工智能課程,建設(shè)全國人才梯隊,同年發(fā)布高中信息技術(shù)課程標(biāo)準(zhǔn),將“人工智能初步”確定為選擇性必修課程。2020年,五套《人工智能初步》高中新課標(biāo)教材陸續(xù)出版[1],人工智能教育逐漸在中小學(xué)課堂普及。
然而,在人工智能教育實踐中,一線教師普遍反映最為棘手的問題是在教學(xué)過程中如何實施評價。在新一輪課程改革中,評價方式的改革問題引發(fā)了大量討論:單一關(guān)注學(xué)生考試成績的傳統(tǒng)評價方法受到詬病,而以學(xué)習(xí)過程中學(xué)生外化表現(xiàn)為度量的表現(xiàn)性評價成為關(guān)注的焦點(diǎn)。一方面,表現(xiàn)性評價將學(xué)習(xí)表現(xiàn)作為評價依據(jù),能比測驗考試獲得更全面、更客觀的評價結(jié)果,且更適合用來評價“做”的能力,契合人工智能教育面向高階能力和綜合素養(yǎng)培養(yǎng)的目標(biāo)。另一方面,表現(xiàn)性評價具有指導(dǎo)性,可融入教學(xué)過程作為支架,促進(jìn)教與學(xué)。對教師來說,合理運(yùn)用表現(xiàn)性評價有助于其判斷學(xué)生在課程中的學(xué)習(xí)狀態(tài),確定學(xué)生是否適合繼續(xù)學(xué)習(xí)特定的內(nèi)容,并據(jù)此調(diào)整教學(xué)目標(biāo)和進(jìn)度。而對學(xué)生來說,表現(xiàn)性評價提供了明確的表現(xiàn)性任務(wù),學(xué)生在完成任務(wù)的過程中可以根據(jù)每個節(jié)點(diǎn)或基本要素的評價標(biāo)準(zhǔn)來了解學(xué)習(xí)目標(biāo)、評估自身表現(xiàn)水平,促進(jìn)自我反思、監(jiān)控、調(diào)節(jié)和管理,故有助于學(xué)生合理把握學(xué)習(xí)節(jié)奏,促進(jìn)元認(rèn)知發(fā)展。
在智能時代呼喚創(chuàng)新人才、國家政策積極鼓勵人工智能教育、核心素養(yǎng)導(dǎo)向驅(qū)動課堂評價體系變革等大背景下,證據(jù)導(dǎo)向的人工智能課程表現(xiàn)性評價亟待開展。表現(xiàn)性評價在當(dāng)前可行而未暢行的原因主要在于:一線教師對人工智能課程中設(shè)計和有效實施表現(xiàn)性評價的方法還不甚了解。鑒于此,本研究嘗試從適切性、設(shè)計方法、應(yīng)用模式三方面討論如何將表現(xiàn)性評價應(yīng)用于人工智能課程,實現(xiàn)教、學(xué)、評的一體化,以達(dá)到培養(yǎng)學(xué)生綜合素養(yǎng)和高階思維的目的。
表現(xiàn)性評價是一種以證據(jù)為導(dǎo)向、同時兼顧過程與結(jié)果、以評促教的評價方式,其基本假設(shè)是:任何一種行為和認(rèn)知表現(xiàn)都可以分解為一系列基本要素,作為表征學(xué)業(yè)水平的證據(jù);只要對各要素進(jìn)行合理評價,就可以對總體水平進(jìn)行準(zhǔn)確評定[2]。表現(xiàn)性評價的發(fā)展歷程可追溯至古代中國和中世紀(jì)歐洲,其基本形態(tài)曾見于各級各類人才選拔。然而從20世紀(jì)起,在第一次工業(yè)革命引發(fā)的“機(jī)械化”浪潮席卷下,標(biāo)準(zhǔn)化紙筆測驗成為了風(fēng)靡全球的主流評價手段。20世紀(jì)80年代,人們意識到標(biāo)準(zhǔn)化紙筆測驗重識記輕發(fā)散、重結(jié)果輕過程、僅強(qiáng)調(diào)唯一正確答案的做法不利于甄選創(chuàng)新人才,轉(zhuǎn)而開始關(guān)注適用于評估問題解決、溝通合作和批判性思維等高階能力的表現(xiàn)性評價[3]。21世紀(jì)以來,各類智能技術(shù)賦能于創(chuàng)新人才培養(yǎng)的戰(zhàn)略需求,讓表現(xiàn)性評價在評估學(xué)生高階能力方面的優(yōu)勢日益凸顯,成為人才評價的重要形式。英國是最早將表現(xiàn)性評價作為高校錄取依據(jù)的國家:在日常教學(xué)中由學(xué)科教師以中心評審課程作業(yè)的形式(如實驗報告、實地調(diào)查報告、研究論文等)開展,依據(jù)全國性大學(xué)入學(xué)考試機(jī)構(gòu)統(tǒng)一制定的評分標(biāo)準(zhǔn)打分。美國、日本在高利害考試和學(xué)習(xí)質(zhì)量監(jiān)控項目命題中嵌入具有真實情境的表現(xiàn)性評價,也取得了良好效果[4]。我國的表現(xiàn)性評價應(yīng)用起步較晚,直至本世紀(jì)初才逐步見于學(xué)科教學(xué)[5]。
在表現(xiàn)性評價應(yīng)用和發(fā)展的過程中,已形成了既定的規(guī)范。表現(xiàn)性評價的設(shè)計,離不開評價目標(biāo)的確定、表現(xiàn)性任務(wù)的設(shè)計和評分規(guī)則的建構(gòu)[6]。評價目標(biāo)直接反映表現(xiàn)性評價的“教育性”,是表現(xiàn)性任務(wù)和評分規(guī)則的基礎(chǔ)。由于表現(xiàn)性評價注重評價內(nèi)容,而對評價過程沒有統(tǒng)一要求,故容易造成其信度低于標(biāo)準(zhǔn)化紙筆測驗的情況。為了避免主觀性、提升評價結(jié)果的參考價值,必須制定清晰的評價標(biāo)準(zhǔn)加以規(guī)約。高質(zhì)量的評價標(biāo)準(zhǔn)需具備以下特征:①內(nèi)容清晰、表述準(zhǔn)確,即使用者能看懂且認(rèn)同評價標(biāo)準(zhǔn)的相關(guān)內(nèi)容、評價標(biāo)準(zhǔn)的內(nèi)容避免存在歧義,師生均能根據(jù)描述明確與之對應(yīng)的結(jié)果;②便于理解、易于操作,即師生能夠快速理解評價標(biāo)準(zhǔn)的正確用法,并在教學(xué)過程中快速上手操作。在具體實施過程中,應(yīng)注意:①落實評分規(guī)則的測量功能。指向行為的規(guī)則描述應(yīng)有制約的前提和限定因素,并對行為結(jié)果進(jìn)行量化表達(dá),形成具體可行的評價標(biāo)準(zhǔn)條目,保證信度和個體公平。②發(fā)揮評分規(guī)則的導(dǎo)向作用。評價標(biāo)準(zhǔn)應(yīng)始終圍繞教學(xué)目標(biāo)展開,可將目標(biāo)分解為層次化的評價要素,通過學(xué)習(xí)支架將評價嵌入教學(xué)過程中,評分規(guī)則可調(diào)控教學(xué),并能向?qū)W生反饋有意義的信息。
人工智能課程具有區(qū)別于其他課程的獨(dú)特性:在內(nèi)容上,主要涉及人工智能的發(fā)展史、核心算法與編程、系統(tǒng)設(shè)計開發(fā)、典型應(yīng)用、倫理道德等;在形式上,項目實踐和動手操作是其中必不可少的部分,需配置軟硬件設(shè)備,而受限于人多、設(shè)備少等問題,協(xié)作式項目實踐是課程的常態(tài)[7]。表現(xiàn)性評價在人工智能課程應(yīng)用的適切性主要體現(xiàn)在四個方面:①評價目標(biāo)的適切性。人工智能課程面向科技創(chuàng)新人才培養(yǎng),最終指向?qū)W生核心素養(yǎng),而非僅僅停留在評估知識技能的習(xí)得情況,與表現(xiàn)性評價指向高階能力培養(yǎng)的目標(biāo)相吻合。②評價形式的適切性。人工智能課程本質(zhì)上是一種基于真實問題/任務(wù)的學(xué)習(xí),具有較強(qiáng)的情境依賴性,這與表現(xiàn)性評價通過表現(xiàn)性任務(wù)反映行為表現(xiàn)水平在形式上高度一致。③評價載體的適切性。人工智能課程通常涉及學(xué)生設(shè)計能力和動手操作能力的培養(yǎng),這些能力可通過作品創(chuàng)作、創(chuàng)意物化的方式得到較好的反映,這也正是應(yīng)用表現(xiàn)性評價的優(yōu)勢之所在。④多元融合的適切性。人工智能技術(shù)在各行業(yè)具有廣泛的普適性和可嵌入性,人工智能課程也具有多學(xué)科融合性,可作為整合性學(xué)習(xí)的載體,在評價上亦需考慮多個學(xué)科的評價目標(biāo),這與表現(xiàn)性評價要素多元、層次豐富、操作靈活的特性相匹配。綜上所述,表現(xiàn)性評價在人工智能課程中具有較好的適用性和可拓展性。
目前,人工智能課程在表現(xiàn)性評價方面尚缺乏經(jīng)驗積累,評什么、怎么評等問題都值得深思。本研究遵循“教—學(xué)—評”一體化的設(shè)計理念(如圖1所示),提出了一套可行的人工智能課程表現(xiàn)性評價方法:將評價與教學(xué)活動相融合,學(xué)生在評價過程中獲得指導(dǎo),教師可根據(jù)評價結(jié)果調(diào)整教學(xué)方案。在“教—學(xué)—評”一體化的設(shè)計理念中,核心素養(yǎng)、項目學(xué)習(xí)、表現(xiàn)性評價三者相輔相成、動態(tài)呼應(yīng):以核心素養(yǎng)為核心的教學(xué)目標(biāo)指導(dǎo)項目學(xué)習(xí)和表現(xiàn)性評價的進(jìn)行,而項目學(xué)習(xí)的過程與產(chǎn)出是表現(xiàn)性評價的對象和載體;表現(xiàn)性評價可基于課堂行為、項目作品(如編程代碼、人工智能產(chǎn)品等)、項目工作紙或過程性文檔、量表等進(jìn)行;開展依托表現(xiàn)性評價生成的反思、監(jiān)控等元認(rèn)知活動,可以同步優(yōu)化整個項目學(xué)習(xí)的效果。

圖1 “教—學(xué)—評”一體化的設(shè)計理念

圖2 人工智能課程表現(xiàn)性評價的設(shè)計流程
人工智能課程表現(xiàn)性評價的設(shè)計流程可歸納為三個步驟,如圖2所示。
(1)確定評價目標(biāo)
清晰易懂的評價目標(biāo),既是設(shè)計表現(xiàn)性任務(wù)和落實評分規(guī)則的依據(jù)與基礎(chǔ),也是整個教學(xué)活動的指揮棒。一般來說,確定評價目標(biāo)的方法有兩種[8]:一是“自上而下”基于課程標(biāo)準(zhǔn)或其他頂層設(shè)計文件確定評價目標(biāo)的標(biāo)準(zhǔn)化形式,多用于日常教學(xué);二是“自下而上”基于特定的教學(xué)內(nèi)容確定評價目標(biāo)的定制化形式,可用于校本特色課程。由于人工智能課程屬于信息技術(shù)學(xué)科,故首先要以信息技術(shù)學(xué)科核心素養(yǎng)為指引,根據(jù)各階段教學(xué)內(nèi)容制定具體的三維目標(biāo)(即知識與技能目標(biāo)、過程與方法目標(biāo)、情感態(tài)度與價值觀目標(biāo)),將抽象的素養(yǎng)標(biāo)的在知識技能和情感三個維度上進(jìn)行具體描述;繼而要根據(jù)三維教學(xué)目標(biāo)確定相應(yīng)的評價目標(biāo)(如應(yīng)該知道的、能夠做到的、應(yīng)該發(fā)展的),為后續(xù)設(shè)計表現(xiàn)性任務(wù)、實施表現(xiàn)性評價提供方向性指引。值得一提的是,近期已有國內(nèi)幾份頂層設(shè)計文件(如中央電化教育館組織編制的《中小學(xué)人工智能技術(shù)與素養(yǎng)框架》、中國教育學(xué)會中小學(xué)信息技術(shù)教育專業(yè)委員會組織編制的《中小學(xué)人工智能課程開發(fā)標(biāo)準(zhǔn)(試行)》等)針對我國的具體國情,對基礎(chǔ)教育各學(xué)段學(xué)生需掌握的學(xué)習(xí)內(nèi)容和能力水平進(jìn)行了界定。在評價目標(biāo)制定的過程中,應(yīng)參考頂層設(shè)計文件中已有的設(shè)計進(jìn)行細(xì)化,根據(jù)學(xué)科關(guān)鍵能力的階段水平和課程內(nèi)容模塊對應(yīng)的能力達(dá)成水平確定評價內(nèi)容和評價維度。
(2)設(shè)計表現(xiàn)性任務(wù)
表現(xiàn)性任務(wù)是指教師根據(jù)教學(xué)方案設(shè)計具體情境下的教學(xué)項目及任務(wù)。根據(jù)表現(xiàn)性評價在使用過程中所受制約程度的不同,可將表現(xiàn)性任務(wù)分為受限的任務(wù)和發(fā)散的任務(wù)——受限程度越高,越適合考察概念性的知識;受限程度越低,則越適合觀察學(xué)生的直接表現(xiàn)和綜合能力。在教學(xué)活動中,比較常見的表現(xiàn)性任務(wù)有紙筆任務(wù)、示范展示、實驗調(diào)查、口頭表達(dá)與戲劇表演、項目學(xué)習(xí)。表現(xiàn)性任務(wù)的設(shè)計可按照以下流程進(jìn)行:首先,根據(jù)教學(xué)目標(biāo),選擇合適的項目主題、創(chuàng)設(shè)情境,設(shè)計大單元教學(xué)中的任務(wù)組合[9]。然后,根據(jù)具體教學(xué)內(nèi)容和評價目標(biāo)設(shè)計評價任務(wù),包括制定任務(wù)要求、編寫清晰明確的任務(wù)指導(dǎo)語、根據(jù)實際情況確定可行的評價方式。最后,構(gòu)建評價規(guī)則,在具體任務(wù)中將評價目標(biāo)分解成可觀察、可評分的行為表現(xiàn)目標(biāo)。由于人工智能課程通常以項目式、協(xié)作式的形式進(jìn)行,所以評分規(guī)則需考慮個體評價和集體評價兩種類型:個體評價的評分規(guī)則指向個體行為表現(xiàn),既可以針對學(xué)生表現(xiàn)的整體情況進(jìn)行總結(jié)性評分,又可以采用分項評分規(guī)則對包含若干重要要素的、較為復(fù)雜的表現(xiàn)進(jìn)行量化;而集體評分指向團(tuán)隊/協(xié)作小組/班級,通常針對某一集體產(chǎn)出(如小組作品、集體完成的方案文檔、組裝好的智能套件等)進(jìn)行評價。借助核對表、表現(xiàn)清單、等級評價量表和基本要素分析量表確定評價構(gòu)成要素后,需進(jìn)一步將具體任務(wù)中的評價目標(biāo)分解成可觀察、可用評價標(biāo)準(zhǔn)評分的具體表現(xiàn)目標(biāo),為評價的實施做好準(zhǔn)備。
(3)實施表現(xiàn)性評價
表現(xiàn)性評價的實施需與教學(xué)過程/項目實施過程相結(jié)合,根據(jù)所選的評價方式確定數(shù)據(jù)采集方式(如錄像、問卷、觀察記錄等)。分析得到評價結(jié)果后,教師應(yīng)及時做歸因處理,以合理的方式將評價結(jié)果反饋給學(xué)生,并適當(dāng)進(jìn)行教學(xué)干預(yù);學(xué)生應(yīng)在教師的引導(dǎo)下積極反思,調(diào)整自己的學(xué)習(xí)狀態(tài)和策略。評價的實施應(yīng)遵循以下兩個原則:①全面性。評價標(biāo)準(zhǔn)要覆蓋所有學(xué)生所能達(dá)到的水平,要對不同維度的表現(xiàn)進(jìn)行差異化描述,并在實施評價時關(guān)注和凸顯不同維度的差異。②準(zhǔn)確性。評價標(biāo)準(zhǔn)對于每個維度及其每個評價指標(biāo)的描述都要清晰、準(zhǔn)確,要能夠區(qū)分不同程度的行為表現(xiàn),讓評價者能夠根據(jù)評價標(biāo)準(zhǔn)了解到評什么、如何評。同時,要讓學(xué)生能夠意識到自己現(xiàn)有水平與更高水平之間的差距,以引導(dǎo)其更好地發(fā)展。例如,在對學(xué)生的編程思路進(jìn)行評價時,可區(qū)分出三個不同的水平:①不能在任務(wù)單上寫出編程思路;②能在任務(wù)單上寫出編程思路;③能在任務(wù)單上用系統(tǒng)化的方法寫出編程思路。這三個水平依次提高,有助于學(xué)生認(rèn)識到自己需要用系統(tǒng)化的方法來思考、理順編程思路。
人工智能課程中的表現(xiàn)性評價可分為行為類、作品類、工作紙類、試題類、量表類等五種類型,這五類表現(xiàn)性評價方式的對比如表1所示。

表1 五類表現(xiàn)性評價方式的對比
(1)基于行為的評價
人工智能教育注重實踐,傾向于開展伴隨性、過程性的評價,可通過觀察和分析外顯行為來評估學(xué)生的高階能力[10]。基于行為的評價主要對課堂交互行為、編程任務(wù)表現(xiàn)進(jìn)行采集和編碼實現(xiàn),主要有三種類型:①師生或生生互動分析。例如,顧小清等[11]設(shè)計了基于信息技術(shù)的互動分析編碼系統(tǒng),形成互動分析編碼表,每3秒進(jìn)行一次行為編碼,并通過滯后序列分析形成行為序列;Zhan等[12]設(shè)計了智慧教室?guī)熒泳幋a系統(tǒng),納入了言語行為、動作行為、教師驅(qū)動、學(xué)生主動等維度,可分析“主導(dǎo)—主體”的互動程度。②論壇上的話語分析,如在線討論的話語分析[13],這種形式主要適用于混合式教學(xué),需有在線平臺的支持。③人工智能項目開發(fā)過程的行為表現(xiàn)分析。例如,美國加州大學(xué)基于Alice平臺開發(fā)了The Fairy Assessment,其通過讓用戶在三個不同難度的評價任務(wù)中調(diào)試和修正程序故障來評測其問題解決能力[14]。

表2 編程作品評分表
(2)基于作品的評價
基于開放性作業(yè)來評價學(xué)生的綜合表現(xiàn),是作品分析法的一種。Seiter等[15]設(shè)計了計算思維理解與評價進(jìn)階(Progression of Early Computational Thinking,PECT)模型,用于對小學(xué)生的計算思維進(jìn)行測評:假定小學(xué)生能夠設(shè)計、實施特定任務(wù)的程序,將其行為按照“計算思維概念—設(shè)計模式變量—證據(jù)變量”三個抽象程度依次遞減的層次進(jìn)行分類,將Scratch代碼作為具體活動可操作的證據(jù)變量進(jìn)行評分。目前應(yīng)用最廣泛的圖形化編程作品評價工具是Dr. Scratch,此工具通過觀察編程作品中程序的抽象性、數(shù)據(jù)表示、空間調(diào)控、邏輯性、并行性、觸發(fā)、同步性七個子維度對計算思維進(jìn)行評價。但是,本研究使用的平臺是科大訊飛的暢言智AI平臺,與Dr. Scratch不兼容。考慮到這一問題在其他研究中也可能存在,故本研究借鑒Dr. Scratch的基本評分準(zhǔn)則,設(shè)計了包含運(yùn)動、外觀、聲音等12個維度的編程作品評分表,如表2所示。
(3)基于項目工作紙的評價
項目工作紙即任務(wù)單,實際上是一種過程性文檔,同時也是表現(xiàn)性評價的重要資源,但目前其重要性尚未得到足夠重視。若設(shè)計或應(yīng)用方式不當(dāng)、項目工作紙完成度低,則會導(dǎo)致數(shù)據(jù)缺失值過多而難以分析。現(xiàn)有文獻(xiàn)對項目工作紙的評價大多以完成度為標(biāo)準(zhǔn),也有少數(shù)將過程文檔中的思維導(dǎo)圖作為分析對象。例如,根據(jù)思維導(dǎo)圖規(guī)則,從重點(diǎn)突出、發(fā)揮聯(lián)想、構(gòu)圖清晰、個人風(fēng)格、整體布局五個維度出發(fā),按照發(fā)展級、完成級、示范級三個等級進(jìn)行評分[16]。
(4)基于試題的評價
試題類評價是傳統(tǒng)評價常用的手段,主要用于考察概念原理的理解或知識技能的掌握。例如,Witherspoon等[17]針對機(jī)器人編程開發(fā)了三個系列的知識和概念評估工具,每個系列有17個結(jié)構(gòu)類似的問題,可評估學(xué)生對計算原理(如迭代算法、布爾邏輯)的理解;Román-González等[18]開發(fā)的計算思維測試(Computational Thinking Test,CTt)將封閉性題目以畫布形式呈現(xiàn),測量思維邏輯和編程技能;Dagiene等[19]開發(fā)的百博思測試(Bebras Tasks)面向?qū)嶋H生活問題情境,通過分層任務(wù)測量計算思維水平。除了測試成績,基于試題的表現(xiàn)性評價還考察學(xué)生的答題表現(xiàn),如正確率、作答時間、眼動和腦電狀態(tài)等。
(5)基于量表的評價
量表類的評價簡單、易操作,常被用于評價參與者的情感態(tài)度或思維能力[20]。例如,Korkmaz等[21]編制了計算思維量表(Computational Thinking Scales,CTS),含有創(chuàng)造力、算法思維、協(xié)作、批判性思維、問題解決等五個維度,在人工智能課程中使用廣泛;Kukul等[22]編制了計算思維自我效能感評價量表(Computational Thinking Self -Efficacy Scale,CTSES),用于學(xué)習(xí)者的自我評估。需注意的是,量表評價級數(shù)設(shè)計最好控制在五級以內(nèi),因為級數(shù)過多易加重學(xué)生的認(rèn)知負(fù)荷,評價結(jié)果的準(zhǔn)確率也會受到影響。
為探索表現(xiàn)性評價應(yīng)用于人工智能課程的可行性和有效性,本研究依托廣州市H中學(xué)的人工智能課程開展教學(xué)實驗。上課地點(diǎn)安排在該校的人工智能教室,教學(xué)環(huán)境包括1臺電視、1個智能音箱、2塊電子白板、10臺平板電腦、10個小飛機(jī)器人、24張可移動學(xué)習(xí)桌和其他智能設(shè)備。其中,小飛機(jī)器人可通過語音、屏幕與學(xué)生交互,也可通過編程被賦予專屬功能。實驗對象為該校的24名初中生,實驗為期6周、每周2個課時,共12個課時。
本案例采用自上而下的目標(biāo)設(shè)計方法。由于當(dāng)時義務(wù)教育的課程標(biāo)準(zhǔn)尚未發(fā)布,故本案例的評價設(shè)計主要參考了中華人民共和國教育部制定、人民教育出版社出版的《普通高中信息技術(shù)課程標(biāo)準(zhǔn)(2017年版,2020年修訂)》,結(jié)合課程內(nèi)容和學(xué)情(課程是入門課、學(xué)生均是初學(xué)者),確定了提升學(xué)生人工智能學(xué)習(xí)興趣、計算思維、人工智能知識技能三個方面的評價目標(biāo)。
根據(jù)人工智能課程的教學(xué)內(nèi)容,綜合考慮H中學(xué)的教研需求、軟硬件設(shè)備、課時條件等情況,本案例采用作品類、量表類表現(xiàn)評價方式,設(shè)計了4個表現(xiàn)性評價任務(wù),如表3所示。

表3 人工智能課程的表現(xiàn)性評價任務(wù)設(shè)計
(1)“教—學(xué)—評”一體化過程
第一階段(即人工智能科普)通過課程講授、討論和小組活動,引導(dǎo)學(xué)生了解人工智能的定義、特點(diǎn)、應(yīng)用以及發(fā)展歷程,并理解為什么“人工智能是打開未來的鑰匙”:首先,通過觀看“音控機(jī)器人”提出問題“什么是人工智能”,引導(dǎo)學(xué)生發(fā)表看法;再通過“科幻電影中的AI”“實驗室中的AI”“家人眼中的AI”三個視頻,引出對“人工智能”的科學(xué)定義。接著,通過展示無人機(jī)的送貨過程,請學(xué)生思考人工智能需要模擬人類的哪些能力,填寫任務(wù)單。然后,發(fā)放閱讀材料,請學(xué)生自行繪制人工智能發(fā)展歷程圖;在學(xué)生完成表現(xiàn)性任務(wù)期間,教師從旁輔助指導(dǎo),但不妨礙學(xué)生的思路和想法,完成任務(wù)后請各組代表分享制作思路,解讀發(fā)展歷程圖。最后,教師通過搶答的形式回顧全課要點(diǎn),并在課后發(fā)放表現(xiàn)性評價量表讓學(xué)生自評。
第二階段(即圖像分類)和第三階段(即物體識別)涉及特征提取、卷積運(yùn)算等原理知識,兼具理論難度和動手實操性。其中,第二階段通過繪制有轉(zhuǎn)換規(guī)則的圖案、使用實驗平臺體驗圖像特征提取這兩個任務(wù)來組織教學(xué);而第三階段通過課程講授和操作,引導(dǎo)學(xué)生學(xué)習(xí)物體識別技術(shù)。課前,教師將設(shè)計好的表現(xiàn)性任務(wù)單和表現(xiàn)性評價量表發(fā)給學(xué)生,鼓勵學(xué)生事先瀏覽量表,并告知學(xué)生在課內(nèi)需完成自評和組員互評。課上,教師首先重申量表的使用方法和重要性,并擇要講解評價目標(biāo);接著,教師演示使用機(jī)器人識別稀有動物,引入學(xué)習(xí)主題,并指定教室內(nèi)任一物體,讓學(xué)生探究物體識別的過程;然后,布置“慧眼識物小助手”任務(wù),讓學(xué)生通過編程解決實際問題,并在學(xué)生自主探究的過程中提供輔助指導(dǎo),當(dāng)學(xué)生遇到問題時提醒其根據(jù)量表和任務(wù)單來思考;最后,通過介紹物體識別在生活中的系列應(yīng)用總結(jié)課堂內(nèi)容。
第四階段(即人臉識別)介紹人臉識別技術(shù)的概念,引導(dǎo)學(xué)生思考技術(shù)的適用場景(如刷臉支付、進(jìn)站等)、討論影響識別率的因素,以理解原理和技術(shù)的局限性。課前,教師發(fā)放表現(xiàn)性任務(wù)單和表現(xiàn)性評價量表。課上,教師通過探究實驗讓學(xué)生體驗人臉識別流程;布置“皇后的魔鏡”任務(wù)讓學(xué)生配對編程,當(dāng)學(xué)生遇到問題時提醒其根據(jù)任務(wù)單和量表來思考。在完成“皇后的魔鏡”這個任務(wù)的過程中,學(xué)生會經(jīng)歷“確定皇后(變量)→回顧人臉識別流程(運(yùn)用已學(xué)知識)→驗證人臉信息(合作編程)→給出適當(dāng)反饋”的學(xué)習(xí)環(huán)節(jié)。
(2)基于編程作品的評價案例
本研究選取兩份較有代表性的編程作品進(jìn)行打分,以說明編程作品評分表的具體使用方法。圖3作品的總分為23分:學(xué)生新建一個變量“皇后”,得2分;使用兩次簡單的文字呈現(xiàn)功能“顯示你是最美麗的皇后在屏幕中”和“顯示你比我還丑在屏幕中”,得2分;使用三次合成聲音,得9分;使用等待功能“等待1秒”,得2分;使用兩次運(yùn)動功能,分別涉及轉(zhuǎn)向固定角度和移動固定距離,得4分;使用條件結(jié)構(gòu),得2分;使用兩個AI技能模塊,得2分。圖4作品的總分為18分:學(xué)生新建一個變量“皇后”,得2分;使用兩次簡單的文字呈現(xiàn)功能,得2分;使用兩次合成聲音,得6分;使用條件結(jié)構(gòu),得2分;設(shè)置兩個并行程序,得3分;使用五個AI技能模塊,得3分。對比這兩份編程作品可以發(fā)現(xiàn):圖3作品的程序功能簡單但豐富,編程量大,加入了創(chuàng)意想法,讓整個作品更生動、有趣;而圖4作品的程序較多地使用了高級功能,在保證功能實現(xiàn)的基礎(chǔ)上又能保持代碼簡潔明了。這兩份都是優(yōu)秀作品,但圖3作品的創(chuàng)造力更強(qiáng),圖4作品的算法思維更佳——這就是表現(xiàn)性評價的意義,可從不同角度進(jìn)行評判和反饋。

圖3 學(xué)生編程作品一

圖4 學(xué)生編程作品二
本案例采用“量表+作品”的方式在人工智能課程中開展表現(xiàn)性評價,期間發(fā)現(xiàn)存在以下問題:①量表的內(nèi)容問題。在實施評價初期,學(xué)生填寫表現(xiàn)性評價量表的積極性不高,原因主要在于量表的內(nèi)容描述過于專業(yè),學(xué)生對晦澀難懂的評價指標(biāo)容易產(chǎn)生抵觸情緒;另外,教師沒有強(qiáng)調(diào)正確填寫量表的重要性,故學(xué)生并未認(rèn)識到量表的價值。②量表的計分方式問題。實施評價的前期采取自評方式,但通過訪談發(fā)現(xiàn)學(xué)生并不認(rèn)可自評的客觀性。因此,第三階段將評價計分改為“40%師評+30%自評+30%互評”的三方評價方式,這一改變得到了學(xué)生的認(rèn)可;第四階段則進(jìn)一步加入了編程作品的評價,與三方評價結(jié)果進(jìn)行加權(quán),使評價結(jié)果更加客觀,同時也提高了評價的“教育性”。③量表的使用方式問題。在實施評價之初,第一階段于課后發(fā)放量表,引導(dǎo)學(xué)生回顧課堂表現(xiàn)、發(fā)現(xiàn)不足并有意識地改正。然而,學(xué)生難免有惰性,不喜歡占用課后時間,故能夠認(rèn)真反思的學(xué)生少之又少。因此,第二階段于課前發(fā)放量表,將表現(xiàn)性評價作為學(xué)生課堂表現(xiàn)的自我監(jiān)控工具和學(xué)習(xí)支架,引導(dǎo)學(xué)生在課堂上參考量表內(nèi)容調(diào)整自身行為。對比兩類做法可以發(fā)現(xiàn):課前發(fā)放量表并將其作為學(xué)習(xí)支架融入教學(xué)過程取得的效果更好。
教學(xué)高效,評價先行。立足國家人工智能教育戰(zhàn)略,實施表現(xiàn)性評價對于創(chuàng)新人才的高階能力培養(yǎng)有重要價值。在人工智能課程中實施表現(xiàn)性評價時,教師應(yīng)盡量使用伴隨性評價方式、采用多元計分法,強(qiáng)調(diào)并適時引導(dǎo)學(xué)生在項目執(zhí)行過程中利用好表現(xiàn)性評價工具,以更好地發(fā)揮表現(xiàn)性評價的教學(xué)價值。長此以往,學(xué)生的元認(rèn)知能力將得到發(fā)展,以評定教、以評促學(xué)的目的也將達(dá)成。隨著智能化技術(shù)的發(fā)展,智能化、伴隨性的表現(xiàn)性評價有望成為課堂教學(xué)的新形態(tài),并實現(xiàn)人工智能技術(shù)與人工智能教育的雙向賦能。
[1][7]詹澤慧,鐘柏昌.高中人工智能教育應(yīng)該教什么和如何教——基于四本《人工智能初步》教材的內(nèi)容分析[J].電化教育研究,2020,(6):68-74、82.
[2]Walvoord E, Anderson J. Effective grading: A tool for learning and assessment[J]. Academic Standards, 1998:1-16.
[3]周文葉,陳銘洲.指向核心素養(yǎng)的表現(xiàn)性評價[J].課程·教材·教法,2017,(9):36-43.
[4]Meisels S J, Xue Y, Bickel D P, et al. Parental reactions to authentic performance assessment[J]. Educational Assessment, 2001,(1):61-85.
[5]羅平,李輝.基于思維建模的小學(xué)英語多媒體表現(xiàn)性評價的設(shè)計和實施[J].教育測量與評價,2017,(10):28-34.
[6]Stiggins R J. NCME instructional module on design and development of performance assessments[J]. Educational Measurement Issues & Practice, 1987,(3):33-42.
[8]崔允漷.課程實施的新取向:基于課程標(biāo)準(zhǔn)的教學(xué)[J].教育研究,2009,(1):74-79、110.
[9]詹澤慧.計算機(jī)基礎(chǔ)課程中的組合式任務(wù)驅(qū)動教學(xué)設(shè)計[J].中國教育信息化,2011,(7):63-65.
[10]劉嬌,李建生.計算思維的評估方法及應(yīng)用案例研究[J].現(xiàn)代教育技術(shù),2019,(10):94-99.
[11]顧小清,王煒.支持教師專業(yè)發(fā)展的課堂分析技術(shù)新探索[J].中國電化教育,2004,(7):18-21.
[12]Zhan Z, Wu Q, Lin Z, et al. Smart classroom environments affect teacher-student interaction: Evidence from a behavioural sequence analysis[J]. Australasian Journal of Educational Technology, 2021,(2):96-109.
[13]Zhan Z, Fong P S W, Mei H, et al. Effects of gender grouping on students’ group performance, individual achievements and attitudes in CSCL[J]. Computers in Human Behavior, 2015,(48),587-596.
[14]Werner L, Denner J, Campe S. The fairy performance assessment: Measuring computational thinking in middle school[A]. Proceedings of the 43rd ACM Technical Symposium on Computer Science Education[C]. New York: Association for Computing Machinery, 2012:215-220.
[15]Seiter L, Foreman B. Modeling the learning progressions of computational thinking of primary grade students[A]. Proceedings of 9thAnnual International ACM Conference on International Computing Education Research[C]. New York, USA: ACM, 2013:59-66.
[16](英)托尼·博贊著,李斯譯.思維導(dǎo)圖——放射性思維[M].北京:世界圖書出版公司,2004:24.
[17]Witherspoon E B, Higashi R M, Schunn C D, et al. Developing computational thinking through a virtual robotics programming curriculum[J]. ACM Transactions on Computing Education (TOCE), 2017,(1):1-20.
[18]Román-González M, Pérez-González J C, Jiménez-Fernández C. Which cognitive abilities underlie computational thinking? Criterion validity of the computational thinking test[J]. Computers in Human Behavior, 2016:678-691.
[19]Dagiene V, Futschek G. Bebras international contest on informatics and computer literacy: Criteria for good tasks[A]. International Conference on Informatics in Secondary Schools[C]. Berlin, Heidelberg: Springer, 2008:19-30.
[20]Kong S C, Chiu M M, Lai M. A study of primary school students’ interest, collaboration attitude, and programming empowerment in computational thinking education[J]. Computers & Education, 2018,127:178-189.
[21]Korkmaz ?, ?akir R, ?zden M Y. A validity and reliability study of the computational thinking scales (CTS)[J]. Computers in Human Behavior, 2017,72:558-569.
[22]Kukul V, Karatas S. Computational thinking self-efficacy scale: Development, validity and reliability[J]. Informatics in Education, 2019,(1):151-164.
The Design and Application of Performance Evaluation in Artificial Intelligence Courses
ZHAN Ze-hui1YAO Jia-jing2WU Qian-yi1HUANG Bing-gang3
Under the background that national policies actively encourage artificial intelligence education and core literacy orientation drives the reform of classroom evaluation, how to carry out performance evaluation in artificial intelligence courses has become an important research topic. Firstly, this paper analyzed the suitability of performance evaluation applied in artificial intelligence courses. Then, the integrated design concept of “teaching-learning- evaluation” was put forward, and a three-step design process of “objective-task-implementation” was constructed. Meanwhile, five typical performance evaluation methods were summarized. Finally, this paper took an artificial intelligence course in H Middle School as an example to carry out the application of performance evaluation. It was found that performance evaluation could evaluate and give feedback from different angles, and there were problems in content design, scoring methods, and usage methods during the process of using performance evaluation scales. Carrying out performance evaluation in artificial intelligence courses to promote teaching by evaluation and promote learning by evaluation was conducive to the formation of students’ high-level ability and was an effective way to cultivate innovative talents in the intelligence era.
artificial intelligence course; performance evaluation; core literacy; programming work
G40-057
A
1009—8097(2022)05—0032—10
10.3969/j.issn.1009-8097.2022.05.004
基金項目:本文為廣東省教育廳重大基礎(chǔ)研究與應(yīng)用研究項目“基于學(xué)科模型的創(chuàng)新能力培養(yǎng)信息化平臺設(shè)計與應(yīng)用”(項目編號:#2017WZDXM004)、華南師范大學(xué)哲學(xué)社會科學(xué)重大培育項目“面向創(chuàng)新能力培養(yǎng)的跨學(xué)科組合策略與應(yīng)用效果研究”(項目編號:ZDPY2208)的階段性研究成果。
詹澤慧,教授,博士,研究方向為STEAM教育、學(xué)習(xí)分析與智慧教育,郵箱為zhanzehui@m.scnu.edu.cn。
2021年12月31日
編輯:小米