999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能教育評估應用的潛力和局限

2021-01-02 22:29:23曹夢瑩約翰加德納邁克爾奧利里
開放教育研究 2021年5期
關鍵詞:計算機人工智能作文

袁 莉 曹夢瑩 約翰·加德納 邁克爾·奧利里

(1.北京師范大學 未來教育學院,廣東珠海519085;2.上海開放大學 上海開放遠程教育工程技術研究中心,上海200433;3.英國斯特林大學 教育學院, 英國; 4.愛爾蘭都柏林城市大學 教育學院,愛爾蘭)

近年來,隨著人工智能技術的迅速發展,如何有效地利用這些技術推進教育評價改革,幫助教師全面了解和掌握學習者狀態,并根據學習者產生的數據對學習狀況進行準確評估,促進學習者綜合能力和素質的提高,已成為教育界關注的問題。教育評估既要評估學生成績,也要通過評估提高其能力;評估標準既要有篩選價值,也要涵蓋個體的增值性評價(張生等,2021)。然而,許多面向教學的人工智能技術聚焦減輕教師負擔,如自動完成作業批改、單元測試和考試評估等,隨之也帶來一些問題,如教師需要通過檢查作業了解學生對知識的理解和掌握程度,為備課提供依據;人工智能技術能否對學生學習作出準確判斷,并避免數據偏見和算法黑箱。迄今為止,很少有證據表明,基于人工智能和大數據的學習分析確實改善了學習結果(Ferguson & Cllow, 2017)。因此,運用人工智能對學生進行評估和考核應該格外慎重,否則不但不能促進學生學習,反而會帶來很多負面影響。

受疫情影響,2020年英國高考A-level和中考GCSE被取消。英國考試監管機構(Ofqual)公布了評定成績的“標準化模型”——一種旨在避免分數膨脹的神秘算法,結果發現該算法對所有A-level學科成績預測的準確性只有60%,即近40%的學生成績低于教師給出的預估分數(Ofqual,2020)。鑒于準確率過低,英國政府不得不取消人工智能提供的成績,以教師評估為標準。英國考試監管機構希望通過使用人工智能算法提高學生成績預測的準確性,但沒有足夠的數據,無法獲得精準的預測模型。因此,承認歷史數據的局限性對于考核評估算法應用尤為重要。

計算機應用于教育教學測評由來已久,特別是在作文批改、語言教學及數學等標準化學科考試中的應用尤為廣泛。代表性的兩個應用系統是“作文自動評分”(Automated Essay Scoring, AES)和“計算機自適應測驗”(Computerised Adaptive Testing, CAT)。作文自動評分系統被廣泛應用于大型考試的智能作文評分,如美國、英國、澳大利亞等國家研究生管理專業入學考試(GMAT)寫作部分和一些作文批改評分平臺(批改網、Grammarly等),計算機自適應測驗系統主要被應用于美國研究生入學考試GRE和GMAT。本研究基于對這兩大核心系統應用和相關研究的分析,闡述人工智能應用于教育評估面臨的問題和挑戰,以及運用學習分析對學生進行形成性評估的潛力和意義。

一、人工智能與教育評估

人工智能一詞,最早是由計算機專家約翰·麥卡錫 (John McCarthy)等學者提出來的,指運用計算機軟硬件模擬人類某些智能行為的基本理論、方法和技術(黃欣欣,2017)。機器學習作為人工智能的分支,“是對計算機算法的研究,允許計算機程序通過經驗自動改進”(Mitchell, 1997)。人工智能本質是機器“學習”,即讓計算機具有“學習”能力,通過對數據分析,“訓練”出一個模型對新數據進行預測。因此,大量的數據和機器學習是人工智能的基礎。麥肯錫公司(McKinsey Co.,2011) 和高德納公司(Gartner Glossary,2019)強調,“大數據”是需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據概念起源于工程、量子物理和天文學等科學研究的大規模計算環境 ,數十億份實驗數據都要經過大規模算法分析以辨別模型、發現因果關系和預測可能的結果。大數據已應用到現代社會醫療診斷、消費趨勢分析、天氣預報等領域。以機器學習為核心的這些應用程序的“智能”特性體現在兩個層面:無監督學習和監督學習。無監督學習指計算機從大量數據集中學習并更新識別模型。監督學習指計算機利用人工標注的數據訓練預設好的模型,從而學習海量數據集中的相關性,并對已有模型完善和優化。

在教育評估中,機器學習概念同樣適用。如果計算機可以檢查學生“學”的效果,那么它就可以“教”學生知識,并對學生的知識掌握情況進行評估。簡言之,如果訓練計算機“學習”評估標準,評判學生對知識的理解和掌握情況(無論是書面的還是口頭的),并按照既定標準對學生答案進行匹配,那么它就有應用于教育評估的潛力。但是,對教育工作者來說,掌握知識和能夠理解并靈活應用知識存在差異。因此,教育評估中人的判斷和機器的判斷是不同的,這一差異在以計算機為基礎的學生寫作評估中尤為明顯。

二、計算機在教育評估中的應用

(一)作文自動評分系統的應用

1.作文自動評分系統的發展及其使用特征

基于計算機技術的作文自動評分系統近年被越來越多的高等教育機構用于評估學生寫作。四個領先的商業作文自動評分系統包括項目作文評分(Project Essay Grading,PEG)、智能測評(Intellimetric)、 智能作文評估軟件(Intelligent Essay Assessor,IEA)和電子評分器(e-Rater)。項目作文評分主要應用于教師執照考試 (Praxis)、GRE考試和英語分級考試;智能測評用于K-12標準參照測驗(K-12 norm-referenced test);智能作文評估軟件主要用于GMAT考試;電子評分器用于GMAT考試和書面英語考試(Test of Written English,TWE)(Ben-Simon & Bennett,2007)。使用作文自動評分工具進行大規模評估優勢明顯,包括及時反饋、低成本和評分一致性。此外,作文自動評分工具應用于課堂評估,可以減少寫作教師的工作量,并為每個學生提供即時反饋(Bull, 1999)。

早在1966年,項目論文評分的發明者、作文自動評分系統的先驅埃利斯·佩奇(Ellis Page)發表了題為《計算機作文評分的必要性》的文章,描述了使用計算機技術批改論文的想法,期望將英語教師從批改作文的負擔中解脫出來,并預測隨著自然語言處理技術的不斷成熟,機器能夠像人一樣不斷學習、理解和評估寫作的不同指標(Wrech, 1993)。四十多年后,到2007年,本-西蒙和貝內特(Ben-Simon & Bennett,2007)分析了四個先進的商業作文自動評分系統發現,作文評估的基礎(如所使用的指標)幾乎沒有什么變化,但是,這些系統使用的人工智能引擎更加精準,其容量和效率有了很大提高。例如,美國教育考試服務中心的電子評分器使用相對容易檢測的四個評估指標(Deane,2013):語法(如主謂語不一致、代詞誤用、所有格錯誤等)、用詞(如定語和介詞錯誤、詞的形態錯誤等)、技巧(如字母大小寫、標點符號、拼寫錯誤等)、風格(如單詞重復使用等)。同時,該系統還使用較復雜的指標,如文章立意(如觀點陳述、要點、討論深度)、詞匯的復雜性(如使用不尋常或復雜的單詞等)、句子變化、資料引用、觀點一致性(如是否偏離文章主題等)。

作文自動評分系統必須了解這些指標與學生作文質量之間的關系,才能給出相應的分數。因此,人們要先“訓練”計算機,即計算機需要從大量的學生作文中識別這些指標并與人工分數進行比較。人工評分和范文越多,計算機給出的成績與人工給出的分數越接近。因此,通常情況下,機器評分和人工評分在一定范圍內能夠達成一致。但對特別優秀或非常糟糕的作文,人工評分與機器評分會出現較大差異。例如,機器在檢測語法、詞匯和技巧方面比人工更準確迅速,但對寫作的高級表現形式,如創造力、獨特的論據、分析與綜合能力等,因人工智能處在低級智能階段,數據驅動的評價標準無法全面、深刻地反映學生寫作的真實水平,相比之下,人工測評往往會在全面、深刻理解的基礎上,給出較為準確的評價。

最初使用作文自動評分系統評估寫作的研究,希望通過大規模、高效和準確的機器作文自動評分降低評估成本。但是,對于從事英語母語和第二外語教學的教師來說,與更為復雜和高級的寫作構思相比,寫作的技術指標是次要的。美國中學成功寫作框架(CWPA et al., 2011)表明了寫作過程建構的復雜性,強調教師要通過寫作訓練,發展學生的能力,為高等教育的學習做準備。它主要集中在以下方面:

?好奇心:渴望更多地了解世界的愿望;

?開放性:愿意接受新的生活方式和思維方式;

?敬業度:全心投入和參與學習的意識;

?創造力:用新的方法解決問題、研究和表達新的想法的能力;

?持久性:對短期和長期項目保持興趣和注意力的能力;

?責任感:具有較強行動能力并能對行為后果進行判斷;

?靈活性:適應環境,能達到相應的期望或要求的能力;

?多元認知:能夠不斷反思并提高自己的認知和文化認同能力。

可見,對于作文自動評分系統研發人員來說,面臨的挑戰是如何將高效、準確和低成本的寫作評估轉化為更加復雜和高級的指標。“項目作文評分”的修訂版使用語法檢查器和詞性標記器等自然語言處理工具(Page, 1994; Page & Petersen, 1995)。2003年發布的電子評分器第二版 (Attali & Burstein, 2005;Burstein et al., 2004)確定了12條優秀作文的評價標準,涉及五個維度:語法、用詞、技巧和風格,組織和發展,主題分析(即特定提示詞匯),詞的復雜性,論文長度(Attali & Burstein, 2005),有助于程序開發人員理解測評內容。

2. 作文自動評分系統的應用及學界對其有效性的質疑

近年來,人工智能技術在作文自動評分系統的應用,促使其不斷完善,并在為學生和老師提供寫作技能的快速反饋方面取得了重要進展。中國2011年上線的批改網是一款基于語料庫和云計算技術的機改作文系統,此系統以大學英語四級作文考試要求為模板,可以在1.2 秒內自動批改學生的英語作文,并給出分數、總評、按句糾錯的批改反饋(張芳等,2021)。批改網提供的多維分析報告可以幫助教師及時了解學生的寫作水平,指導課堂英語教學;教師可以基于批改網積累的語料庫素材,分析學生作文數據,了解學生學習軌跡,從而輔助其科研。批改網也能激發學生英語寫作興趣,幫助他們提高英語寫作能力(張芳等,2021)。但研究人員也發現一些問題,如“無法準確評估作文內在質量”(何旭良,2013),智能評價系統對“篇章結構和邏輯思維”無法做出準確判斷(張芳等,2021)。作文自動評分系統對作文質量的測量仍以語法和語義內容為主,對思想、立意、創新性等深層屬性的測量還遠遠不夠(楊麗萍等,2021)。此外,浙江大學與杭州增慧網絡科技有限公司聯合開發了冰果英語智能作文評閱系統,但有研究人員(張仲德等,2013)通過實踐發現該系統評閱得分有時與人工評閱出入較大,且程式化寫作往往得分較高。這些與作文自動評分系統應用出現的問題一致,即系統只能對語言的表層現象加以評定,對深層次的語言現象評判不足,忽視了寫作過程中的修辭、認知、思維發展過程等因素(張荔等,2016)。

長期以來,不少機構和研究人員反對用作文自動評分系統評估寫作質量。例如,美國全國英語教師理事會參考大量與自動評估相關的文獻,對作文自動評分提出質疑,如計算機無法識別或判斷那些與高水平寫作相關的元素(如邏輯性、清晰度、準確性、創新風格、更強的吸引力、不同的組織形式、說服類型、證據質量、幽默或諷刺,以及重復的有效使用等)。使用計算機評估學生寫作剝奪了學生在寫作中獲得除特定要求外的任何發揮的機會;迫使教師忽略寫作教學中最重要的因素,而去教學生一些毫無意義的東西。計算機按照編程特定的提示給作文打分,減少了教師通過評估改進寫作教學的興趣和創新的機會 (NCTE, 2013)。佩雷爾曼(Perelman, 2012a)是主要的批評者之一,明確指出“作文自動評分簡直就是荒謬的”。佩雷爾曼設計了被稱為機器評分克星的自動語言生成器“Babel”,以揭示自動評分的弱點和缺陷。機器評分克星通過運用計算機的瘋狂填詞游戲(Mad Libs)創作出毫無意義的作文,卻能在機器評分中獲得高分。佩雷爾曼(Perelman,2018)認為計算機只能計算,不能真正理解意義,往往只是按照設定的算法執行。學生一旦掌握了計算機批改的技巧就可以在考試中通過使用大量復雜詞匯、復雜句子和關鍵短語來愚弄算法。他分析了許多作文自動評分系統,并以此作為批判作文自動評分的研究證據,認為作文自動評分鼓勵“使用難懂的、晦澀的和矯飾的語言”(Perelman,2012b,p126),并嚴厲地駁斥了所有作文自動評分“不理解意義,也沒有感知能力”(Perelman,2012b,p125),指責它們在評估中過度強調作文長度等(Perelman,2014)。其他語言專家,如康登(Condon,2013)支持利用“作弊”的方式查找作文自動評分的弱點,但認為這種做法不能解決核心問題,只是將注意力轉移到不相關的爭論上,即“把焦點放在作文自動評分提供的分數是否與人工評分一致上,實際上是將兩個不相關的度量認為是相關的”。迪恩(Deane,2013)指出作文自動評分系統專注于“衡量作品的最終質量”,人工評分更關注學生的寫作技能,即閱卷人在閱讀學生作文時側重于理解寫作者的思想,而作文自動評分系統強調識別文本中的標識。即使人工和計算機評分結果一致,它們的內在含義差異也很大:“沒有作文自動評分系統可以達到在理解作者意思的基礎上進行評估”(Deane,2013)。迪恩(Deane,2013) 認為,寫作的目的是為了與人交流。如果學生的第一次寫作經歷是對著一臺機器,這可能意味著寫作不被視為人際交流,反過來可能降低評估的有效性。此外,由于計算機寫作評分的算法是根據過去的經驗和知識設定的,我們也無法知道評分中是否包含了特定類型的偏見。因此,他強烈反對在入學考試、分班或期末測驗等高風險考試中使用作文自動評分系統進行寫作評估。

從短期看,作文自動評分系統可以幫助老師減輕批改負擔,及時給予學生反饋(張荔等,2016)。但從長遠角度看,學生容易在自動批改評分中形成寫作的固化思維,影響真正的寫作,而且面對計算機評估的寫作本身違背了寫作的社會屬性(Deane,2013)。如果大學的作文評估都是機器評分,很可能導致高中的評分系統和寫作訓練都基于自動評分,從長遠來看,這不利于通過寫作培養學生的交流能力。作文自動評分系統的發展,除了擴展評估指標的范圍,還需要加強對寫作結構的理解。另外,如何將作文自動評分系統用于寫作教學支持教學創新,幫助學生提高認知能力并與社會實踐相結合,從而提高學生的寫作水平也非常重要(Deane,2013)。漢姆普-萊昂斯和康登(Hamp-Lyons & Condon,2000)研究證明了將寫作評估視為一個涉及迭代、學習和多方利益相關者互動過程的重要性。edX、麻省理工學院和哈佛大學等相繼使用基于機器的作文自動評分系統評估慕課書面作業。Coursera在此基礎上,增加以人為基礎的“校準的同行評審”,來對學生寫作進行評分并提供反饋(Balfour,2013)。這種模式將作文自動評分系統用于慕課寫作教學,給學生提出反饋和修改意見,然后使用校準的同行評審進行最終評估(Sandeen,2013)。這使得一些簡單問題能盡早得到糾正,從而改善作文質量,且比單一的人工評估或機器評估更為準確和高效(Balfour,2013)。

(二)計算機自適應測驗的應用和面臨的挑戰

1.計算機自適應測驗

計算機自適應測驗具有設計標準化和操作簡單等特性,但題目選擇與評估的算法和技術復雜。它與作文自動評分系統的主要區別是:作文自動評分系統的機器學習試圖模仿人工評分標準進行判斷,計算機自適應測驗使用一系列測試題目決定考生能力,標準是預先設定的,即根據題目難度判斷考生的知識掌握水平。在計算機自適應測驗評估中,計算機根據考生對測試題的反應有目的地選擇下一題,直到可以評估考生是否達到被測能力的極限。諾一瓊斯(Noijons,1994)將自適應測試定義為“在計算機幫助下誘發和評估語言表現的綜合程序,包括生成測試、與參與者互動、反饋評價”。計算機自適應測驗與紙筆測試、一般計算機測驗的區別是具備估算被試者的能力、不依賴于測試題目的特性;可以根據題目的信息量, 選擇與被試者能力相匹配的題目;測試管理靈活,測試結果可以立即顯示,減少考生考試焦慮;與傳統測驗相比,計算機自適應測驗可節省成本(趙茜等,2020;Mulkern, 1998;Weiss, 1990; Straetmans & Eggen, 1998)。通過計算機自適應測驗彈性水平策略,考生通常被給予適合其特定水平的測試,不需要回答對他們來說太難或太易的問題(Larson & Madsen,1985)。

計算機自適應測驗評估是個迭代過程(Rudner,1998),算法通常包括:1)根據預估的考生能力和水平,對題庫的所有考題進行評估,確定適合考生水平的題目,選定合適的考題,由考生回答;2)根據考生答案重新計算其能力和水平;3)重復1到2步驟,直到確定考生最終能夠達到的標準。簡言之,當計算機選擇第一道題時,其預期是考生可以給予正確答案。計算機自適應測驗為了確定適當的難易水平,測試前問考生一些代表其能力水平的指標問題,然后根據這些數據決定第一道考題。在缺乏了解考生能力的情況下,計算機自適應測驗通常會在嘗試過程中提供難度較低的題目(如70%的考生可以回答正確),然后逐步加大難度,直到能夠判斷考生可以達到的能力和水平的上限,即“測評的終結點”。在相對簡單的及格測評設計中,“測評的終結點”是考生超過及格分數線或沒有達到及格分數線。因此,計算機自適應測驗常用于總結性評估,如高風險的考試測評(大學入學和就業等)。

2.計算機自適應測驗的應用及存在的問題

教育評估中兩種著名且成功的基于計算機自適應測驗的考試是美國研究生管理入學委員會的GMAT和美國教育考試服務中心的GRE考試。全球商學院都使用GMAT成績挑選MBA申請者。當學生開始GMAT考試時,計算機假設學生有一個平均分數,給出一道中等難度的題目。如果學生回答正確,電腦會給出更難的考題,并增加難度。反之,如果回答錯誤,計算機會降低難度。學生分數由預設的算法決定,該算法不僅根據學生答案的對與錯,還根據他們回答問題的難度計算學生能力。此外,GMAT寫作評估采用六分制,由人和計算機共同完成,學生考試結束后可立即收到非官方的GMAT成績,并選擇保留或取消他們的GMAT成績(KAPLAN,2020)。GRE科目測試旨在測量學生特定學科領域(如數學、歷史或英語文學)的成績(Stocking et al., 2000)。

美國 K-12 基礎教育考試服務執行主任馬特森認為,計算機自適應測驗的最大優勢是學生作答試題的難度與學生能力匹配。這一優勢能帶給學生更有益的考試體驗,能力低的學生不會遇到無法回答的題目,因而不會備受打擊;能力高的學生不會因回答過于簡單的試題而失去興趣,這能夠提高學生的測驗參與度和動機(王超,2017)。

由于計算機在語言測試中的重要作用,很多學者開始比較計算機測試與筆試的差異。侯賽尼等(Hosseini et al.,2014)在慕尼黑大學隨機抽取了106名伊朗英語學習者計算機測試與筆試的成績。結果表明,參與者的筆試成績優于計算機測試成績。此外,其他學者也發現,受試者書寫測試比計算機測試表現更好(Coniam, 2006; Cumming et al.,2006; Salimi et al., 2011;Mazzeo et al.,1991)。計算機自適應測驗基于寫作反應理論模型,此模型不能用于所有寫作,因為它不適用于開放式問題和不容易校準的寫作 (Rudner, 1998)。計算機自適應測驗的另一個缺點是,考生無法在測試結束前退回去更改答案,因為下一道題目是根據前一道題的結果給出的 (Rudner, 1998)。安全性是計算機自適應測驗的另一個重要問題。如果題庫被用來測試考生的知識,在測試過程中,有些題目可能比其他題目更頻繁地出現,這些題目可能被記住并傳遞給其他考生(Wainer & Eignor,2000)。

另外,莫內塔-克勒等(Moneta-Koehler et al.,2017)反對美國教育考試服務中心將GRE考試分數作為研究生入學的唯一標準。他們以范德堡大學國際研究生項目為例發現,GRE成績不能預測學生能否順利博士畢業或發表更多論文。因此,他呼吁生物醫學科學招生委員會應考慮最大限度地少用GRE分數預測學生學習成績和創作力。在過去十年,計算機自適應測驗應用結果的有效性幾乎沒有變化。有研究者擔心,其設計可能會限制婦女和少數民族人員進入科學等關鍵領域,例如,米勒和斯坦森(Miller & Stassun,2014)指出,女性候選人的GRE成績平均比男性少80分,非裔美國人比白人少200分。

三、學習分析與教育評估

(一)大數據與學習分析

大規模數據分析是人工智能用于教育評估的基礎,例如,作文自動評分系統基于眾多人工測評對大量學生寫作進行評判,計算機自適應測驗基于許多學生多項選擇題測試結果。大數據在這些評估中的共性,也就是機器學習在科學、醫學和技術發展中的應用都是過程數據,即使用應用程序可以有目的或偶然地在線捕獲數據。分析這些學習和評估數據的技術通常被稱為學習分析(有時稱為教育數據挖掘)。學習分析是對與學習活動相關的學習者數據采集、分析和干預的過程(Ga?evic et al.,2015),最常使用的定義是第一屆國際學習分析和知識會議(Long & Siemens,2011)提出的:“……關于學習者及其學習數據和情境的測量、收集、分析和報告,目的是理解和優化學習及其發生的環境”。這些目標的實現很有價值。埃利斯等(Ellis et al.,2013) 認為,大部分學習分析活動通常專注于預測,如識別大數據中與特定結果相關的模型,以提高學生的考試成績。然而,越來越多的人認識到課堂或培訓環境中形成性評估的重要性,因此,如何使用教學大數據進行智能分析,幫助學習者形成性地自我調節從而改進學習顯得尤為重要。

柯普等(Cope & Kalantzis,2016) 將學習過程中機器評估收集的各種數據分為結構化數據(即由計算機專門預測和捕獲的數據)和非結構化的偶然數據,如迪賽爾博和貝倫斯(DiCerbo & Behrens,2014)提出的“數據廢氣 ”(data exhaust)。后者包括點擊數、日志文件等時間、擊鍵和編輯歷史記錄或“軌跡”。通過分析,我們可以了解學生是如何解決問題、所犯的錯誤和所做的修改、對概念的誤解,以及面對學習進展緩慢或沒有進展時的反應和應對能力等。此外,他們通過攝像機、錄音機、智能手表和手環等對學生進行眼動追蹤、面部表情、身體姿勢、手勢和課堂發言等方面的數據收集,以此作為教學活動過程的評價參數,如分析同伴互動甚至情感狀態,包括困惑、沮喪、無聊和參與度等。對智能導師系統(Intelligent Tutoring Systems)捕獲的數據進行深入分析可以幫助教師更好地了解學生并改進教學策略。莫萊納爾等(Molenaar et al.,2021) 將計算機自適應測驗的績效評估數據運用到自適應學習平臺,幫助教師選擇合適的學習資源(教學材料)和確定適合于不同學生的問題。教師如果能夠及時分析這些不同類型的數據,了解學生如何對待學習任務以及他們在哪些方面掌握了知識,哪些方面面臨困難,可以作為形成性反饋及時提供給學生。例如,Embrace系統使用動態跟蹤數據,為學生可視化在線閱讀理解任務的表現提供即時形成性反饋(Walker et al.,2017)。阿爾喬哈尼等(Aljohani & Davis,2013) 使用手機數字儀表板讓學生查看測驗結果,為學生提供有關學科整體成績的及時反饋,并按照布魯姆分類學對學生認知水平進行評估。上述例子雖然都是按照學校要求對學生的學習進行評估,是一種描述性的可視化分析, 但也展示了人工智能既有用于總結性評估實時反饋的特性,也有用于形成性評估的潛力。

(二)學習分析與形成性評估

蒂勒等(Thille et al.,2014) 認為可以從三方面對大規模評估數據進行多樣化評價:1)連續性(始終自動收集數據);2)反饋性(為老師和學生提供實時的數據分析、解釋和報告);3)多樣性(可以收集點擊數、日志文件,以及自動記錄的多種數據)。隨著新的評估測試和測試群體的不斷增長,大規模評估數據分析,可以提供全面的學習“軌跡”建模 (“專家系統”),從而將個體學生的學習表現與以大多數學生群體為基礎所建立的典型表現模型進行比較。其中非常重要的一點是“專家系統”對學生的評價是由系統自動給出的“提示”,并以腳手架教學或形成性評估干預的形式,在學生解決問題的過程中適當地提供實時反饋。另外,蒂勒等(Thille et al.,2014)還指出,在某些情況下,“專家系統”提出的一個步驟到另一個步驟的學習策略與學生的實際軌跡和決策不符,通過更好地了解學生不同的學習方法,能夠更好地改進專家系統,提供更加精準的學習路徑推薦。如果要在實施過程中向學生提供有意義的反饋,就要求學習分析及時準確,這就是柯普等(Cope & Kalantzis,2016)提出的學習分析結束了“教學和評估分離的歷史”,并具有“隨時提供反饋”的潛力。然而,將這些形成性評估技術從蒂勒等的小規模在線環境(智能導學系統、編碼實踐和應用慕課)遷移到更多樣化的學習環境,可能因數據捕獲的挑戰性,前景有限。

毫無疑問,形成性評估在教育中的作用越來越重要,人們也越來越對運用大數據和智能分析幫助學生在在線學習環境發展自主學習能力感興趣。自主學習 (self-regulated learning,SRL)是一種復雜的現象,受每個人的個性特征、學習習慣和學習環境的影響。例如,西奇內利等(Cicchinelli et al.,2018) 確定了與學生自我計劃和監督相關的指標,這些指標與學生的學習和考試分數直接相關。另外,賈維拉等 (Jarvela et al.,2020)認為,最近掀起的學習分析熱潮,通過對學生的情緒、社交和認知等進行跟蹤,使以前完全不透明的自主學習過程變得清晰可見,特別是在協作學習環境中更是如此。基于這些發展,美國高考(ACT)測試研究小組采用移動應用程序 Companion 進行實時測試,對學生學習進度和成果進行及時分析和反饋(ACTNext,2020)。該系統使用“動態認知診斷模型和機器學習算法”分析測試結果和學習資源的使用情況,并承諾可以通過亞馬遜的Alexa和蘋果的 Siri 等工具融入學生日常生活。無疑,學習分析反饋對任何學習環境的個性化形成性評估都非常有用,特別是在慕課或其他大規模在線學習環境中,成千上萬的學習者共同學習一門課程。在這種情況下,自主學習變得尤為重要,因為外界的形成性評估和及時性反饋受到教師當面答疑甚至異步互動成本的限制。學伴評估,如果準確的話,可以幫助解決慕課形成性評估問題(Garcia-Martinez et al.,2018),但簡森等(Jansen et al.,2020)提出,使用學習分析和內置干預,即按照自主學習設計的課程資源視頻,可以提高慕課課程完成率, 越來越多的研究證實了這一結論 (例如,Jarvela et al.,2020;Martin & Ndoye,2016;Tempelaar et al.,2013;Gutierrez Rojas & Crespo Garcia,2012)。正因為如此,對于在線學習開發人員來說,能夠在慕課中提供自動化且具有成本效益的個性化形成性評估和反饋是首要目標。

如果教師對學生學習的反饋主要用于改善教學質量而非與其他學生比較,并關注學生個體進步,那么學生可以通過形成性評估反饋知道下一步該做什么,從而產生控制自己學習的滿足感,激發學習動機和有效完成學習目標(Brookhart, 2008; Crooks, 1988)。學習分析與形成性評估都具有及時反饋的特征。形成性評估幫助學生了解學習過程中的表現,而學習分析為學生提供了有關個人表現的信息,并可提高教師對不同學生表現的認識深度(Aljohani & Davis,2013)。布萊克等(Black & William,1998)總結了250多項形成性評估研究后發現,形成性評估是課堂工作的重要組成部分,可以提高學生學習成績。基于學習分析的形成性評估對于教學過程的評價更為科學、系統和智能,進而可實現數據驅動下的“以學定教和因學定導”(畢鵬暉,2021)。

斯佩克特等(Spector et al.,2016) 強調了個性化形成性評估的重要性,但發現在某種程度上,智能導學系統可能會“一刀切”。這些系統雖然能夠判斷學生存在的問題并幫助學生彌補不足,但對存在同樣問題的學生給出的建議都一樣。他們認為,學習分析系統可以通過對學生進行更深入的分析,并結合各種績效分析技術提供反饋,以滿足不同學生的需求。個性化學習分析可以通過捕獲學生學習過程的“隱性”數據,如監測那些連續的、內在的和不明顯的行為,識別學生的學習習慣,并結合“顯性”的學生畫像,包括他們的愛好、興趣和態度等外在數據,對學生的學習提供及時、有效的干預。但是,與營銷和其他個人在線活動分析一樣,個性化學習分析使用不當可能會引發倫理問題。 這種反饋機制“尚未能夠大規模和持續運用”(Spector et al.,2016)。

四、結 語

盡管計算機算法和大數據分析技術有了突飛猛進的發展,但目前教育評估中人工智能運用的基本原理和功能幾乎沒有明顯變化,即以總結性評估為主的計算機自動測評而非以學習過程數據為基礎的形成性評價為主。不可否認,人工智能評估的效率、速度和精準都有了顯著提高,能夠達到與人工評估非常相近的結果,甚至在某種程度上,特別是在標準化測試和自適應教學系統中發揮了計算機評估和反饋更為迅速、客觀、準確的優勢。通過分析作文自動評分系統和計算機自適應測驗的發展狀況,本研究發現這些教育評估的核心應用已從機器學習的技術進步中受益,人工智能技術仍會不斷迭代。但是,寄希望于運用人工智能系統取代人工評估仍然是不現實的。將基于學生能力特征分析的計算機自適應測試、模仿人工判斷的作文自動評分系統,與復雜學習過程的各種數據整合,可以提高教育評估的效率和有效性。精準的學習分析可以通過手機等移動設備為學生在慕課和智能導學系統的學習提供合適和有目的的形成性評估反饋,支持學生的自主學習。隨著計算機硬件技術和軟件系統的不斷進步,人工智能在教育評估中的應用,特別是在形成性評估中的應用潛力值得期待,但數據采集和算法方面的局限仍有待探討。

猜你喜歡
計算機人工智能作文
計算機操作系統
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
主站蜘蛛池模板: 婷婷六月综合网| 亚洲aⅴ天堂| 亚洲欧美另类日本| 伦伦影院精品一区| 3p叠罗汉国产精品久久| 国模极品一区二区三区| 成年女人a毛片免费视频| 亚洲国产精品美女| 丰满人妻中出白浆| 怡红院美国分院一区二区| 欧美α片免费观看| 91外围女在线观看| 国产精品污污在线观看网站| 国产精品露脸视频| 日韩无码视频专区| 香蕉蕉亚亚洲aav综合| 国产杨幂丝袜av在线播放| 欧美一区二区三区香蕉视| 亚洲人成日本在线观看| 久久久久夜色精品波多野结衣| 午夜日本永久乱码免费播放片| 久久成人18免费| 中日韩一区二区三区中文免费视频| 色综合天天视频在线观看| 国产第三区| 在线99视频| 久久情精品国产品免费| 中日韩欧亚无码视频| 国产18在线播放| 欧美午夜网| 亚洲毛片一级带毛片基地| 91免费观看视频| 狠狠综合久久| 丰满人妻一区二区三区视频| 欧美精品啪啪一区二区三区| 人人91人人澡人人妻人人爽| 亚洲天堂日本| 免费人成又黄又爽的视频网站| 亚洲国产亚洲综合在线尤物| 婷婷亚洲综合五月天在线| 中国一级毛片免费观看| 国产在线自乱拍播放| 亚洲制服丝袜第一页| 欧美.成人.综合在线| 91探花国产综合在线精品| P尤物久久99国产综合精品| 国产又色又刺激高潮免费看| 欧美福利在线观看| 色欲色欲久久综合网| 亚洲综合国产一区二区三区| 高潮毛片免费观看| 国产99免费视频| 久久人搡人人玩人妻精品| 国产日韩精品一区在线不卡| 九色91在线视频| 日本影院一区| 精品久久香蕉国产线看观看gif| 99国产精品国产高清一区二区| 国产在线拍偷自揄拍精品| 亚洲h视频在线| 国产成人免费手机在线观看视频| 视频二区中文无码| 午夜在线不卡| 怡春院欧美一区二区三区免费| 中字无码av在线电影| 成人午夜免费观看| 国产精彩视频在线观看| 国产精品视频观看裸模| 国产中文一区a级毛片视频| 99爱视频精品免视看| 久久性妇女精品免费| 国产精品999在线| 99热这里只有精品免费| 四虎成人在线视频| 国产成人三级在线观看视频| 人妖无码第一页| 国产精品亚洲αv天堂无码| 国产精品网址你懂的| 国产精品无码制服丝袜| 国产性爱网站| 青青青视频蜜桃一区二区| 精品国产成人高清在线|