古 平,張 程,孫天昊,李 佳,楊瑞龍
(重慶大學(xué) 計算機(jī)學(xué)院,重慶 400044)
形成性評價也稱過程性評價,是指在教學(xué)過程中對學(xué)生的學(xué)習(xí)過程進(jìn)行評價的方式。形成性評價采取目標(biāo)與過程并重的價值取向,著重關(guān)注學(xué)生的學(xué)習(xí)效果、過程、參與程度和學(xué)習(xí)態(tài)度等。教師通過形成性評價可以獲得更加全面的反饋信息,使學(xué)生的學(xué)習(xí)策略與教師的教學(xué)方法同時得到改進(jìn)和優(yōu)化,促進(jìn)教與學(xué)的協(xié)調(diào)發(fā)展。
形成性評價可以解決傳統(tǒng)總結(jié)性評價的很多問題,因此國內(nèi)研究者逐漸將其引入相關(guān)教學(xué)活動,如與網(wǎng)絡(luò)教學(xué)手段相結(jié)合,實(shí)現(xiàn)全過程的信息采集與評價[1-2];通過學(xué)生自評與互評,實(shí)現(xiàn)建構(gòu)主義學(xué)習(xí)理論[3-4];通過構(gòu)建發(fā)展性評價系統(tǒng)[5],實(shí)現(xiàn)多元化評價及結(jié)果可視化[6]等。但這些研究均與計算機(jī)專業(yè)實(shí)踐特征和能力要求不符,因此教學(xué)、應(yīng)用過程中面臨以下幾個問題:①以實(shí)驗(yàn)為核心的形成性評價體系研究不足,計算機(jī)作為一門實(shí)踐性較強(qiáng)的學(xué)科,其形成性評價內(nèi)容、指標(biāo)和方法均與理論教學(xué)不同,需要針對性的研究與設(shè)計;②完整、及時的過程數(shù)據(jù)采集對實(shí)驗(yàn)形成性評價的準(zhǔn)確性尤為重要,但現(xiàn)有研究過度依賴人工觀察和采集,無法支撐大數(shù)據(jù)環(huán)境下的形成性評價體系。
應(yīng)將程序設(shè)計實(shí)驗(yàn)的各個環(huán)節(jié)與形成性評價相結(jié)合,通過自動或半自動方式采集實(shí)驗(yàn)過程相關(guān)數(shù)據(jù),利用大數(shù)據(jù)分析與處理方法,形成反映學(xué)生實(shí)踐能力的多維評價體系,進(jìn)而準(zhǔn)確地對學(xué)生在知識、技能、能力、態(tài)度等方面進(jìn)行評價。
傳統(tǒng)評價體系中多采取教師評價與學(xué)生自評、互評的方式,因此評價主體主要為教師、學(xué)生。但無論是教師還是學(xué)生,其評價過程的主觀性都較強(qiáng),有時還存在一定的隨意性和片面性。因此,本研究將計算機(jī)應(yīng)用也作為形成性評價的主體之一,既可以獨(dú)立參與對學(xué)生特定實(shí)踐能力的評價,也可以為教師評價提供輔助決策。
程序設(shè)計類實(shí)驗(yàn)一般由算法設(shè)計、編碼、測試、調(diào)試、發(fā)布、報告編寫等過程組成,涉及的形成性評價內(nèi)容主要包括實(shí)驗(yàn)方案設(shè)計、實(shí)驗(yàn)操作過程、實(shí)驗(yàn)數(shù)據(jù)記錄、計算機(jī)程序源碼、實(shí)驗(yàn)報告、實(shí)驗(yàn)態(tài)度等。評價內(nèi)容不同,數(shù)據(jù)獲取方式也不同,如實(shí)驗(yàn)方案設(shè)計、實(shí)驗(yàn)報告、計算機(jī)程序等電子文檔,由于實(shí)時性要求較低,可以通過系統(tǒng)上傳獲取;實(shí)驗(yàn)態(tài)度可部分通過人臉識別系統(tǒng)自動記錄、匯總學(xué)生出勤情況獲得。
實(shí)驗(yàn)過程數(shù)據(jù)采集最為復(fù)雜,一方面其實(shí)時性要求很高,另一方面隨著實(shí)驗(yàn)進(jìn)程,數(shù)據(jù)量將呈爆發(fā)式增長,傳統(tǒng)的事后采集或人工采集方式顯然無法滿足這一特殊需求。因此,本研究將大數(shù)據(jù)技術(shù)引入形成性評價系統(tǒng),利用學(xué)生客戶端駐留程序,實(shí)時、自動地采集學(xué)生在程序開發(fā)過程中產(chǎn)生的關(guān)鍵數(shù)據(jù),通過數(shù)據(jù)清洗和預(yù)處理,轉(zhuǎn)化為結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),再通過關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫(如NoSQL)進(jìn)行混合存儲。
評價指標(biāo)無疑是形成性評價體系的核心,本研究主要結(jié)合程序設(shè)計的能力要求和形成過程,設(shè)計了以下形成性評價指標(biāo),見表1。

表1 面向程序設(shè)計類實(shí)驗(yàn)的形成性評價指標(biāo)
整個評價支持系統(tǒng)由4部分組成:客戶端采集子系統(tǒng)、數(shù)據(jù)存儲與加工子系統(tǒng)、形成性評價分析子系統(tǒng)、評價子系統(tǒng),其總體架構(gòu)見圖1。
客戶端采集子系統(tǒng)提供多種途徑實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)采集功能,主要由學(xué)生客戶端駐留模塊和面部識別考勤模塊組成;數(shù)據(jù)存儲與加工子系統(tǒng)負(fù)責(zé)接收實(shí)時或非實(shí)時實(shí)驗(yàn)數(shù)據(jù),清洗和預(yù)處理后,通過MySQL和NoSQL混合存儲;形成性評價分析子系統(tǒng)作為本系統(tǒng)的核心,主要通過多種數(shù)據(jù)分析、處理技術(shù),對學(xué)生實(shí)踐能力提供多維可視化和評價量化分析;評價子系統(tǒng)一方面提供教師實(shí)驗(yàn)報告檢查、批閱、綜合評價功能,同時利用反饋機(jī)制實(shí)現(xiàn)由“實(shí)踐”到“理論”教學(xué)的反向閉環(huán)。

圖1 形成性評價支持系統(tǒng)總體架構(gòu)圖
2.2.1 代碼靜態(tài)評測
代碼靜態(tài)評測是指不需要運(yùn)行源程序,通過程序理解、語義分析等方法對源程序進(jìn)行質(zhì)量評價,其在形成性評價中的應(yīng)用模式主要有3種:用于教師評價學(xué)生語法熟悉情況;用于教師評價學(xué)生算法設(shè)計能力;解決學(xué)生程序無法執(zhí)行時的質(zhì)量評價問題。
2.2.2 代碼自動評測
好的軟件應(yīng)該在功能、性能、界面、安全性等多個方面滿足產(chǎn)品質(zhì)量標(biāo)準(zhǔn)。除界面、安全性等指標(biāo)外,軟件功能、性能均可以通過代碼自動評測實(shí)現(xiàn)。功能評測主要建立在程序編譯、執(zhí)行結(jié)果和預(yù)期結(jié)果對比的基礎(chǔ)上。對部分編譯無法通過的程序,系統(tǒng)提供簡單糾錯功能,如果仍然無法運(yùn)行,則轉(zhuǎn)而執(zhí)行靜態(tài)評測。性能測試主要通過分析程序執(zhí)行CPU時間、內(nèi)存使用量、數(shù)據(jù)訪問量等實(shí)現(xiàn)。
2.2.3 代碼與報告查重
代碼和報告對程序設(shè)計實(shí)驗(yàn)而言非常重要,但又極易通過抄襲完成,因此,引入抄襲檢測,一方面可以反映學(xué)生的實(shí)驗(yàn)態(tài)度,也可以作為督促學(xué)生獨(dú)立、自主實(shí)踐的一種手段。
針對某些學(xué)生為了逃避抄襲檢測,可能采取改變變量名、顛倒語句順序、增加無關(guān)代碼等方式掩蓋抄襲行為的問題,本系統(tǒng)在傳統(tǒng)串處理方法基礎(chǔ)上,利用位置無關(guān)的“指紋”信息進(jìn)行代碼比較,提高了查重的效率。圖2為班級內(nèi)代碼查重的情況。如果對上述數(shù)據(jù)進(jìn)行聚類分析,可以進(jìn)一步發(fā)現(xiàn)多個學(xué)生之間直接或間接抄襲的情況,見圖3。
報告查重的原理、方法與代碼查重基本相似,但其內(nèi)容更復(fù)雜,如含有圖、表抄襲檢測。本系統(tǒng)采取PHash算法與OCR字識別相結(jié)合的思路,在降低抄襲圖表誤檢、漏檢率的同時,保證了系統(tǒng)的運(yùn)行效率。
2.2.4 程序開發(fā)過程分析
通過對程序開發(fā)過程的跟蹤、分析,有助于準(zhǔn)確掌握學(xué)生的語法熟悉情況、程序調(diào)試能力以及實(shí)驗(yàn)態(tài)度等,其數(shù)據(jù)主要源自駐留在學(xué)生客戶端的數(shù)據(jù)采集子系統(tǒng),主要包括剪貼板數(shù)據(jù)、編譯錯誤數(shù)據(jù)、調(diào)試結(jié)果對比數(shù)據(jù)、編譯錯誤修復(fù)時間、邏輯錯誤修復(fù)時間、輸入代碼量、程序執(zhí)行結(jié)果等。
2.2.5 報告輔助批閱
在格式審查的基礎(chǔ)上,自動從實(shí)驗(yàn)報告文檔中抽取規(guī)格化信息,并根據(jù)報告模板生成待批閱電子報告,教師直接通過系統(tǒng)對實(shí)驗(yàn)報告進(jìn)行在線評閱,所有批閱信息最后再反向?qū)懭朐瓐蟾嫖臋n中,見圖4。
為了驗(yàn)證支持系統(tǒng)對形成性評價的有效性,實(shí)驗(yàn)選取學(xué)院計科、網(wǎng)絡(luò)專業(yè)的程序設(shè)計課程Java程序設(shè)計進(jìn)行初步應(yīng)用,每次實(shí)驗(yàn)課16學(xué)時,共分4次進(jìn)行。
首先,通過隨機(jī)抽取的超過200份樣本,對評價支持系統(tǒng)的準(zhǔn)確性和效率進(jìn)行分析。結(jié)果顯示,系統(tǒng)對報告查重的誤報率和漏檢率為14%和10%,對源碼查重的誤報率和漏檢率為18%和6%。其次,從運(yùn)行效率上看,人工評閱報告的時間約為2分鐘/每份,人工評閱程序的時間約為5分鐘/每份,而評價支持系統(tǒng)則在1~2秒/每份。更為關(guān)鍵的是,評價支持系統(tǒng)應(yīng)用以后,學(xué)生的抄襲情況明顯好轉(zhuǎn),實(shí)驗(yàn)態(tài)度得到極大改善。

圖2 某班級內(nèi)實(shí)驗(yàn)源碼查重情況圖示

圖3 某班級內(nèi)代碼抄襲團(tuán)結(jié)構(gòu)圖示

圖4 實(shí)驗(yàn)報告輔助批閱功能圖示
其次,在保持理論教學(xué)、實(shí)踐內(nèi)容相同的情況下,在一個專業(yè)中應(yīng)用評價支持系統(tǒng),而作為對照在另一專業(yè)中仍然使用傳統(tǒng)評價方式。通過期末組織的上機(jī)獨(dú)立水平測試,可以發(fā)現(xiàn)兩組學(xué)生在實(shí)驗(yàn)完成率、正確率、優(yōu)秀率等指標(biāo)上表現(xiàn)出一定的差異,見表2。實(shí)驗(yàn)結(jié)果表明,使用形成性評價支持系統(tǒng)對提升學(xué)生的程序設(shè)計能力效果明顯,表明形成性評價確實(shí)起到了引導(dǎo)、反饋和改善的效果。
此外,在兩種評價方式下,分別從原實(shí)驗(yàn)考核成績?yōu)椤皟?yōu)”“良”“中”的學(xué)生中各抽取12、30、16名學(xué)生作為觀察樣本,在完成上述獨(dú)立水平測試后,對比其水平測試成績與原實(shí)驗(yàn)考核成績,見表3,可以發(fā)現(xiàn)使用形成評價支持系統(tǒng)對學(xué)生的能力評價更為準(zhǔn)確、客觀。

表2 形成性評價支持系統(tǒng)對學(xué)生實(shí)踐能力影響 %
形成性評價是現(xiàn)階段教學(xué)評價的熱點(diǎn),但在計算機(jī)專業(yè)實(shí)驗(yàn)教學(xué)中應(yīng)用很少,其主要原因在于復(fù)雜的實(shí)驗(yàn)環(huán)節(jié)需要教師投入過多的精力設(shè)計評價活動,采集、分析數(shù)據(jù)。本文以大數(shù)據(jù)分析技術(shù)為基礎(chǔ),設(shè)計了一套面向程序設(shè)計類實(shí)驗(yàn)的形成性評價方法、體系,并開發(fā)了一套集多種功能于一體的輔助支持系統(tǒng)。通過在實(shí)際教學(xué)中的應(yīng)用,證明了該系統(tǒng)對提高學(xué)生實(shí)踐能力的有效性,但由于系統(tǒng)仍處于試運(yùn)行階段,所選實(shí)驗(yàn)樣本有限,還需要進(jìn)一步驗(yàn)證和優(yōu)化,并逐漸提升系統(tǒng)的準(zhǔn)確性與應(yīng)用范圍。

表3 兩種評價方式下的準(zhǔn)確性對比