形成性評價在程序設(shè)計實(shí)踐中的應(yīng)用

2018-09-17 07:49:32孫天昊楊瑞龍

計算機(jī)教育 2018年9期

古平，張程，孫天昊，李佳，楊瑞龍

（重慶大學(xué) 計算機(jī)學(xué)院，重慶 400044）

0 引言

形成性評價也稱過程性評價，是指在教學(xué)過程中對學(xué)生的學(xué)習(xí)過程進(jìn)行評價的方式。形成性評價采取目標(biāo)與過程并重的價值取向，著重關(guān)注學(xué)生的學(xué)習(xí)效果、過程、參與程度和學(xué)習(xí)態(tài)度等。教師通過形成性評價可以獲得更加全面的反饋信息，使學(xué)生的學(xué)習(xí)策略與教師的教學(xué)方法同時得到改進(jìn)和優(yōu)化，促進(jìn)教與學(xué)的協(xié)調(diào)發(fā)展。

形成性評價可以解決傳統(tǒng)總結(jié)性評價的很多問題，因此國內(nèi)研究者逐漸將其引入相關(guān)教學(xué)活動，如與網(wǎng)絡(luò)教學(xué)手段相結(jié)合，實(shí)現(xiàn)全過程的信息采集與評價[1-2]；通過學(xué)生自評與互評，實(shí)現(xiàn)建構(gòu)主義學(xué)習(xí)理論[3-4]；通過構(gòu)建發(fā)展性評價系統(tǒng)[5]，實(shí)現(xiàn)多元化評價及結(jié)果可視化[6]等。但這些研究均與計算機(jī)專業(yè)實(shí)踐特征和能力要求不符，因此教學(xué)、應(yīng)用過程中面臨以下幾個問題：①以實(shí)驗(yàn)為核心的形成性評價體系研究不足，計算機(jī)作為一門實(shí)踐性較強(qiáng)的學(xué)科，其形成性評價內(nèi)容、指標(biāo)和方法均與理論教學(xué)不同，需要針對性的研究與設(shè)計；②完整、及時的過程數(shù)據(jù)采集對實(shí)驗(yàn)形成性評價的準(zhǔn)確性尤為重要，但現(xiàn)有研究過度依賴人工觀察和采集，無法支撐大數(shù)據(jù)環(huán)境下的形成性評價體系。

1 程序設(shè)計實(shí)踐中的形成性評價體系

1.1 形成性評價思路

應(yīng)將程序設(shè)計實(shí)驗(yàn)的各個環(huán)節(jié)與形成性評價相結(jié)合，通過自動或半自動方式采集實(shí)驗(yàn)過程相關(guān)數(shù)據(jù)，利用大數(shù)據(jù)分析與處理方法，形成反映學(xué)生實(shí)踐能力的多維評價體系，進(jìn)而準(zhǔn)確地對學(xué)生在知識、技能、能力、態(tài)度等方面進(jìn)行評價。

1.2 形成性評價主體

傳統(tǒng)評價體系中多采取教師評價與學(xué)生自評、互評的方式，因此評價主體主要為教師、學(xué)生。但無論是教師還是學(xué)生，其評價過程的主觀性都較強(qiáng)，有時還存在一定的隨意性和片面性。因此，本研究將計算機(jī)應(yīng)用也作為形成性評價的主體之一，既可以獨(dú)立參與對學(xué)生特定實(shí)踐能力的評價，也可以為教師評價提供輔助決策。

1.3 形成性評價內(nèi)容

程序設(shè)計類實(shí)驗(yàn)一般由算法設(shè)計、編碼、測試、調(diào)試、發(fā)布、報告編寫等過程組成，涉及的形成性評價內(nèi)容主要包括實(shí)驗(yàn)方案設(shè)計、實(shí)驗(yàn)操作過程、實(shí)驗(yàn)數(shù)據(jù)記錄、計算機(jī)程序源碼、實(shí)驗(yàn)報告、實(shí)驗(yàn)態(tài)度等。評價內(nèi)容不同，數(shù)據(jù)獲取方式也不同，如實(shí)驗(yàn)方案設(shè)計、實(shí)驗(yàn)報告、計算機(jī)程序等電子文檔，由于實(shí)時性要求較低，可以通過系統(tǒng)上傳獲取；實(shí)驗(yàn)態(tài)度可部分通過人臉識別系統(tǒng)自動記錄、匯總學(xué)生出勤情況獲得。

實(shí)驗(yàn)過程數(shù)據(jù)采集最為復(fù)雜，一方面其實(shí)時性要求很高，另一方面隨著實(shí)驗(yàn)進(jìn)程，數(shù)據(jù)量將呈爆發(fā)式增長，傳統(tǒng)的事后采集或人工采集方式顯然無法滿足這一特殊需求。因此，本研究將大數(shù)據(jù)技術(shù)引入形成性評價系統(tǒng)，利用學(xué)生客戶端駐留程序，實(shí)時、自動地采集學(xué)生在程序開發(fā)過程中產(chǎn)生的關(guān)鍵數(shù)據(jù)，通過數(shù)據(jù)清洗和預(yù)處理，轉(zhuǎn)化為結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)，再通過關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫（如NoSQL）進(jìn)行混合存儲。

1.4 形成性評價指標(biāo)

評價指標(biāo)無疑是形成性評價體系的核心，本研究主要結(jié)合程序設(shè)計的能力要求和形成過程，設(shè)計了以下形成性評價指標(biāo)，見表1。

表1 面向程序設(shè)計類實(shí)驗(yàn)的形成性評價指標(biāo)

2 面向程序設(shè)計實(shí)驗(yàn)的形成性評價支持系統(tǒng)設(shè)計

2.1 軟件架構(gòu)設(shè)計

整個評價支持系統(tǒng)由4部分組成：客戶端采集子系統(tǒng)、數(shù)據(jù)存儲與加工子系統(tǒng)、形成性評價分析子系統(tǒng)、評價子系統(tǒng)，其總體架構(gòu)見圖1。

客戶端采集子系統(tǒng)提供多種途徑實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)采集功能，主要由學(xué)生客戶端駐留模塊和面部識別考勤模塊組成；數(shù)據(jù)存儲與加工子系統(tǒng)負(fù)責(zé)接收實(shí)時或非實(shí)時實(shí)驗(yàn)數(shù)據(jù)，清洗和預(yù)處理后，通過MySQL和NoSQL混合存儲；形成性評價分析子系統(tǒng)作為本系統(tǒng)的核心，主要通過多種數(shù)據(jù)分析、處理技術(shù)，對學(xué)生實(shí)踐能力提供多維可視化和評價量化分析；評價子系統(tǒng)一方面提供教師實(shí)驗(yàn)報告檢查、批閱、綜合評價功能，同時利用反饋機(jī)制實(shí)現(xiàn)由“實(shí)踐”到“理論”教學(xué)的反向閉環(huán)。

圖1 形成性評價支持系統(tǒng)總體架構(gòu)圖

2.2 主要模塊設(shè)計

2.2.1 代碼靜態(tài)評測

代碼靜態(tài)評測是指不需要運(yùn)行源程序，通過程序理解、語義分析等方法對源程序進(jìn)行質(zhì)量評價，其在形成性評價中的應(yīng)用模式主要有3種：用于教師評價學(xué)生語法熟悉情況；用于教師評價學(xué)生算法設(shè)計能力；解決學(xué)生程序無法執(zhí)行時的質(zhì)量評價問題。

2.2.2 代碼自動評測

好的軟件應(yīng)該在功能、性能、界面、安全性等多個方面滿足產(chǎn)品質(zhì)量標(biāo)準(zhǔn)。除界面、安全性等指標(biāo)外，軟件功能、性能均可以通過代碼自動評測實(shí)現(xiàn)。功能評測主要建立在程序編譯、執(zhí)行結(jié)果和預(yù)期結(jié)果對比的基礎(chǔ)上。對部分編譯無法通過的程序，系統(tǒng)提供簡單糾錯功能，如果仍然無法運(yùn)行，則轉(zhuǎn)而執(zhí)行靜態(tài)評測。性能測試主要通過分析程序執(zhí)行CPU時間、內(nèi)存使用量、數(shù)據(jù)訪問量等實(shí)現(xiàn)。

2.2.3 代碼與報告查重

代碼和報告對程序設(shè)計實(shí)驗(yàn)而言非常重要，但又極易通過抄襲完成，因此，引入抄襲檢測，一方面可以反映學(xué)生的實(shí)驗(yàn)態(tài)度，也可以作為督促學(xué)生獨(dú)立、自主實(shí)踐的一種手段。

針對某些學(xué)生為了逃避抄襲檢測，可能采取改變變量名、顛倒語句順序、增加無關(guān)代碼等方式掩蓋抄襲行為的問題，本系統(tǒng)在傳統(tǒng)串處理方法基礎(chǔ)上，利用位置無關(guān)的“指紋”信息進(jìn)行代碼比較，提高了查重的效率。圖2為班級內(nèi)代碼查重的情況。如果對上述數(shù)據(jù)進(jìn)行聚類分析，可以進(jìn)一步發(fā)現(xiàn)多個學(xué)生之間直接或間接抄襲的情況，見圖3。

報告查重的原理、方法與代碼查重基本相似，但其內(nèi)容更復(fù)雜，如含有圖、表抄襲檢測。本系統(tǒng)采取PHash算法與OCR字識別相結(jié)合的思路，在降低抄襲圖表誤檢、漏檢率的同時，保證了系統(tǒng)的運(yùn)行效率。

2.2.4 程序開發(fā)過程分析

通過對程序開發(fā)過程的跟蹤、分析，有助于準(zhǔn)確掌握學(xué)生的語法熟悉情況、程序調(diào)試能力以及實(shí)驗(yàn)態(tài)度等，其數(shù)據(jù)主要源自駐留在學(xué)生客戶端的數(shù)據(jù)采集子系統(tǒng)，主要包括剪貼板數(shù)據(jù)、編譯錯誤數(shù)據(jù)、調(diào)試結(jié)果對比數(shù)據(jù)、編譯錯誤修復(fù)時間、邏輯錯誤修復(fù)時間、輸入代碼量、程序執(zhí)行結(jié)果等。

2.2.5 報告輔助批閱

在格式審查的基礎(chǔ)上，自動從實(shí)驗(yàn)報告文檔中抽取規(guī)格化信息，并根據(jù)報告模板生成待批閱電子報告，教師直接通過系統(tǒng)對實(shí)驗(yàn)報告進(jìn)行在線評閱，所有批閱信息最后再反向?qū)懭朐瓐蟾嫖臋n中，見圖4。

3 應(yīng)用效果分析

為了驗(yàn)證支持系統(tǒng)對形成性評價的有效性，實(shí)驗(yàn)選取學(xué)院計科、網(wǎng)絡(luò)專業(yè)的程序設(shè)計課程Java程序設(shè)計進(jìn)行初步應(yīng)用，每次實(shí)驗(yàn)課16學(xué)時，共分4次進(jìn)行。

首先，通過隨機(jī)抽取的超過200份樣本，對評價支持系統(tǒng)的準(zhǔn)確性和效率進(jìn)行分析。結(jié)果顯示，系統(tǒng)對報告查重的誤報率和漏檢率為14%和10%，對源碼查重的誤報率和漏檢率為18%和6%。其次，從運(yùn)行效率上看，人工評閱報告的時間約為2分鐘/每份，人工評閱程序的時間約為5分鐘/每份，而評價支持系統(tǒng)則在1～2秒/每份。更為關(guān)鍵的是，評價支持系統(tǒng)應(yīng)用以后，學(xué)生的抄襲情況明顯好轉(zhuǎn)，實(shí)驗(yàn)態(tài)度得到極大改善。

圖2 某班級內(nèi)實(shí)驗(yàn)源碼查重情況圖示

圖3 某班級內(nèi)代碼抄襲團(tuán)結(jié)構(gòu)圖示

圖4 實(shí)驗(yàn)報告輔助批閱功能圖示

其次，在保持理論教學(xué)、實(shí)踐內(nèi)容相同的情況下，在一個專業(yè)中應(yīng)用評價支持系統(tǒng)，而作為對照在另一專業(yè)中仍然使用傳統(tǒng)評價方式。通過期末組織的上機(jī)獨(dú)立水平測試，可以發(fā)現(xiàn)兩組學(xué)生在實(shí)驗(yàn)完成率、正確率、優(yōu)秀率等指標(biāo)上表現(xiàn)出一定的差異，見表2。實(shí)驗(yàn)結(jié)果表明，使用形成性評價支持系統(tǒng)對提升學(xué)生的程序設(shè)計能力效果明顯，表明形成性評價確實(shí)起到了引導(dǎo)、反饋和改善的效果。

此外，在兩種評價方式下，分別從原實(shí)驗(yàn)考核成績?yōu)椤皟?yōu)”“良”“中”的學(xué)生中各抽取12、30、16名學(xué)生作為觀察樣本，在完成上述獨(dú)立水平測試后，對比其水平測試成績與原實(shí)驗(yàn)考核成績，見表3，可以發(fā)現(xiàn)使用形成評價支持系統(tǒng)對學(xué)生的能力評價更為準(zhǔn)確、客觀。

表2 形成性評價支持系統(tǒng)對學(xué)生實(shí)踐能力影響 %

4 結(jié)語

形成性評價是現(xiàn)階段教學(xué)評價的熱點(diǎn)，但在計算機(jī)專業(yè)實(shí)驗(yàn)教學(xué)中應(yīng)用很少，其主要原因在于復(fù)雜的實(shí)驗(yàn)環(huán)節(jié)需要教師投入過多的精力設(shè)計評價活動，采集、分析數(shù)據(jù)。本文以大數(shù)據(jù)分析技術(shù)為基礎(chǔ)，設(shè)計了一套面向程序設(shè)計類實(shí)驗(yàn)的形成性評價方法、體系，并開發(fā)了一套集多種功能于一體的輔助支持系統(tǒng)。通過在實(shí)際教學(xué)中的應(yīng)用，證明了該系統(tǒng)對提高學(xué)生實(shí)踐能力的有效性，但由于系統(tǒng)仍處于試運(yùn)行階段，所選實(shí)驗(yàn)樣本有限，還需要進(jìn)一步驗(yàn)證和優(yōu)化，并逐漸提升系統(tǒng)的準(zhǔn)確性與應(yīng)用范圍。

表3 兩種評價方式下的準(zhǔn)確性對比