管仁初, 柳海民, 梁艷春,3,溫曉靜,黃 嵐,張 禹
(1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130012;2.東北師范大學(xué) 教育學(xué)院,吉林 長春 130024;3.吉林大學(xué)珠海學(xué)院教育學(xué)院 珠海符號計(jì)算與知識、工程教育部重點(diǎn)實(shí)驗(yàn)室,廣東 珠海 519041)
傳統(tǒng)的課程作業(yè)評價(jià)存在評價(jià)主體單一、評價(jià)周期長、評價(jià)方式簡單等弊端[1],而基于網(wǎng)絡(luò)的同伴評價(jià)系統(tǒng)可以隨時隨地、方便快捷地收集和整理評價(jià)結(jié)果,同時解決了評價(jià)主體和評價(jià)方式單一的問題。同伴評價(jià)是指學(xué)生根據(jù)老師的標(biāo)準(zhǔn)對同伴的作業(yè)或測試進(jìn)行評分[2]。Topping收集了美國Educational Resources Information Center(ERIC)教育學(xué)術(shù)研究數(shù)據(jù)庫中的109篇有關(guān)同伴評價(jià)的研究資料,整理后指出同伴評價(jià)廣泛應(yīng)用于高等教育各學(xué)科,如信息科學(xué)、社會科學(xué)等。在評價(jià)信度和效度方面,同伴評價(jià)和教師評價(jià)一樣高,甚至常常高于教師評價(jià)[3]。同伴評價(jià)方式可以增強(qiáng)學(xué)生的學(xué)習(xí)動機(jī)。同伴間的作業(yè)評價(jià)屬于一種重要的高級思維活動,對提升學(xué)生的學(xué)習(xí)動機(jī)與知識水平至關(guān)重要, 而且對成年學(xué)習(xí)者來說,也是一種良好的評價(jià)方式。
計(jì)算機(jī)程序設(shè)計(jì)課程注重提高學(xué)生的邏輯思維和計(jì)算思維[4],開發(fā)學(xué)生的創(chuàng)造潛能,是以邏輯思維為主的多種思維形式共同發(fā)揮作用,實(shí)踐性和理論性相互依存。此類課程作業(yè)能夠體現(xiàn)出學(xué)生在程序設(shè)計(jì)方面的創(chuàng)造性,對這類作業(yè)的評價(jià)將直接影響學(xué)生多種思維的發(fā)展,但是由于這種類型課程的課程特點(diǎn),作業(yè)的評價(jià)通常存在一定的主觀性。因此,只采用單一評價(jià)方式是不科學(xué)的。
同伴評價(jià)方式可以提高學(xué)生的協(xié)作學(xué)習(xí)能力。隨著大數(shù)據(jù)時代的到來,信息化和智能化的進(jìn)程在全球范圍內(nèi)快速推進(jìn),單機(jī)運(yùn)行和小數(shù)據(jù)量的工程開發(fā)已不能滿足當(dāng)今社會對大數(shù)據(jù)復(fù)雜系統(tǒng)(如互聯(lián)網(wǎng)推薦系統(tǒng),智能制造系統(tǒng),智能物流配送系統(tǒng)等)構(gòu)建的需求。大數(shù)據(jù)復(fù)雜系統(tǒng)的開發(fā),已不是一兩位計(jì)算機(jī)工程師能夠勝任的,而是需要幾十人甚至成百上千人的高效合作[5]。因此,學(xué)生之間的協(xié)作學(xué)習(xí)和工作能力的培養(yǎng)尤為重要。同伴評價(jià)機(jī)制的引入恰好是培養(yǎng)這種能力的有效手段之一。
同伴評價(jià)一方面滿足了學(xué)習(xí)者泛在學(xué)習(xí)的需求,另一方面減少了教師的工作量。面對海量的學(xué)生實(shí)驗(yàn)作業(yè),任課教師及助教如何快速、客觀、科學(xué)、公平地評價(jià)學(xué)生的程序和工程是一項(xiàng)重要的研究課題[6]。在大學(xué)計(jì)算機(jī)的實(shí)驗(yàn)性和工程性課程的合作學(xué)習(xí)過程中,學(xué)生往往需要分組進(jìn)行實(shí)驗(yàn)。教師需要兼顧的小組較多(如已收集的2016年課程數(shù)據(jù)中,就有46個學(xué)生小組),不容易對每一小組特別是每一學(xué)生的表現(xiàn)都有非常清晰的了解。而學(xué)生在參與過程中對自己和本組同學(xué)的表現(xiàn)在主觀和客觀上都有了解,引進(jìn)學(xué)生和小組的互評更公平、公正,也更客觀,更具說服力。
然而,目前針對大學(xué)課程同伴評價(jià)的研究還較少,尤其是定量的研究則更少。然而怎樣評估同伴評價(jià)在大學(xué)計(jì)算機(jī)課程中的有效性?同伴評價(jià)在學(xué)生學(xué)習(xí)效果和成績中所起的定量作用是什么?能否通過帶有同伴評價(jià)的變量預(yù)測學(xué)生成績,從而指導(dǎo)教學(xué)模式和方法的修正?針對上述問題構(gòu)建的機(jī)器學(xué)習(xí)方法,能夠給出同伴評價(jià)在學(xué)生學(xué)習(xí)效果的定量作用,并能夠通過訓(xùn)練好的模型對學(xué)習(xí)成績進(jìn)行預(yù)測,為評價(jià)計(jì)算機(jī)課程成績、調(diào)整授課內(nèi)容和教學(xué)方法提供幫助和依據(jù)。
為了定量地評估同伴評價(jià)對教學(xué)效果的影響,可以引入機(jī)器學(xué)習(xí)方法中的回歸模型。將同伴評價(jià)和小測驗(yàn)等變量作為特征,構(gòu)建特征空間。利用機(jī)器學(xué)習(xí)方法中的回歸模型對學(xué)生成績進(jìn)行學(xué)習(xí)并預(yù)測。預(yù)測模型的示意圖如圖1所示。首先,在課程網(wǎng)站上為每位學(xué)生設(shè)立賬戶,學(xué)生通過課程網(wǎng)站上傳程序作業(yè)和工程文檔。然后,公布課程同伴評價(jià)標(biāo)準(zhǔn),通過網(wǎng)站收集同伴評價(jià)得出的課程或工程成績。將每次程序或工程作業(yè)作為特征,構(gòu)建特征空間,每名學(xué)生的成績記錄構(gòu)成向量。在模型訓(xùn)練部分,引入回歸模型:


中心特征選擇部分,運(yùn)用基于赤池信息準(zhǔn)則(Akaike information criterion,AIC)的逆向逐步回歸方法來篩選特征。赤池信息準(zhǔn)則公式為

其中,k為變量個數(shù),L為極大似然函數(shù)。逐步回歸的依據(jù)是在盡量不增加AIC值的前提下,由盡可能少的參數(shù)來表現(xiàn)回歸模型。逐步回歸過程是一個不斷學(xué)習(xí)數(shù)據(jù),構(gòu)建模型,計(jì)算誤差,修正模型的迭代尋優(yōu)的過程。
實(shí)驗(yàn)收集了吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)2016年、2017年和2018年“.NET設(shè)計(jì)與架構(gòu)”課程(簡稱.NET課程)的同伴評價(jià)成績、測驗(yàn)成績、出勤成績以及期末成績等多個變量,依此構(gòu)建特征空間。其中,2016年收集了185名學(xué)生,14個特征信息;2017年75名學(xué)生,16個特征信息;2018年68名學(xué)生,26個特征信息。上述三年課程的特征詳細(xì)信息見表1。

圖1 基于機(jī)器學(xué)習(xí)的同伴評價(jià)課程成績預(yù)測模型
從表1中可以看出,根據(jù)每年的學(xué)生成績及擬合結(jié)果,不斷調(diào)整作業(yè)次數(shù)以及評價(jià)準(zhǔn)則。從上一年實(shí)踐得到的數(shù)據(jù)中總結(jié)經(jīng)驗(yàn)和理論,修正預(yù)測模型,增加或修改下一年的作業(yè)次數(shù)和難度。2016年構(gòu)建了網(wǎng)絡(luò)同伴評價(jià)平臺,成功地將同伴評價(jià)引入到.NET課程中來,實(shí)現(xiàn)了對學(xué)生課程成績的自動計(jì)算。為了保證教學(xué)質(zhì)量并降低發(fā)生誤評價(jià)的風(fēng)險(xiǎn),采取了“教師評價(jià)為主,同伴評價(jià)為輔”的混合評估方式,其中,同伴評價(jià)成績占總成績的14%。2017年,在上一年成功實(shí)施的基礎(chǔ)上,進(jìn)一步增加了同伴評價(jià)的次數(shù)(增加為6次)以及比重(增加為75%),減少了教師評價(jià)的占比。這一年的成績評價(jià)完成了“同伴評價(jià)為主,教師評價(jià)為輔”的轉(zhuǎn)換。2018年,同伴評價(jià)的次數(shù)進(jìn)一步增加到11次,所占比重增加到85%,這一年的成績評價(jià)已經(jīng)形成了“同伴評價(jià)占主導(dǎo)地位”的評價(jià)準(zhǔn)則。
根據(jù)表1中各年的特征信息,首先構(gòu)建特征空間。然后,運(yùn)用多元線性回歸方法和基于赤池信息準(zhǔn)則的逆向逐步回歸方法,得到2016年、2017年和2018年的多元回歸方程:

逆向逐步回歸方法是在由全部變量構(gòu)建的多元線性回歸方程基礎(chǔ)上,逐步去除對因變量(G)預(yù)測結(jié)果影響最小的自變量。從公式(3)—(5)中可以看出,同伴評價(jià)成績對于每一年的成績都起到了關(guān)鍵性的作用。例如,2016年的回歸方程中x1和y1分別為評價(jià)同伴程序的得分和程序同伴評價(jià)得分;2017年的回歸方程中x2和y2分別為第二次評價(jià)同伴程序的得分和第二次程序同伴評價(jià)得分;2018年的回歸方程中y4為第四次程序同伴評價(jià)得分。

表1 2016年—2018年課程特征列表
圖2為運(yùn)用機(jī)器學(xué)習(xí)方法對2016—2018年.NET課程擬合結(jié)果的比較。其中,縱坐標(biāo)為多重相關(guān)系數(shù)檢驗(yàn)。2016年的多重相關(guān)系數(shù)檢驗(yàn)值為0.9801,2017年的多重相關(guān)系數(shù)檢驗(yàn)值為0.9618,2018年的多重相關(guān)系數(shù)檢驗(yàn)值為0.9998。其中,2017年的多重相關(guān)系數(shù)檢驗(yàn)值最低,2018年的值最高。其原因是,為研究同伴評價(jià)對教學(xué)結(jié)果的影響,在2016年課程同伴評價(jià)網(wǎng)站的成功部署和課程回歸方程成功擬合的基礎(chǔ)上,進(jìn)一步增加了同伴評價(jià)的次數(shù)。然而,雖然增加了程序同伴評價(jià)的次數(shù),但是2017年的擬合結(jié)果卻降低了。對結(jié)果進(jìn)行分析并和學(xué)生討論后,發(fā)現(xiàn)程序作業(yè)的同伴評價(jià)過程中部分學(xué)生有不認(rèn)真評價(jià)的現(xiàn)象。為解決上述問題,2018年的課程重新設(shè)計(jì)了程序作業(yè),引入了小測驗(yàn)并調(diào)整了平時作業(yè)總成績。因此,2018年的多重相關(guān)系數(shù)檢驗(yàn)值達(dá)到了最高的0.9998,分別比2016年和2017年提高了2.0%和4.0%。同時,在2018年的回歸方程中,把綜合考慮了所有平時表現(xiàn)的平時作業(yè)總成績作為重要變量參與計(jì)算。

圖2 2016—2018年“.NET設(shè)計(jì)與架構(gòu)”課程機(jī)器學(xué)習(xí)擬合結(jié)果的比較
從上述結(jié)果中可以看出,構(gòu)建同伴評價(jià)特征空間和機(jī)器學(xué)習(xí)模型可以達(dá)到96%~99%的成績預(yù)測準(zhǔn)確率。同時,從機(jī)器學(xué)習(xí)模型給出的回歸方程中可以清楚地看到,同伴評價(jià)成為了回歸方程中的中心特征,而其他特征如小測驗(yàn)成績q(2018年),練習(xí)作業(yè)成績z1和z2(2017年)等都未成為中心特征。因此可以說,同伴評價(jià)在學(xué)生三年的學(xué)習(xí)成績中起到了關(guān)鍵作用,同伴評價(jià)在計(jì)算機(jī)專業(yè)課程中的有效性一目了然。這種直觀的體現(xiàn)是通過構(gòu)建機(jī)器學(xué)習(xí)模型得到的。新構(gòu)建的機(jī)器學(xué)習(xí)模型不但能夠在同伴評價(jià)空間上準(zhǔn)確地預(yù)測出學(xué)生的成績,還能夠定量給出各中心特征所起到的作用。
通過對吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)2016—2018年.NET課程同伴評價(jià)數(shù)據(jù)的分析,可以看出同伴評價(jià)對課程的大學(xué)計(jì)算機(jī)課程教學(xué)具有一定的影響。機(jī)器學(xué)習(xí)模型的引入為證實(shí)同伴評價(jià)的有效性,定量給出同伴評價(jià)效力以及預(yù)測學(xué)生課程成績提供了有效的方法和手段。該方法值得在其他計(jì)算機(jī)課程上推廣與應(yīng)用。在未來的教學(xué)實(shí)踐中,將繼續(xù)把同伴互評環(huán)節(jié)在實(shí)際教學(xué)中推廣應(yīng)用,收集更多的數(shù)據(jù)以獲得更加深刻的結(jié)果。此外,在后續(xù)的教學(xué)過程將配合機(jī)器學(xué)習(xí)方法對目前的同伴互評設(shè)置進(jìn)行改進(jìn),更加準(zhǔn)確地檢測學(xué)生互評質(zhì)量與實(shí)際學(xué)業(yè)水平。