999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

等級分制度在學生自助評價中的應用研究*

2017-04-07 05:41:25段旭良王曼韜
中國教育信息化 2017年5期
關鍵詞:比賽作業評價

段旭良,王曼韜,穆 炯,周 蓓

(四川農業大學 信息工程學院,四川 雅安 625014)

等級分制度在學生自助評價中的應用研究*

段旭良,王曼韜,穆 炯,周 蓓

(四川農業大學 信息工程學院,四川 雅安 625014)

等級分制度是一種廣泛應用于對弈比賽中評價選手能力的一種方法。本文在闡述了等級分評價機制的基本原理與常用算法的基礎上,將基于貝葉斯推斷的Glicko算法應用于實踐性課程的學生自助評價中,把成績評價的主體由教師單一個體轉移到上課學生群體,具有開放、透明、多元、客觀等特點。自助評價系統是學生進一步交流、借鑒和學習的平臺,實際應用和實施中,學生參與度高,積極性大,態度認真;教學反饋及對評價結果分析表明,學生自助評價結果客觀有效,有效地促進了教學質量的提高。

等級分;Glicko;教學;自助評價

一、引言

等級分制度是一種基于概率與統計的衡量對弈競爭中選手能力水平的評價方法,廣泛應用于國際象棋、圍棋、中國象棋、足球、籃球等運動中。等級分制度評價的基本原理是根據對弈選手的等級分(Rating),分別計算每人的期望獲勝概率,根據期望概率與實際的一局或一輪比賽的結果(勝、負、平局),對參賽選手的等級分進行調整。一般而言,某選手的期望勝率越大,獲勝后的等級分增量值越小,而對弈失敗,等級分會有較大幅度的縮減;反之,若選手勝率很小,對弈失敗影響不大,一旦勝利,等級分會有較大的增值。

在實踐性較強的課程教學中,學生成績的評定一般由教師根據作業或課程設計進行主觀評價,由于個人知識與時間的限制,難以做到完全客觀,且工作量較大;另一方面,傳統評價過程對學生幾乎是不透明的,由于缺乏交流與交互,學生得高分的期望動力不足,過關心態泛濫,作業或設計的對學習的促進效果也在一定程度上打了折扣。

為了改善教學的評價效果,廣大一線教師和科研學者在學生課程評價理論、方法、指標體系、系統建設等方面做了大量有意義的探索,如對于網絡環境下同伴匿名評價的理論和方法的實證研究、基于發展性評價理念的網絡學習評價系統的設計,對評定方法、效果、評定模型等進行了研究[1-2];部分計算機課程中采用基于ACM(ACM國際大學生程序設計競賽)的競賽模式,對學生實驗、作業進行全自動評價,取得了較好的實踐效果[3-4]。

本文介紹了基于Glicko-2等級分評價算法在學生成績自助評價中的應用,將等級分評價機制與學生成績自助評價結合起來,基于一對一比較,計算學生作業,設計等級分,最后根據等級分折算成績,評價過程完全透明。自助評價系統測試及在《網站建設與管理》課程作業設計的應用實踐表明,自助評價結果合理可靠,學生參與性高,積極性大,取得了很好的效果。

二、等級分評價機制

1.Elo與國際象棋的等級分制度

20世紀50年代,匈牙利裔美國物理學家、美國國際象棋協會(USCF)大師級棋手Arpad Elo基于統計理論對當時的等級分評價系統進行改進,提出“Elo Ranking System”的等級分評價機制。1960年,美國國際象棋協會采用Elo Rating System作為其評分系統,1970年被國際棋聯(FIDE)正式采用,此后,以Elo系統為基礎的評價方法逐漸成為對弈水平評估的公認的權威方法。[5-9]

Elo模型最早使用正態分布,但是實踐顯示棋手的表現并非呈正態分布,現在的等級分計分系統通常使用的是對數分布。Elo的等級分更新機制非常簡單,基本原理為根據勝率與一局比賽結果更新等級分。假設對手A、B當前等級分為RA、RB,則基于對數分布的A對B和B對A的期望勝率值EA、EB分別為[8]:

比賽完成后,根據選手在比賽中的得分SA(勝=1分,平=0.5分,負=0分)和期望勝率E更新等級分:

其中R’A為選手A新的等級分;K為參數,K越大,每次比賽完成等級分改變幅度越大。K一般根據選手等級分或參賽次數作相應調整,分數越高、參賽次數越多說明選手的能力越穩定,對應的K越小。例如在互聯網國際象棋俱樂部(ICC)的規則中,根據選手等級分決定K值大小:

2.Glicko與微軟TrueSkillTM、TopCoder評級算法

等級分評價系統歷史上另一個具有里程碑意義的是1993年哈佛大學統計系博士Mark E.Glickman在其博士論文中提出的一種基于貝葉斯推斷的“Glicko Rating System”[10]。當前,USCF、FIDE、Chess.com都采用Glicko或者其改進算法作為等級分評價系統。[11]

Glicko評價系統算法相對于Elo改進之處首先是等級分的更新不一定每次比賽后都要進行更新,而可以是某一階段一系列比賽完成之后根據選手的綜合表現更新等級分;其次,在計算等級分的同時計算評級偏差(Rating Deviation),用以更精確的說明選手的實際水平在等級分前后某一范圍之內;在之后的改進版Glicko-2評價系統中,又引入了評級波動(Rating Volatility)值的計算,用以說明選手表現的穩定程度。[12]

近年來,Glicko系統除了在一對一比較(Paired Comparison)模型中得到廣泛應用之外,還被眾多學者以其為基礎研究改進用于處理多人、多組競賽的等級分評價模型,典型的有微軟研究院開發的用于Xbox 360多人游戲、對手自動匹配模型的基于貝葉斯推斷的TrueSkillTM算法。還有專門組織計算機程序設計競賽的公司TopCoder采用的多人競爭評級的TopCode’s Rating Algorithm。[13-18]

三、Glicko及Glicko-2評價系統

1.Glicko等級分評價系統基本原理

Glicko和Glicko-2都是Mark Glickman博士在Elo系統基礎上進行改進,提出的用于對弈比賽選手等級分評定的算法。在Glicko算法中,引入RD(Ratings Deviation,評分誤差)作為衡量評級可靠性和精確性的一個指標。例如,某選手等級分Rating=1600,RD=50,那么該選手真實能力95%的等級分置信區間為 [Rating-2RD,Rating+ 2RD],即我們有至少95%的把握說明該選手的真實能力處在[1500,1700]這個區間中。[10、12、16-17]

其中RDold為比賽選手最近一次比賽后的RD值,t為最后一次比賽距離現在的間隔周期,如當前正進行第5輪比賽,選手上一次參加比賽是在第2輪,則t=3,由此參數值的設定可以發現,選手間隔一段時間未參加比賽,則其評價的不確定性RD會隨著時間推移而逐漸增大。式中c為常數,其大小決定RD值隨時間變化增大的程度。

(2)計算并更新等級分

假設選手當前的等級分值為r,評級偏差為RD,這輪比賽有m個對手,等級分分別為r1,r2,…,rm,偏差分別為RD1,RD2,…,RDm,當前選手的每次比賽得分分別為s1,s2,…,sm,其中si值為1(勝)、0(負)、0.5(平)。按如下公式計算本輪比賽結束后選手的Rating和RD值:

Glicko系統推薦選手每參加5-10場比賽 (一輪比賽,一個評分周期)更新一次等級分值,等級分的更新,主要有兩步,確定RD值,計算并更新等級分。主要計算過程及說明如下:[12]

(1)確定參賽選手的本局比賽的RD值

2.Glicko-2等級分評價算法

Glicko-2算法在Glicko基礎上,進一步引入了評級波動參數σ(Rating Volatility)變量,表示選手期望評級的波動情況,選手表現不穩定時σ較大,反之,值很小。與Glicko類似,每位選手具有r、RD以及σ三個屬性,每周期(推薦至少10-15輪比賽)比賽結束后更新這三個值。需要注意的是,運算中r、RD需進行折算成Glicko-2過程變量,計算完成后再將結果折算為與Glicko相當的r、RD值。[17]

四、Glicko在課程教學自助評價中的應用

1.等級分制度在教學自助評價中的應用

在教學過程中,尤其是實踐性較強的課程考核與評價中,成績和作業的評定是一個既要耗費大量時間、精力,又難以做到完全客觀、透明的過程。筆者曾嘗試在課程實踐和設計中引入問卷調查的投票方法進行評價,但是實際投票過程非常難以控制,很難要求學生瀏覽完所有設計后做出客觀選擇,并且,盡管采用了眾多技術手段限制投票,但拉票等現象仍難以禁絕,評價結果可靠性不高。

應用兩兩比較的Glicko等級分評價機制,基于Web通過對隨機出現的兩件作業作品進行評價,其優勢主要體現在以下幾個方面:

(1)評價趣味性高且非常容易做出選擇。每次瀏覽和比較的僅有兩件作品,做出“哪個更好些”的選擇非常容易,極大地簡化了評價難度;

(2)提高了評價的客觀性。同時,由于對弈作品完全隨機出現,評價者評價自己作品或特定拉票作品的概率很低,或者可以采用技術手段避免評價自己,基本上避免了拉票現象,提高了評價的客觀性和公正性;

(3)評價結果實時更新,過程完全透明。基于Web的評價系統其評價原則、結果和過程都是完全透明,參與者在公開的環境中評價、品評他人作品,是一個互動和相互學習的過程,并且動態更新的結果會給參與者帶來一定的壓力,在對待作業的態度上會更加重視,作品質量上會有所提高,更有效的提升了教學效果。

本文以Glicko-2評價機制在 《網站建設與管理》課程學生自助評價系統中的應用,闡明系統的建設、實施、控制過程及評價效果的分析。

2.自助評價系統的建設與算法參數

本研究應用ASP.NET開發實現了基于Web的自助評價系統,主要實現以下功能:

(1)評價用戶的驗證,基于學號和密碼對用戶進行驗證。用戶驗證的目的有兩個,一是通過類似實名認證的方式,記錄每個人的每次投票,相比匿名方法能更好地避免不負責任的選擇;二是整個評價過程亦作為教學過程的一部分,每人必須至少完成一定數量的投票。

(2)基于兩兩比較的評價。為了便于比較和選擇,采用“iframe”框架技術將兩件待評價網頁顯示在同一頁面中。對弈作品的選擇策略,可采用完全隨機選擇,或隨機選擇一件作品,根據其Glicko算法的Rating和RD值匹配水平相當的對手。本系統為了保證評價的均衡性,避免過多或過少評價,每次選擇,均以作品的等級分更新次數升序排列(即作品參與評價的比賽輪數,而不是簡單的比賽次數),在前十位中隨機選擇兩件。這種選擇方法一方面平衡了評價次數,另一方面每次選出的對手都是參與比賽數量比較接近的,相較完全隨機選擇方法更為合理。

(3)評價結果的展示。以“排行榜”的方式,依評價等級分從高到低依次顯示列表,點擊鏈接可瀏覽對應學生的網站作品。

系統的參數均按Glicko-2算法推薦設置,每輪比賽包括10局,即每位選手作品每被評價滿10次更新一次等級分、偏差和波動值;等級分隨時間變化常數τ=0.6;初始時,令所有r=1500,RD=350,σ=0.06。

3.學生實驗、作業自助評價實施與控制

(1)作品的提交與評價

首先在服務器端配置好Web、FTP服務器。為方便程序處理,作品嚴格按規定的目錄、文件命名和組織方法,在規定時間內提交到指定目錄。例如作品目錄必須以學號命名,首頁文件必須命名為index.html/php/aspx等。完成后將作業目錄映射為Web服務器虛擬目錄,保證可通過Web訪問到每件網站作品。

作品的評價時間為一周,一周之內任何時間均可上網進行評價,規定每人至少評價30次,最多評價200次。

(2)評價過程的控制

評價系統記錄每一次評價的結果,包括評價人、評價IP、評價時間,作品1學號,作品2學號,是否作品1勝出等信息。

記錄“是否作品1勝出”的主要目的是檢測和發現不負責任的評價。兩件隨機選擇的作品比較時,作品1一直在左側,如果機械的完成任務,一直點擊左側勝出或者很有規律的“左右左右”的話,則結合每次評價的時間間隔,通過此人的評價序列中“是否作品1勝出”這一列很容易發現這一點。一旦確認存在此種情況,將及時在評價系統中公示并采取適當的懲戒措施。

記錄每一次評價結果的另一目的是最大限度地避免不負責任的評價帶來的影響,發現惡意評價后,可以及時排除干擾,根據評價歷史對等級分進行重建。

系統采取的另一限制投票的手段為投票達到一定次數(如50次)后,強制退出并重新進行用戶驗證,避免惡意臨時利用他人信息或軟件自動投票。

4.測試與討論

為了評價算法在自助評價中的穩定性和可靠性,通過模擬數據測試和實際課程評價兩種方案對算法進行驗證。

模擬數據以一個實際的教學班為基準,生成序號為1-76的總計76條數據,每條記錄的數據項包括序號、Glicko算法Rating值、RD值等、比賽輪次、對比次數等,初始值均按默認參數設定。基于Glicko等級分原理,首先隨機選擇處一條記錄A,再從與A的Rate值、輪次等信息在一定閾值范圍之內的剩余記錄中隨機選擇另外一條記錄B,比較A、B的序號大小,大者為勝,記錄結果。考慮到學生實際互評中不同人的標準不一,也可能有個別同學敷衍應付,測試中考慮了隨機選擇的因素,分別測試了無隨機、有5%的隨機選擇、10%隨機選擇……60%隨機選擇對結果的影響。由于在等級分制度中,選手真實實力95%的置信區間為等級分值前后兩倍偏差值(RD)的區間,單純的Rating評分值的精確比較意義不大,所以對結果的評價按記錄序號平均分為4組,即1-19,20-38,39-57,58-76,按Rate值升序排列,前19條記錄中出現序號大于19的記作錯誤,20-38條記錄中出現序號小于20或大于38的記作錯誤,依此類推,每組記錄中總錯誤數與記錄數比值即為錯誤率。測試分兩輪進行,第一輪測試平均每條記錄被比較100次,第二輪測試平均每條記錄被比較20次,測試結果如圖1所示。

圖1 不同隨機選擇、不同比較次數下錯誤率情況

圖中橫坐標軸表示無視序號大小進行隨機選擇的概率,縱坐標軸表示錯誤率 (錯誤率=錯誤數/記錄數*100%),錯誤率1由第一輪測試產生,錯誤率2由第二輪測試產生。對比分析顯示,同樣概率的隨機選擇下,單位記錄評價次數越高,錯誤率越低;隨著隨機選擇概率的逐漸增大,錯誤率呈上升趨勢。值得注意的是,第一輪測試中,當隨機選擇概率高達0.5時,也就是允許一半學生完全隨機評價時,錯誤率依然穩定在10%左右,這表明基于等級分制度的自助評價機制有較強的抗干擾能力和穩定性。

實際課程的學生自助評價以《網站設計與管理》(推選課)課程作業設計為例。采用Glicko-2等級分評價機制進行透明公開的Web自助評價,總計收到合格的作業作品76份 (另有7份作品命名或文件組織不符合要求,未參與自助評價),開放評價時間為8天。總計9421條有效評價記錄,每學生最多評價200次,最少的評價了17次,人均114次,遠高于30次的下限要求,學生表現出較高的積極性。

每件作業作品參與評價次數最高128,最低121次,平均被評價124次,至多相差評價次數不大于一個等級分更新周期。數據分析中也發現,RD值普遍偏大。RD反映的是評級的偏差程度,選手真實實力95%的置信區間為等級分值前后兩倍偏差值的區間,RD值偏大,導致反映其真實實力的區間也偏大,從這個意義上來講,等級分相差幾分甚至十幾分,排名相差幾名的差別是不大的。產生這種現象的原因主要是每個人的評價標準是難以統一的,有的評價者更看重美觀性,有的評價者更看重內容,而有的評價者把原創性作為決定勝負的唯一標準。所以RD值偏大是正常的,從一個側面反映了評價系統的透明性、公開性、多元化的評價準則,在一定程度上也更為客觀的反映了作品的實際水平。在評價結果的方面,經過對等級分排行榜中前20人、中間20人、后20人以及部分隨機抽查的作業進行檢查來看,結果也是科學有效的,排在前面的作品在原創性、美觀性、內容的豐滿程度等方面有很好的平衡,等級分較低的作品基本內容簡陋、或原創性低。

總之,通過以上數據分析可以發現,基于Glicko-2的自助評價系統抗干擾能力強,穩定性好,結果可靠;從實際課程評價次數和每天的評價分布情況來看,這種競爭機制激勵了學生的熱情,評價者表現出了較高的積極性,評價結果可以反映學生實際的作業完成情況。

五、結束語

評價結果分析顯示,基于Glicko-2等級分評價算法自助教學評價系統具有開放性、透明性、客觀性等特點,評價數據客觀合理,結果可靠,可以真實的反應學生作業設計完成的實際情況。

[1]呂嘯,余勝泉,譚霓.基于發展性評價理念的網絡教學平臺學習評價系統設計[J].電化教育研究,2011(2):73-78.

[2]張倩.網絡環境下同伴匿名評價實證研究[J].電化教育研究,2007(7):55-57,71.

[3]吳川,孫錦程.基于ACM的《算法設計與分析》教學改革研究[J].中國科教創新導刊,2010(32):62.

[4]楊春明,陳念年.基于競賽模式的“算法分析與設計”教學探索與實踐[J].計算機教育,2009(20):146-147,105.

[5]GLICKMAN M E,JONES A C.,Rating the chess rating system[J].Chance.1999(12)2:21-28.

[6]GLICKMAN M E.A comprehensive guide to chess ratings[J].American Chess Journal 3(1995),59-102.

[7]Wikipedia.Chess rating system[EB/OL].http://en. wikipedia.org/wiki/Chess_rating_system.

[8]Wikipedia.Elo rating system[EB/OL].http://en. wikipedia.org/wiki/Elo_rating_system.

[9]REMI C.Computing Elo ratings of move patterns in the game of go[J].ICGA Journal January.2007(7):113-124.

[10]GLICKMAN M E.Paired comparison models with time varying parameters,Ph.D.thesis[D],Harvard University Dept of Statistics,1993.

[11]Wikipedia.Mark Glickman[EB/OL].http://en. wikipedia.org/wiki/Mark_Glickman.

[12]GLICKMAN M E.Parameter estimation in large dynamic paired comparison experiments[J].Applied Statistics 48(1999),377-394.

[13]Microsoft.TrueSkill?ranking system FAQ-Microsoft Research[EB/OL].http://research.microsoft.com/enus/projects/trueskill/faq.aspx.

[14]Microsoft.TrueSkill?:A Bayesian skill rating system[J].MIT Press.2007.

[15]TopCoder.Algorithm competition rating system [EB/OL].http://apps.topcoder.com/wiki/display/tc/Algorithm+Competition+Rating+System.

[16]GLICKMAN M E.The Glicko system[EB/OL]. http://www.glicko.net/glicko.html.

[17]GLICKMAN M E.Example of the Glicko-2 system[EB/OL].http://www.glicko.net/glicko.html.

[18]FORISEK M.Theoretical and practical aspects of programmingcontests.PhDthesis[D].ComeniusUniversity.

G434

A

1673-8454(2017)05-0061-05

四川省教育廳項目自然科學一般項目(15ZB0017);四川農業大學校級教改項目(X2015043)。

猜你喜歡
比賽作業評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
快來寫作業
發芽比賽
大灰狼(2019年4期)2019-05-14 16:38:38
選美比賽
比賽
作業
故事大王(2016年7期)2016-09-22 17:30:08
最瘋狂的比賽
智慧少年(2016年2期)2016-06-24 06:12:54
基于Moodle的學習評價
我想要自由
保加利亞轉軌20年評價
主站蜘蛛池模板: 无码'专区第一页| 亚洲精品免费网站| 波多野结衣无码视频在线观看| 看你懂的巨臀中文字幕一区二区| 色老头综合网| 国产美女叼嘿视频免费看| 欧美色亚洲| 精品欧美一区二区三区久久久| 日韩欧美中文字幕在线精品| 国产va在线观看| 国产精品无码AV中文| 久久久黄色片| 97成人在线观看| 97狠狠操| 五月天福利视频| 操国产美女| 国产三级精品三级在线观看| 欧美性久久久久| 色天堂无毒不卡| 午夜无码一区二区三区| 黄色网站不卡无码| 亚洲综合婷婷激情| 国产黄色爱视频| 鲁鲁鲁爽爽爽在线视频观看| 国产产在线精品亚洲aavv| 免费日韩在线视频| 亚洲精品无码av中文字幕| 国产精品福利社| 91美女在线| 国产理论一区| 国产精欧美一区二区三区| 一边摸一边做爽的视频17国产| 日本爱爱精品一区二区| 亚卅精品无码久久毛片乌克兰| 国产打屁股免费区网站| 成人另类稀缺在线观看| 青青青国产在线播放| 啪啪啪亚洲无码| 无码人中文字幕| 午夜啪啪网| 日韩精品久久久久久久电影蜜臀| 区国产精品搜索视频| 国产精品亚洲а∨天堂免下载| 午夜福利免费视频| 国产超碰在线观看| 国产av剧情无码精品色午夜| 又爽又大又黄a级毛片在线视频| 成人亚洲视频| 国产成人禁片在线观看| 国产精品三区四区| 国产99久久亚洲综合精品西瓜tv| 日韩精品一区二区三区免费在线观看| 欧洲亚洲一区| 日韩久久精品无码aV| 中文字幕在线永久在线视频2020| 99精品免费在线| 午夜福利在线观看入口| 亚洲中文字幕23页在线| 欧美特级AAAAAA视频免费观看| 精品一区二区三区中文字幕| 青青草久久伊人| 日本精品视频| 国产精品深爱在线| 九色在线视频导航91| 五月综合色婷婷| 日本高清有码人妻| 国产人人射| 日a本亚洲中文在线观看| 妇女自拍偷自拍亚洲精品| 天天综合色天天综合网| 亚洲天堂网站在线| 免费a级毛片视频| 精品自窥自偷在线看| 波多野结衣中文字幕久久| 白丝美女办公室高潮喷水视频| 青青草综合网| 午夜在线不卡| 久久精品人人做人人爽电影蜜月| 国产本道久久一区二区三区| 国产成人久久777777| 午夜成人在线视频| 91精品国产91久无码网站|