廖 梁,王永雄,彭金滿
(香港中文大學大學通識教育部,香港特別行政區新界沙田)
如何評定學生學業表現是高等教育質量評估的重要組成部分。西方國家高校通常實行標準參照評估,教師進行作業評定時需依據評分量表,校方則根據評分量表中標準的描述對評分結果進行檢視以確保評估質量。在我國香港地區,2015年之前各高校實行常模參照評估,2015年之后則改為標準參照評估。香港質素保證局指出,標準參照評估是學習成果取向(outcome-based approach)的一部分[1],它為檢視學生學業表現提供證據,從而能更好地實現高等教育評估的質量監督[2]。在我國,大學生學業評估并不純然依照常模參照或是標準參照的做法:有些學校教師評分權較大,學校干涉較少;有些學校則會偏向常模參照,對某幾個分數區間(如高分區)的百分比做出一定限制。但總體而言,標準參照評估在我國內地高校實施較少。本文旨在通過介紹標準參照評估的理念,透視其對促進教與學的作用,并以香港中文大學通識教育基礎課程實施標準參照評估的經驗為案例,剖析這種評估方式在設計、實施和改進方面的具體問題、困難和可能的解決方法,以期與同行一起討論如何在院系開展和實施這項評估。
標準參照評估最早由格拉澤(R.Glaser)于1963年提出。針對當時學業評估主要采取常模參照的方式,即根據在正態分布中的相對位置確定學業成績高低,格拉澤指出這種評估方式并不能清楚反映學生獲得了哪些能力的發展[3]。格拉澤師從行為主義大師斯金納(B.F.Skinner),倡導程序性教學(programmed instruction),其核心理念是根據學生的學習狀況調整教學[4]。格拉澤指出,學生掌握哪些知識和技能是構成有效教學的必要條件[3]。與常模參照評估并存的另一種評估方式是標準參照評估。它將學生的學業成就具體化為行為表現,以此作為教學目標和評估標準,目的在于了解學生的學習狀況。同時期布魯姆(B.S.Bloom)也提出與程序性教學理念相似的掌握式學習(mastery learning),強調評估結果反饋對于學習的重要作用[5]。標準參照評估的提出是基于提升學生學習效果之背景,教育者意識到依靠教學單方面的改進并不足以促進學生學習,還需要借助評估為教學提供有意義的反饋。評估并不是與教學活動相割裂的獨立實踐,而是教與學的一部分,評估的最終目的不在于給學生一個等級或者分數,而是讓他們清楚自己的能力表現,進而建立起對學習過程的元認知(meta-cognition)和自我調節(self-regulating)[6]。
標準參照評估從20世紀70年代開始在美國受到關注和熱議,一開始的焦點放在基礎教育領域,由于其評估目標清晰外顯化更能滿足專業教育的需求,到了20世紀80年代這種評估模式便在西方高校流行并逐漸普及[7]。20世紀70-80年代它以行為主義為理論基礎,通過捕捉和描述學生外顯化的行為表現并以此作為評估標準。到了20世紀90年代,這種以行為表現為基準衡量學生學習成果的評估方式受到挑戰,例如:評估標準是否能完整描述學生學習成果[8]?評估標準是否能被教師準確理解和使用[9]?這些質疑歸根結底是對以實證主義為邏輯的評估取向的否定,這種評估取向以目標-結果為本,忽視了評估本身以及評估過程的復雜性[8,10-11]。因此,20世紀90年代的標準參照評估在理念上發生一定的改變,從只關注評估結果轉向了對評估過程的關注。雖然仍然根據標準來判定學生學業表現,但此時則重新審視了評估標準的權威性,不一味強調評估標準的準確使用,而是關注教師在使用標準過程中的默會知識(tacit knowledge),及其對評估結果的影響[11-12]。另外一個強調重點則是鼓勵學生參與評估,而不是僅僅將評估視為考核學生的手段[13-14]。鼓勵學生參與評估的關鍵在于教師向學生闡釋評估標準的內涵,并就如何達至評估標準的要求與學生一起溝通交流。除成績結果外,教師還需基于評估標準向學生提供學業表現的質化評語[8],此外也應鼓勵學生適時開展自評(self-assessment)和同儕評估(peer assessment)[13]。
標準參照評估于20世紀90年代初引進國內,除了概念的介紹,討論主要集中于測試中的技術設置問題,例如選題的效度、難度、區分度、分界線設置、選擇合適標準等[15-18]。也有學者討論了高考中常模參照與標準參照的雙重特征,以便將兩者更好地結合起來[19]。需注意的是,技術討論大多只適合于單項或者多項選擇題這類考核題型,而大學生學業考核任務則更多是寫作、項目、實物、模型展示等開放形式,這就需要將關注點放在評估標準的選擇和設定、如何依據評估標準評分、如何基于評估標準為學生提供反饋這些問題上。
1.研究背景
香港中文大學自2018年秋季學期開始,全校各院系全部實施標準參照評估。在此之前,香港中文大學采取常模參照評估方式,學校對學業成績等級(A等、B等、C等……))的比例做出了一定的規定,例如拿到A等級的學生一般不應超過該班級學生人數的30%,這種評估方式又被稱為根據分數分布曲線而評分[20-21]。從政策上對等級人數進行限制可以防止教師任意評高分的情況,但由于成績評定是與其他同學對照的結果,學生成績有時并不反映其真實學業表現[22]。
常模參照評估的另一個隱憂是評估標準的缺失和邊緣化。采取常模參照評估通常無須出示評估標準,盡管一部分教師會在評估過程中列出評估標準,但在實際評分中,教師通過“比較原則”和“等級約束”便可評分,學校根據“等級約束”監督評分結果,無任何一方需要對評估結果是否真正反映評估標準追加問責。如果使用標準參照評估,一方面問責學業評估質量的“證據”將清晰公示,另一方面也可實現以評促學——明晰的評估標準有助于學生對自我學習能力做出評估,評估反饋則能幫助學生檢視自身學習程度。從理念而言,標準參照評估不失為一種較理想的實現教評相互促進的方式。然而在現實中,由一種固定的評估方式轉向一種全新的評估方式并非易事。對于如何設計和實施這種新評估,大學缺乏具體的指導。香港中文大學鼓勵各院系根據學科自身特征,自行探索和確立適合課程要求的標準參照評估,但這無疑增加了一種不確定性——院系缺乏實施新評估的經驗,教師則對評估結果是否“合理”表示擔心。
2.案例選擇
本文選擇香港中文大學通識基礎課程的評估實踐為研究案例,是基于以下考慮:從標準參照評估本身的特征來看,由于這種評估方式是在每門課程的要求和內容基礎上發展出評估標準,評估的“學科特質”決定評估標準的研發主要從學系層面開展。香港中文大學通識教育部承擔全校本科生兩門必修通識教育基礎課程①——“與人文對話”和“與自然對話”的教學工作,目前擁有全職教師28名,從教學規模而言與學系相當。相對于專業學系更廣泛復雜的課程設置,這兩門基礎課程無論從課程設計、教學目標還是學業考核形式上均很相似——它們都以研習中外經典為主旨,教學方式以小組討論為主、教師授課為輔,對學生學業的考核則強調寫作能力和課堂討論。課程有三種考核任務:寫作,包括反思日記和學期論文;課堂討論,包括小組討論和個人論述;課堂小測。其中,寫作所占比重最大,“與人文對話”寫作考核占總成績的60%,“與自然對話”則為50%。選擇這兩門課程的評估實踐為研究對象,有利于深入了解一種新的評估方式需經過怎樣的設計、實施,最后得以真正落實。與此同時,兩門課程所涉及的教師較多,這可以更全面反映不同教師在評估實施過程中的觀點、決策以及與標準參照評估的互動。
3.研究問題
任何一個新的教育政策或者教學理念,將其精神充分付諸實踐并非簡單自發的過程。首先,政策制定和政策實施屬于不同利益相關者,從政策理念到行動實施中間存在“真空地帶”[23];其次,教師面臨從已經習慣的評估方式轉變到一種全新的評估方式,要教師改變評估習慣,這同樣充滿挑戰[24]。研究通過對標準參照評估實施過程的考察,以教師共同體研究、學習、實踐新評估的整個行動過程為研究對象,探究令標準參照評估得以落實的程序和條件,以填補從評估理念到評估實踐中的“真空地帶”。具體的研究問題包括:
(1)標準參照評估的實施包括哪些步驟,每個步驟的準備和結果如何?
(2)這些步驟如何互動以促進標準參照評估更好地在實踐中落實?
4.研究方法
由于研究以一項新評估的實施全過程為研究對象,研究結論基于特定的實踐活動,故采取行動研究的方法。筆者作為通識教育部標準參照評估開發設計小組的成員,參與了標準參照評估從設計、實施到反思與再規劃的全部環節。研究將采取自我審視、觀察、實證和反思的方法,探究整個實施過程中研究者自身和教師的行動以及互動內容。根據勒溫(K.Lewin)提出的“螺旋式”行動研究程序[25-26],研究將實施過程分為計劃、行動、對行動進行實證調查、反思與再計劃這樣四個步驟,具體而言包括:標準參照評估設計,新評估的“落地”,對評估實施效果收集實證資料,對評估結果的集體討論和再規劃。根據行動研究“從實踐中產生理論”以及“通過慎思的行動對理論加以解釋和補充”的特點[27-28],研究對每一個步驟的具體內容、背后理據、行動結果進行梳理,以找出行動對實施的作用,同時對行動結果進行反思,以探究落實標準參照評估的條件。
1.標準參照評估設計
評估設計由工作小組完成,小組成員由通識基礎課程署理主任和副主任、四名通識教育基礎課程教師和一名研究員組成。工作小組通過文獻調研明白,要實施標準參照評估,首先需要向教師提供評分量表(grading rubric)。因此,設計和編寫評分量表成為該步驟的重心。而編寫評分量表,關鍵則是確立并描述評估標準。評估標準的確立需基于一定的教育價值理念[29]。工作小組在標準選擇時采取學習成果取向,以預期學習成果③作為產生評估標準的來源。工作小組將學習成果覆蓋的內容轉化為具體的能力要求,再結合不同考核任務的特征和目標,衡量每項考核需要覆蓋哪些能力要求。以“與自然對話”寫作考核為例,學習成果包括五大能力要求,其中理解能力、評估能力、知識應用能力和個人反思能力均可以通過寫作加以考核,因此納入寫作考核的評估指標。又根據寫作注重語言和修辭的特征,寫作考核就形成了兩個大的評估指標:高階思維能力、語言表達和文體風格,其中高階思維能力發展出理解、評估與整合、知識應用、有效結論、個人見解與反思這五個子指標。
確立了評估指標之后,另一個核心任務便是對各等級的具體特征做標準描述。無論是文獻調研還是具體的設計實踐,均發現等級標準描述的“尺度”是最難以把握的。描述過于籠統,容易忽略學生的某些能力表現;過于煩瑣,則容易令評分變得機械化。正如薩德勒(D.R.Sadler)所言,“有些評估標準根本無法表達,所有試圖對其作出解釋的語言怎么組織都顯得不夠準確,而有些則只可意會”[30]170。如何呈現出既相對全面、準確,又比較簡潔、易做判斷的標準描述則成為編寫評分量表最具挑戰性的任務。工作小組在編寫標準描述的時候,遵循的原則有二:一是評估指標反映了什么能力?這些能力在具體情境中的表現包括哪些?二是在不同等級描述時,從學生展現這些能力的頻率和程度上加以區分。以下摘選高階思維中兩條子指標以及語言表達其中一條子指標的描述加以說明(見表1)。

表1 通識教育基礎課程“與自然對話”寫作能力評分量表(摘選)
標準描述完成之后,接下來是對各指標權重進行賦值以及確定各等級分數區間。關于標準參照評估中的等級分數設定,20世紀70年代曾經展開過較多理論上的討論[31-32],但在實際的做法中,通常沿用“傳統慣例”,很少從理論層面解釋分數區間的確定過程。有學者指出在確定指標權重和等級分數方面,很多時候是一種缺乏統計理論支持的“主觀行為”[33-34]。在確定等級分數區間過程中,工作小組歷經了幾次修改,最后決定沿用香港中文大學常模參照時期的分數分布指引②。權重賦予同樣難以找到充足的理論解釋。比如,何為“最佳權重”就值得商榷:是指權重的分配使得最終的分數分布最接近正態分布,還是指它最能夠反映學生真實水平?最后工作小組采取的是借助教師的專業經驗來確定指標權重。例如,“與人文對話”寫作評分量表,高階思維能力指標占寫作成績的70%,語言與文體占30%;“與自然對話”的比例則分別為75%和25%。
2.評估理念的落地
評估理念的落地是指教師學習和了解標準參照評估的理念和要求。這一過程對于教師如何將新的評估要求內化并轉化為相應的評估行為十分關鍵。諸多研究顯示采取由上至下的政策傳導方式,忽視與實踐者的溝通,將導致政策實施的失敗[35-37]。因此在這一步驟中,工作小組采取了對話溝通的方式,邀請所有教師參加關于標準參照評估的討論。會議由一名工作小組成員主持和匯報,所有小組成員均參與提問環節,另有一名工作小組成員擔當觀察員,觀察和記錄教師之間的互動以及現場問題。
討論的第一個重點是標準參照評估背后的理念,目的在于讓教師了解評估標準確立的原則、評估標準與課程目標的關系,以及通過制定恰當的評估標準從而實現課程、教學、評估三者的整合和統一。第二個重點是評分量表的使用。這部分的互動比較活躍,反映出相較于評估的概念和理念,教師更為關心如何在實踐中運用它。互動的問題集中在對等級描述的把握以及如何評分兩個方面。
3.實證資料收集與評分量表的完善
通過會議觀察研究者發現,教師對于標準參照評估以及評分量表的使用有自己個人的看法,這些看法無法通過會議互動洞悉詳盡,要深入了解教師是否內化了標準參照的理念,又會如何在實踐中運用,則有必要收集教師的個人意見。個人意見分為三個部分:會議提問、會后在公眾平臺的交流以及教師自愿參與的個人訪談。其中,訪談是了解教師內化、理解和應用標準參照評估的主要資料來源,會議提問以及會后交流則作為輔助資料。
研究分別對7名教師進行了時長約為1.5小時的訪談。訪談結果與會議觀察達到了某種一致:教師對標準參照評估的理念均有一定的把握,此部分未顯示出大的差異;但對于評分量表的理解、闡釋和運用,則體現出較大的個體差異。不同教師對每個等級標準含義的把握不同,對評估標準中能力表現的闡釋也各異:有的教師在評分時只會使用一部分自己認為比較重要的評估標準,或者對各條標準的重要程度做排序,以確定評分的松緊程度;也有的教師指出反思日記和學期論文在考核要求上不盡相同,使用同樣標準的評分量表并不恰當。有的教師會與學生共同討論評分量表的內容以及評分細則,并會將評分量表中的表現反饋給學生;而有的教師則表示無需將評分量表反饋給學生或者就評分量表與學生共同討論。在如何評分方面,教師受到了評分習慣的影響,例如,沿用舊的量表進行評分,不自覺受到“等級約束”和“分數分布”等常模評分習慣的影響,采取自己熟悉的分數區間。
訪談中所發現的問題有些在實施中及時進行了調整,例如:修改了量表中的用詞,使之表述更為準確;和教師一道討論了是否需為反思日記和學期論文準備不同的評估量表。另外一些問題則難以即時做出調整,例如教師對標準的自我闡釋、教師對不同評估標準重要程度的認知以及評分習慣,這些屬于教師的默會知識[13],它體現個人特質[38-39]。這些問題本身也是標準參照評估中的困境——一方面很難對教師的個人評分做強制性的規定,另一方面這種個人判斷又常常造成即使面對相同的評估標準,評估結果也會存在差異[40-41],差異過大則影響評估信度[42-43]。
4.對評估結果的集體討論和再規劃
實施行動的最后一步是基于前述實施行動進行集體討論。在前三步行動實踐中,實施評估的主要問題是:標準參照的初衷在于通過設立外在標準以約束評分的“任意性”,但由于教師在評分過程中不僅只是參照外部評估標準,也會依據內在的默會知識作出判斷,教師在多大程度上運用評估標準是未知的。因此在這一環節,我們將焦點放在面對同樣的評估標準,教師之間是否存在判斷差異,以及差異存在的原因。參加討論的教師需要共同評定四篇范文,結果顯示有一篇文章的評分差距在兩個等級(A-至B),有兩篇文章的評分相差三個等級(B-至C-、A至B),有一篇文章的評分相差五個等級(A-至C-)。評分結果與布勞森的一項研究結果相似[40],該研究揭示評分結果存在較大差異。通過集體討論和教師發言,研究發現造成差異的部分原因是有些教師對于評估標準的使用并不充分,即他們在實際評分中并不會采取逐條比對標準的方式做出判斷,往往是因為某一條標準的異常表現而給出高分或者低分。
評分結果差異揭示了教師評分的復雜性,這種復雜性在于評分是基于教師的自身經驗、資歷、學科背景、教學價值觀、對學生的看法等各種背景下所作出的判斷,這些默會知識的存在導致不同教師對評估標準有不同的使用[30,40]。教師對評分結果的差異則看法不一:有的教師認為存在差異很正常,應該保留教師的評分自主權;有的教師則認為如果評分差異過大,意味著評估標準并沒有發揮其應有的作用。如何看待評分過程中的判斷差異以及結果差異,成為實施行動中產生的新問題。
1.設計階段的審視與反思
如何設計新評估并令其順利開展可以從兩個方面進行反思:一是由誰來設計?通識教育部的做法是選擇部分教師以及研究員構成工作小組,這樣做的益處是保證了設計階段的效率。然而工作小組畢竟不能代表所有教師的意見,實證分析結果則揭示教師對于“外在”的評估標準存在自我闡釋甚至理解偏差,造成偏差的原因之一便是未能保證每一位教師均參與評估標準的選擇和建構。這主要源于對時間成本的考慮,但如果在時間允許的情況下,讓每一位教師均參與評估標準的選擇和厘定,將能更好地調動教師的參與積極性,教師對評分量表的質疑和理解偏差也將大大減少。
第二個方面是關于編寫評分量表,如何體現標準參照評估精神的關鍵在于評估指標的選擇,難點則是對評估標準的具體描述。評估指標選擇并沒有既定的標準,但從標準參照理念出發,評估指標應與課程目標、教學內容一致,即課程目標、教學內容以及評估要求應達到相互印證。指標選擇的另一個要點則是可評估性,通識教育部的實踐經驗是從預期學習成果(也可理解為課程目標)中找出相應的認知能力作為評估指標,之所以強調認知能力正在于它的可評估性。此外,各等級的分數區間目前是采取依據經驗確定的方法,對此感興趣的研究者如能結合統計理論以確定分數區間,將令評分量表的分數設定更具說服力。
2.對實施過程的觀察與反思
縱觀此次行動實施過程,在步驟2(評分前的集體會議討論)中,工作小組的焦點之一是評分量表的使用。但從會議觀察和實證分析來看,單向地由工作小組講授評分量表并不能令每位教師均領會評估標準的內涵,在實際評分中教師往往還是基于其默會知識引導下的內在標準,對各項指標作出評分判斷。因此在步驟2得到的反思是:除了對評估的理論和使用進行講解之外,還需要加入具體的案例以及評分演練,通過集體公開的討論,能夠令教師意識到自我闡釋與他者闡釋的不同,從而在評估標準的詮釋和運用上,不僅僅只是基于個人理解,也能夠考慮到其他人的看法,以減少對評估標準的理解差異。
在步驟4即評分后的集體討論中,一個新產生的問題是關于評分差異。如何看待評分差異標志著是否對標準參照評估有深刻的認識。評分差異并不能簡單理解為錯誤地使用了評估標準,并得出評分不可信這樣的結論。關鍵是要看到差異背后不同的判斷依據以及這些依據是否基于評估標準[44-45]。有些評分差異是由于教師之間使用評估標準的做法不一致,例如教師過分重視單一標準從而造成評分差異;有些差異則是因為個人對評估標準的闡釋不同。不同原因導致的評分差異需用不同的方法加以解決。
由于評分差異具有一定的普遍性[46-47],總結討論的焦點應放在如何看待評分差異上。回顧步驟4的做法,一個反思是:討論在比較分數差異方面消耗了一定時間,以致后續讓教師闡釋評分理據的時間較少,使得教師對彼此的評分理據并未完全清晰呈現。這為下一次設計集體討論帶來的啟示是:應最大限度令每位教師闡釋評判理據,并實現有效交流。如果教師能夠彼此清楚打分依據,并在交流的過程中產生兼容包并的態度,不僅能更清晰地理解評估標準的要求,也能更開放地看待評分不一致,接受自己或者他人分數分布的不合理,真正意義上擁抱標準參照評估。
總體而言,在評估實施的初期階段,很容易發生偏離評估目的的各種行為,例如對評估標準各自闡釋、沿用常模參照評估的評分習慣等。如果教師不能正確而恰當地使用評估標準,所強調的評分有所依據將只是空頭支票。標準參照評估真正得以落實的關鍵在于教師對標準參照評估的內涵和使用有深刻清晰的認識。只有教師建立了對新評估的認同感,才會在實踐中充分發揮出這種評估的內在功能,例如注重與學生就評估標準進行溝通。要讓教師對評估建立認同并對評估使用有深刻認識,需要充分調動教師的參與積極性,在教師之間形成實踐共同體,以便對標準參照評估的理念和使用進行集體討論;同時組織教師共同檢視評分結果,通過共同評分去尋找評估過程中的差異,求同存異,讓每一位教師對評估標準的詮釋、使用均是集體“共識”之后的決策。
本文通過行動研究,將標準參照評估的實施過程分為計劃、行動、實證、總結四個部分。這四個部分相互聯系和促進,共同保證了評估理念的落實。基于此本文提出標準參照評估的實施模型(見圖1)。在該模型中,計劃階段的主要任務為開發評分量表。該階段需最大限度調動教師參與度,盡可能讓更多教師參與評估標準的選擇、確立和開發。行動階段指教師就標準參照評估的內涵以及評分量表使用開展學習和討論。該階段不能采取技術理性式的單向宣講方式[10],而需要為評估理念的落地提供“支架”,即通過集體討論、對話溝通、案例演練的方式讓教師建立對評估的認同感和深度認識。實證階段是對設計和行動階段可能產生的問題進行探究。該階段的實證數據為了解評估是否真正落實提供了豐富的有深度的資料,是研究實施效果不可或缺的。總結階段是對實施行動的檢視,檢視內容基于前三步行動實踐的問題和結果。該階段需要教師共同解決評估實施中所面臨的深層次問題。研究顯示標準參照評估的一個實施難點在于如何協調不同教師對評估標準的理解和使用差異。研究建議定期舉辦評分研討會,以對話溝通的方式讓教師建立對評估標準的共同理解[48]。其目的不是在于統一評估標準,而是將評估標準的不同闡釋公開化、透明化,讓教師在實踐共同體中以學習和反思的方式慎思不同闡釋的合理性[49-50]。教師對評估標準做到既胸有定見又和而不同,便能最大限度減少非關因素對評分的干擾,而這樣的評分結果也必然是公平而令人信服的。

圖1 標準參照評估實施模型
注釋
①香港中文大學本科生通識教育有三大部分:一是通識教育基礎課程,其概念與核心課程類似,屬于全校必修課程,由通識教育部教師負責授課;二是四類通識教育課程,其概念與分布課程類似,由各院系教師開設,學生從四類通識教育課程中各選擇一至兩門課程學習;三是書院通識,主要是各書院根據其歷史和教育理念設計并開設課程,強調學生在實踐中學習。
②香港中文大學常模參照時期的分數分布指引:在一般情況下,撇除不及格的學生后,成績最好的30%獲A等(包括A、A-),其次的50%獲B等(包括B+、B、B-),最后的20%獲C等(包括C+、C、C-、D+、D,為方便討論統稱為C)。
③關于香港中文大學通識基礎課程預期學習成果的網絡鏈接如下:與人文對話https://www.oge.cuhk.edu.hk/index.php/tc/2011-06-22-08-12-12/ugfh-1001;與自然對話https://www.oge.cuhk.edu.hk/in dex.php/tc/2011-06-22-08-12-12/ugfn-1001。