郭芷含 陳勁松
摘要:高等教育的教學(xué)評價是一種廣義上的教育和心理測量,有效性與現(xiàn)代測量效度理論相吻合,同時又會牽涉到眾多復(fù)雜的教學(xué)因素,這種二元性容易導(dǎo)致研究中教學(xué)論與測量學(xué)的脫節(jié)。本文嘗試通過現(xiàn)代測量效度理論的新視角去重新審視大學(xué)教學(xué)評價的各個環(huán)節(jié),并探討進一步解決問題的研究途徑。考慮到高等教育的復(fù)雜性和多樣性,我們把測量效度的內(nèi)涵重塑為評價內(nèi)容、過程和方法、數(shù)據(jù)和模型、校標關(guān)聯(lián)、評價后果五個層面,并以此為基礎(chǔ)反思教學(xué)評價。希望新的視角能有助于構(gòu)建更加健全和成熟的大學(xué)教學(xué)評價體系,同時能開辟結(jié)合教學(xué)論和測量學(xué)的教育研究的新范式。
關(guān)鍵詞:教學(xué)評價;測量效度;效度理論;高等教育;教育目標
隨著高等教育的普及,高等教育的教學(xué)質(zhì)量及其評價日益受到關(guān)注和重視,合理有效的教學(xué)評價對教學(xué)質(zhì)量起著舉足輕重的影響。但目前仍未有共識該如何界定和衡量教學(xué)質(zhì)量,對其評價也面臨著不少的爭議和挑戰(zhàn),而且隨著教學(xué)質(zhì)量的評價在大學(xué)越來越普及,與評價相關(guān)的問題和爭論也日益增多,因此迄今還沒有被普遍認可的教學(xué)評價體系可資高校內(nèi)部的監(jiān)管、改進和發(fā)展使用。高等教育的教學(xué)評價牽涉到諸多復(fù)雜的因素,包含了教學(xué)目標和過程,評價的內(nèi)容涵蓋了教與學(xué),評價的對象覆蓋了課堂、課程和整個學(xué)科的教學(xué),評價的主體可以是學(xué)生、專家和教師,評價的方式、時間和地點都有多種選擇,因此構(gòu)建合理的教學(xué)評價體系同時具有迫切性和挑戰(zhàn)性。
針對教學(xué)評價的研究目前主要有兩種視角:一是從典型的教學(xué)論視角出發(fā),研究焦點是評價內(nèi)容、指標或措施等是否合理,偏重經(jīng)驗主義,特點是富于思辨和理論,卻容易忽略測量方法上的可行性或合理性,也缺乏實證檢驗;另外一種是從傳統(tǒng)的測量學(xué)視角出發(fā),通過測量和統(tǒng)計建模分析評價方法的信效度和題目參數(shù),特點是分析檢驗過程實證而且嚴謹,不過容易忽視評價內(nèi)容的合理性和整體的有效性。兩種視角相對獨立,但均未觸及教學(xué)是教育過程、即通過教育活動以期達到特定教學(xué)目標這一本質(zhì),因此都不大可能徹底解決教學(xué)評價中的問題。教學(xué)評價是一種廣義上的教育和心理測量,既有教育測試的內(nèi)核,同時又會牽涉到眾多的教育理論和實踐元素,正是這種二元性容易導(dǎo)致研究中教學(xué)論與測量學(xué)的脫節(jié)。現(xiàn)代測量效度理論強調(diào)測量的有效性是一個整體的概念,而且必須圍繞特定的目標從內(nèi)容、過程、結(jié)構(gòu)、效標和后果等方面構(gòu)建[1][2],這一思路為教學(xué)評價的研究和實踐提供了新的視角。本文嘗試通過這一視角去重新審視大學(xué)教學(xué)評價的各個環(huán)節(jié),并探討進一步解決問題的研究途徑。
一、現(xiàn)代測量效度的本質(zhì)
測量效度指一項測試是否有效測量了所想要測量的東西,是衡量這項測試最重要的指標。而那個“東西”指某種“概念或?qū)傩浴保环Q為構(gòu)念(construct)。不過傳統(tǒng)和現(xiàn)代測量學(xué)對效度的本質(zhì)有不同的認識。傳統(tǒng)測量學(xué)強調(diào)測量的工具性,效度是測量工具的內(nèi)部屬性并絕對存在。當測試能夠測量出所預(yù)設(shè)對象的特征或?qū)傩詴r,該測量有效;反之則無效。[3][4]因此,教育和心理測量是物理測量在行為和社會領(lǐng)域的自然延伸,并在此基礎(chǔ)上形成了構(gòu)念效度:測量所要測的構(gòu)念在理論上存在,并且與測量結(jié)果具有因果關(guān)系。這種因果關(guān)系是測量建模和檢驗?zāi)P陀行缘睦碚撘罁?jù)。此后衍生出了內(nèi)容效度、效標效度等不同的效度概念,分別從內(nèi)容、效標等角度去驗證測試的有效性。[5]不同類型的效度以及相關(guān)的驗證分析相對獨立,而且可能在不同場合起著關(guān)鍵作用。
現(xiàn)代效度與傳統(tǒng)效度有著本質(zhì)不同,是指證據(jù)和理論對測量結(jié)果的特定解讀和使用的支持程度。[6][7]首先,測量結(jié)果的解讀和使用源于測量目標或用途。效度不再是測量工具的內(nèi)部屬性,也不是絕對的,而是與如何使用測量結(jié)果息息相關(guān)。同樣的測量結(jié)果在某種目標的使用下是有效的,換一種目標或使用可能就是無效的。其次,效度是一個整體單一的概念,不存在不同類型的效度。構(gòu)念代表著全部測試行為的特征或模式,是全體測試行為的抽象化表征,因此構(gòu)念效度代表著整體的效度。但構(gòu)念效度不再強調(diào)測試行為和結(jié)果之間的理論性和因果性,而是強調(diào)兩者關(guān)聯(lián)具有合理性并且可被驗證。再次,效度驗證具有多面性,效度論據(jù)可以來自于五個方面(見圖1),即測試內(nèi)容、應(yīng)答過程、內(nèi)部結(jié)構(gòu)、外部關(guān)聯(lián)、測試后果。完整的效度驗證需要從這五個方面進行。多個方面的效度論據(jù)圍繞著構(gòu)念效度,構(gòu)成了完整的效度整體,任何一個方面的缺陷都會導(dǎo)致無效的測試解讀或使用。但不同方面的效度證據(jù)并不互相排斥,而是相互作用和影響。比如測試內(nèi)容的論據(jù)可能會涉及到內(nèi)部結(jié)構(gòu)或外部關(guān)聯(lián)。因此,對同一測試用途進行多個方面的效度驗證圖1效度驗證的五個方面相當于對有效性進行多重檢驗,從而增加了效度結(jié)論的嚴謹性和合理性。最后,由于牽涉到多方面的效度證據(jù),效度驗證也就需要整合不同類型、性質(zhì),甚至看起來相互矛盾的證據(jù)。論據(jù)整合的目的是形成合理的證據(jù)鏈,以期得出具有說服力、前后連貫并經(jīng)得起考驗的效度結(jié)論。論據(jù)的多樣性和證據(jù)鏈的嚴謹性使得效度驗證的過程更富于思辨性或批判性思維。
·課程與教學(xué)·現(xiàn)代測量效度視角下的大學(xué)教學(xué)評價
二、現(xiàn)代測量效度視角下的反思
教學(xué)質(zhì)量的評價屬于過程性的教學(xué)評價,過程性評價在理論上與泰勒的教學(xué)評價涵義吻合[8],重要性也為眾多的教育學(xué)者認同[9],其以教育過程(如教學(xué))和資源(如師資和教學(xué)環(huán)境)為評價對象,評價目標和功能面向教育業(yè)內(nèi)和專業(yè)人士,以特定教育目標為前提對教育活動或現(xiàn)象進行評價,強調(diào)的是評價對象與評價結(jié)果的因果關(guān)系,賦予教育質(zhì)量內(nèi)在的合法性。教學(xué)評價是一種廣義上的教育和心理測量,其測量目標內(nèi)含教育目標,測量構(gòu)念是面向特定目標的教學(xué)過程質(zhì)量。與構(gòu)念的本質(zhì)一樣,教學(xué)過程質(zhì)量潛在于可觀察的教學(xué)活動之下,是后者的高度抽象或概括,因此評價的有效性與現(xiàn)代測量效度理論相吻合。考慮到高等教育的復(fù)雜性和多樣性,對其教學(xué)過程的評價牽涉到眾多的教育理論和實踐元素,我們對測量效度五個方面的內(nèi)涵進行適當重塑,并分別命名為評價內(nèi)容、過程和方法、數(shù)據(jù)和模型、校標關(guān)聯(lián)、評價后果五個層面。
(一)評價內(nèi)容
效度的內(nèi)容層面關(guān)注評價內(nèi)容是否合理,即評價什么的問題,具體包括內(nèi)容域如何界定及其理論或?qū)嵶C依據(jù)是否充足,評價目標與內(nèi)容域是否一致,以及實際內(nèi)容如題目或指標是否足以代表內(nèi)容域并表達適宜。內(nèi)容域作為銜接評價目標與評價題目或指標的主要橋梁起著重要作用,其定義需要詳細規(guī)范和具有可操作性,并建立在充足的理論或?qū)嵶C依據(jù)上。界定良好的內(nèi)容域往往具有結(jié)構(gòu)性、層次性和明確的邊界。同時,大規(guī)模測評的內(nèi)容域經(jīng)常是多維度,甚至多級別的。
教學(xué)評價的內(nèi)容問題牽涉到教學(xué)理論和實踐。在效度視角下,第一個問題是很難在現(xiàn)有的教學(xué)評價中找到嚴格界定的內(nèi)容域,而往往只有一些簡單的內(nèi)容分類或指標,如“教學(xué)態(tài)度”、“教學(xué)方法”、“教學(xué)互動”和“教學(xué)效果”之類。這些指標既沒有詳細或具有可操作性的定義,更缺乏理論基礎(chǔ)或?qū)嵶C檢驗。由于缺乏內(nèi)容范圍這座橋梁,評價的實際內(nèi)容往往與評價目標不相符,比如適用于診斷性或形成性的內(nèi)容卻用于高風(fēng)險性和終結(jié)性的目的。其次,指標或題目內(nèi)容容易有嚴重缺陷,比如表達模糊多義或者容易產(chǎn)生歧義,很難讓評價者準確判斷,或者讓非專業(yè)評價者去評價需要專業(yè)知識的內(nèi)容,比如讓學(xué)生判斷教師是否遵守教學(xué)工作規(guī)程或者教學(xué)內(nèi)容是否具有先進性等。最后是內(nèi)容表征不足,題目或者指標分布不均,內(nèi)容大多只適用于評價課堂,課堂之外的教學(xué)內(nèi)容比如課程目標、材料和結(jié)構(gòu)、內(nèi)容價值等較少涉及,對于課程體系的評價更付諸厥如。
針對以上問題,解決途徑包括通過教學(xué)理論或?qū)嵶C研究去界定嚴謹?shù)膬?nèi)容域,組織有豐富教學(xué)實踐經(jīng)驗的專家根據(jù)評價的目標重新設(shè)計指標或題目內(nèi)容等。內(nèi)容域需要更多覆蓋課程整體,并且納入課程體系,使得課堂、課程和課程體系的評價協(xié)調(diào)一致,并足以代表整個學(xué)科的知識體系。
(二)過程和方法
效度的過程和方法層面關(guān)注整個評價過程及方法是否合理,即如何評價的問題,包括評價的過程、方式和工具是否合適,評價者選擇是否恰當?shù)取T诮虒W(xué)評價中評價者扮演著重要的角色,主要可區(qū)分位兩類評價者——學(xué)生和專業(yè)人士。這兩類評價者會導(dǎo)致完全不同的評價過程與方式,各有各的優(yōu)缺點,并且在理論上可以互補,但如何互補還沒有實際的案例,二者的關(guān)系也還缺乏實證的檢驗。
學(xué)生是教學(xué)過程的直接參與者,是最重要的接受者和教育對象,全程參與了所有的教育活動(課堂、課程和課程體系),對教學(xué)的過程具有直觀的判斷和主觀感受,最具發(fā)言權(quán)。而且學(xué)生評教的方法較容易進行,人數(shù)多且方便多次測試,大學(xué)生群體還容易接受新的測試技術(shù)、方式或內(nèi)容。事實上,學(xué)生一直是教學(xué)的主要評價者。但是學(xué)生評教也發(fā)現(xiàn)了不少問題,包括反應(yīng)偏差較大,隨機、默認或從眾等效應(yīng)明顯,評教的結(jié)果重測信度不高,且分數(shù)同質(zhì)性較高、區(qū)分度較低,容易出現(xiàn)偏態(tài)分布等。[10][11]出現(xiàn)以上問題主要的原因有:(1)評教的結(jié)果更多的是作為教師的考核指標,而弱化了對教師的改進教學(xué)和對學(xué)生的有效學(xué)習(xí)提供幫助這兩方面的作用,使得學(xué)生不能在評教活動中感受到對切身利益的影響,缺乏評教動力,容易抱著“應(yīng)付了事”的態(tài)度隨意選擇。[12](2)每學(xué)期的例行評教,使用的是不變的量表,使得學(xué)生對量表過于熟悉而產(chǎn)生麻木感,評價時間集中在期末,評價結(jié)果容易受到首因效應(yīng)的干擾,每學(xué)期近十門課的評價負擔(dān)過大,易產(chǎn)生疲乏感,采取被動消極的態(tài)度,這些因素都大大增加了反應(yīng)偏差。(3)評教內(nèi)容難以判斷,學(xué)生的評教更多基于自己的學(xué)習(xí)體驗,而較為抽象的評價內(nèi)容(例如“課程內(nèi)容是否反映學(xué)科前沿”、“是否符合課程大綱要求”等),學(xué)生不了解或無法判斷,不能夠做出客觀的評價。[13][14][15](4)學(xué)生對教學(xué)評價的作用并不了解,或者感覺教學(xué)評價形式重于內(nèi)容,擔(dān)心評分過低會影響教師的職業(yè),因此打分過于“仁慈”,導(dǎo)致分數(shù)虛高而且不具有區(qū)分度。
相比較于學(xué)生評教,專家評教能夠體現(xiàn)其專業(yè)性和客觀性,更有公信力和說服力。但是其主要的缺點是人力資源和時間制約,人數(shù)少或參與成本高;專家難以全程參與和覆蓋全部課程,往往只能根據(jù)短暫的課堂聽課印象對整個課程評分,有失片面;而且專家在課堂的出現(xiàn)容易對教學(xué)產(chǎn)生影響,甚至?xí)a(chǎn)生完全不同的教學(xué)效果;對專家的專業(yè)性要求高,尤其受到學(xué)科方向的限制而選擇面小,甚至容易產(chǎn)生一個小圈子內(nèi)相互評價對方的現(xiàn)象,這些都是專家評教中較為嚴重的爭議。還有,老專家或教師容易對教學(xué)評價中的新技術(shù)、政策和理念產(chǎn)生抵觸情緒,影響評價的執(zhí)行。另外,目前仍沒有令人滿意的方法可以使得學(xué)生和專家評教互相兼容,形成一體。
對于以上問題,最合適的解決途徑是依賴于研究和實踐經(jīng)驗建立完善的學(xué)生和專家評分機制,在克服二者缺點的同時使得兩者能良性互動。同時,我們還可通過質(zhì)性研究(學(xué)生的有聲思維分析、專家的深度或結(jié)構(gòu)化方法等)對應(yīng)答過程進行效度檢驗。
(三)數(shù)據(jù)和模型
效度的數(shù)據(jù)和模型層面關(guān)注評價的模型和數(shù)據(jù)是否經(jīng)得起實證檢驗,具體包括模型結(jié)構(gòu)的宏觀層面、題目參數(shù)層面和題目量尺的微觀層面,驗證過程建立在測量建模和統(tǒng)計分析之上。在教學(xué)評價的情境中,評價模型具有多維和多層次(比如總分與各維度分)的特點,宏觀層面指內(nèi)容維度的關(guān)聯(lián)性和內(nèi)容結(jié)構(gòu)的層次性,但在實際中宏觀結(jié)構(gòu)經(jīng)常被忽視或缺乏清晰的概念,類似維度概念如內(nèi)容指標也一般沒經(jīng)過實證數(shù)據(jù)檢驗;題目參數(shù)比如辨別度決定了題目質(zhì)量和計分權(quán)重。理想情況下評價題目應(yīng)該質(zhì)量接近,計分權(quán)重均等,但實際中題目的權(quán)重往往相差幾倍,而權(quán)重設(shè)置同樣很少經(jīng)過模型數(shù)據(jù)驗證。這兩個層面的問題與內(nèi)容問題具有一體兩面的關(guān)系,即測量學(xué)下的內(nèi)部結(jié)構(gòu)不合理對應(yīng)著教學(xué)論下的測試內(nèi)容不合理。評價題目的量尺一般應(yīng)該選用典型的心理量尺比如李克特或等級評定量尺。但在實際中經(jīng)常會出現(xiàn)不規(guī)則的量尺,比如優(yōu)、良、中、差分別代表0.95、0.75、0.60、0.30的計分系數(shù),這樣的量尺既不符合心理測量的序數(shù)或連續(xù)尺度,也很難讓評價者理解和選擇,而且目前還沒有發(fā)現(xiàn)可以證明其合理性的實證研究。
以上問題的解決依賴于以測量建模和統(tǒng)計分析為基礎(chǔ)的實證檢驗,分別在宏觀層面檢驗通過數(shù)據(jù)模型擬合檢驗內(nèi)容結(jié)構(gòu),在題目參數(shù)層面分析題目質(zhì)量并優(yōu)化,在題目量尺層面使用經(jīng)典量尺并驗證其合理性。
(四)效標關(guān)聯(lián)
效度的效標關(guān)聯(lián)層面關(guān)注評價結(jié)果與效標變量的關(guān)聯(lián)是否合理。教學(xué)評價是過程導(dǎo)向的評價,強調(diào)的是評價對象與評價結(jié)果的因果關(guān)系,提供教育質(zhì)量內(nèi)在的成因或機制,賦予教育質(zhì)量內(nèi)在的合法性;而效標是成果導(dǎo)向的,面向教育外界和社會,強調(diào)的是評價對象與評價結(jié)果的相關(guān)關(guān)系,賦予教育質(zhì)量外在的合法性;兩者相輔相成。在教學(xué)評價中忽略效標關(guān)聯(lián)將使我們難以從外部去驗證教學(xué)評價的合理性,甚至?xí)绊懺u價結(jié)果的公信力和說服力。
實際上可以用作教學(xué)評價的效標很多,短期效標可以包括學(xué)生參與度、教師滿意度、學(xué)業(yè)成績等,中長期效標可以是學(xué)生升學(xué)或就業(yè)率,畢業(yè)若干年后的收入等,還可以綜合間接產(chǎn)出指標(如學(xué)術(shù)聲譽、研究成果和校友捐贈)和輔助指標(如財政資源和學(xué)校規(guī)模)等建立起長短期結(jié)合的效標體系,為教學(xué)評價的有效性提供外部依據(jù)。
(五)評價后果
效度的后果層面關(guān)注評價結(jié)果的解讀或使用所帶來的社會效應(yīng),包括預(yù)期和意外的。(1)預(yù)期的后果,也就是直接或者間接地來自于評價結(jié)果的解讀或使用,是否成立;(2)是否存在顯著的意外后果,尤其是負面的。需要說明的是,后果層面旨在檢驗后果的來源是否與評價有關(guān),而不會對后果性質(zhì)的好壞做出價值判斷。檢驗后果是否來自于評價的設(shè)計或過程是測量技術(shù)層面的,而判斷后果性質(zhì)是價值觀層面的。
在教學(xué)評價的情境中,評價結(jié)果的使用可能具有高風(fēng)險性,無論是預(yù)期還是意外的后果檢驗都非常重要。比如,我們基本會假定采用教學(xué)評價的實施會帶來教學(xué)質(zhì)量或水平的提升,但這預(yù)期后果目前還缺乏堅實的研究證據(jù)。如果檢驗不到相應(yīng)后果,必然意味著效度驗證的其他某方面存在問題,如評價內(nèi)容或方式有缺陷,必須修正。若教學(xué)評價的結(jié)果對于教師發(fā)展重要,比如用于教師的人事考核,決定教師的獎懲甚至是未來升遷,而學(xué)生是評價主體的話,這樣高風(fēng)險的使用很有可能帶來師生間相互妥協(xié)的后果,教師對獎懲的關(guān)注超過了對教學(xué)活動改進的關(guān)注,影響到教師與學(xué)生關(guān)系,甚至出現(xiàn)教師給分高那么學(xué)生評教分數(shù)就高的現(xiàn)象,導(dǎo)致教師為討好大多數(shù)學(xué)生而降低教學(xué)難度和深度,[16][17]反而會降低了教學(xué)質(zhì)量,扭曲了教學(xué)評價的本來意義。
三、新視角下的深入研究
在測量效度的新視角下,研究者可以從多個方面對教學(xué)評價進行更深入的研究分析。首先是應(yīng)該評價什么的首要問題。完善的教學(xué)評價體系應(yīng)該具有堅實的理論基礎(chǔ),因此我們可以結(jié)合教學(xué)理論構(gòu)建合理的評價原理和內(nèi)容框架。好的評價原理應(yīng)具有承上啟下的作用,上可以厘清高等教育的目標和方向,下可以引導(dǎo)教學(xué)評價的方法和實踐層面,也就是如何評價以及在具體情境下如何實施的問題。高等教育的教學(xué)是通過教育活動以期達到特定教育目標的過程,因此,教學(xué)評價是建立在特定教育目標的基礎(chǔ)上的。考慮到高等教育的復(fù)雜性和多樣性,我們可以借鑒教育目標理論和目標分類學(xué)[18][19][20]構(gòu)建適合高等教育的教學(xué)目標、目標分類和相應(yīng)的評價原理和內(nèi)容框架。同時,考慮到高等教育的教學(xué)活動以學(xué)科為中心,主要通過課堂、課程和課程體系的三級教學(xué)層次去實施,所對應(yīng)的教育目標和評價原理也應(yīng)該具有相應(yīng)的層級關(guān)系。
其次,對學(xué)生評價的過程和方式的研究可從以下幾方面入手:(1)研究分析學(xué)生的評教心理,如何基于這種心理進行宣傳、引導(dǎo)和培訓(xùn),以及如何設(shè)計量表和題目以減少因心理差異引起的反應(yīng)偏差,比如量表和題目的輪換和隨機出現(xiàn)、反向題目的比例等,還可以分析采用不同的反應(yīng)格式和不同尺度的心理量規(guī)對學(xué)生評教的影響;(2)研究課堂、課程和課程體系評教的次數(shù)和時間節(jié)點上更合理的選擇;(3)研究如何結(jié)合新的計算機和信息技術(shù)構(gòu)建現(xiàn)代化的評教方式和系統(tǒng),以及對師生們所可能帶來的影響。對專家評教過程的研究可從以下幾方面入手:(1)研究如何按不同學(xué)科進行專家分類,以及如何為不同學(xué)科、課程和課程體系篩選專家,還可以研究專家的評教心理,以及如何更好規(guī)范專家的職責(zé)。(2)研究者需要建立具體的模型和算法去監(jiān)測專家的評教行為,尤其是評教的一致性和波動性;還可以利用專家評教結(jié)果修正學(xué)生評教結(jié)果,從而構(gòu)建專家對教學(xué)過程的監(jiān)測機制。(3)研究如何利用現(xiàn)代化的信息技術(shù)幫助專家評教,比如整合所有課程和課程體系的信息和材料、對課堂教學(xué)錄播并隨機給予專家評教等。
最后,對評價結(jié)果的使用和評價體系的監(jiān)管研究可從以下幾方面入手:(1)研究如何對評價結(jié)果按不同的標準等級進行分級使用,以及如何通過具體的建模分析建立或調(diào)整分數(shù)線;同時需要追蹤評價結(jié)果使用帶來的不同后果,以及分析此類后果是否來自于評價設(shè)計或過程上的不合理因素。(2)收集合適的效標變量(短期或中長期效標),并分析它們與評價結(jié)果的相關(guān)性。具有一定關(guān)聯(lián)的效標變量可以用于構(gòu)建成果導(dǎo)向的指標,而指標權(quán)重可以從相關(guān)強弱推算,也就是說與過程性評價結(jié)果的相關(guān)研究可以賦予成果性評價更高的外部有效性。(3)研究如何以評價效度為基礎(chǔ)銜接其他的效度概念,比如教學(xué)效度[21],從而促進教學(xué)評價與教學(xué)實踐的良性互動,把教學(xué)評價拓展到更廣闊的教育領(lǐng)域,甚至催生教育改革和創(chuàng)新。
借助現(xiàn)代測量效度的視角能有助于構(gòu)建更加健全和成熟的高等教學(xué)評價體系,同時能開辟結(jié)合教學(xué)論和測量學(xué)的教育研究的新范式。教學(xué)評價不但從內(nèi)部界定了教育質(zhì)量,還能衡量高等教育的人才培養(yǎng)標準,解讀教育質(zhì)量內(nèi)在的成因或機制,可用于學(xué)校內(nèi)部的監(jiān)管和診斷,追蹤縱向的成長,并能促進教育過程與活動不斷調(diào)適、改進和發(fā)展。完善的教學(xué)評價對學(xué)科和課程建設(shè)、教師教學(xué)以及學(xué)生學(xué)習(xí)都有著舉足輕重的影響,具有承上啟下的作用,上可以引導(dǎo)教學(xué)和課程改革,激發(fā)教學(xué)熱情,下可以促進學(xué)生學(xué)習(xí),從而形成“教學(xué)評價教學(xué)改革人才培養(yǎng)”的良性循環(huán)。希望在后續(xù)研究中進一步探索如何結(jié)合現(xiàn)代測量和教育理論,并能形成與之相關(guān)的、更為大規(guī)模和高水平的高等教育研究,從而為進一步提升我國高等教育的質(zhì)量做出貢獻。
參考文獻:
[1][6]AERA,APA,NCME.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association; 1999:8-9.
[2][7]AERA,APA,NCME.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association; 2014:9-11.
[3]Kelley T L.Interpretation of educational measurements[M].New York,NY:Macmillan; 1927:6-8.
[4]Cattell R B.Description and measurement of personality[M].New York,NY:World Book; 1946:3-4.
[5]Crocker L M,Algina J.Introduction to classical and modern test theory[M].New York,NY:Holt,Rinehart,and Winston; 1986:122-125.
[8][18]拉爾夫·泰勒.課程與教學(xué)的基本原理[M].北京:中國輕工業(yè)出版社,2014:113-117.
[9]劉志軍.教育評價的反思和建構(gòu)[J].教育研究,2004(2):59-64.
[10][13][16]林光彬,張?zhí)K,樊彬彬.大學(xué)生評價教學(xué)質(zhì)量的邏輯——來自調(diào)查研究的證據(jù)[J].教育研究,2012(10):93-98.
[11][14][17]林光彬,洪煜.學(xué)生評教的行政化與學(xué)術(shù)化論析[J].教育研究,2016(8):40-46.
[12]童亨茂,劉瑞珣.中國高等學(xué)校學(xué)生評教之痛——問題與對策[J].中國地質(zhì)教育,2014,23(4).
[15]楊曉峰.高校“民粹本位”教學(xué)質(zhì)量評價的困惑與出路[J].高教探索,2012(3):78-81.
[19]Anderson L W,Krathwohl D R.A taxonomy for learning,teaching,and assessing:A revision of Bloom's taxonomy of educational objectives[M].New York:Addison Wesley Longman; 2001:4-6.
[20]Marzano R J,Kendall J S.The new taxonomy of educational objectives.2nd ed.[M].Thousand Oaks,CA:Corwin Press; 2007:12-14.
[21]Pellegrino J W,Dibello L V,Goldman S R .A Framework for Conceptualizing and Evaluating the Validity of Instructionally Relevant Assessments[J].Educational Psychologist,2016,51(1):59-81.
(責(zé)任編輯陳志萍)