程 楠 ,鄧皓遠 ,殷建忠 ,吳 蒙 ,羅 媛 ,孟 瓊
(1)昆明醫科大學公共衛生學院,云南 昆明 650500;2)保山中醫藥高等專科學校,云南 保山 678000;3)南京醫科大學公共衛生學院,江蘇 南京 210000;4)貴州醫科大學公共衛生學院,貴州 貴陽 550025)
國家教育部每年都要發表《全國普通高校本科教育教學質量報告》[1],可見高等教育大眾化后,各高校教學質量已成為社會關注的熱點話題,而高校教師的教學質量高低能夠一定程度上折射學校的教學水平。學生是教師開展教學的主體,對教師的整體素質水平有直觀的了解,很多研究者認為開展學生評教可以增強教師關注學生的課程體驗,可以促進教學質量的提升,能為高校管理者提供決策依據[2]。有學者[3]認為學生評教是維持醫學教學專業發展的最重要、最低廉方式之一,其中醫學生個人興趣和特殊動機可能會導致普通高等教育與醫學教育學生評教差異[4]。在學生評教過程中,研究者常常關注評價工具質量如何、抽選多少個學生進行測量合適、不同測量時間和不同測量場景下研究結果是否有差異等問題。要探查回答以上問題,就需要運用現代測量理論中的概化理論來分析。概化理論包括了一元概化理論(univariate generalizability theory,UGT)和多元概化理論(multivariate generalizability theory,MGT)。多元概化理論是在單變量概化理論基礎上發展起來的,能處理多維度、多側面情況下的特質測評,是一種備受關注的現代教育測量理論[5]。相較于經典測量理論,MGT 的優勢在于用一次測量的數據資料,研究者可以在多個概化全域下,計算不同測量側面樣本容量下的誤差方差分量和信度系數。本研究通過對《醫藥類院校教師課堂教學水平學生評價量表》進行多元概化理論分析,旨在評價其測量學信度的同時對各維度條目數優化提出建議,并確定學生評教實踐中適宜的學生人數。
隨機抽取某醫科大學2018 年9月至2019 年1 月修流行病學的5 個班級(由5 位不同教師授課),對選中班級的全體學生共422 人發放問卷進行課堂教學水平評價調查,排除無效問卷1 份,最終納入問卷421 份。
采用多元隨機雙面嵌套不平衡測量設計(s?:t?)×i°,其對應的一元概化設計為(s:t)×(i:h),測量目標為教師的教學水平,有兩個測量側面,測量側面中i為量表的條目,s為評價者學生,h表示量表的領域。該設計不僅考慮評教學生s嵌套于被評教師t中,同時考慮評價量表不同條目分屬于不同領域即評價條目嵌套于維度h中,兩者交叉設計,即由ns位學生使用同一份劃分為nh個維度、每個維度含有ni個條目的量表來評價教師t。
在自主研制的《高校教師教學水平學生評價指標體系》量表[6]基礎上,經過教師和學生進行訪談→提出增補條目→德爾菲專家咨詢法篩選條目→課題組討論后,新增9 條目形成了《醫藥類院校教師課堂教學水平學生評價量表》,量表總共33 個條目,劃分為教學組織(5 個條目)、教學領域(7 個條目)、教學方法(8 個條目)、教學態度(7 個條目)、教學效果(6 個條目)等五個領域。評分采用Likert scale 五點評分(1=一點也不;2=有一點;3=有些;4=相當;5=非常)。
使用Epidata3.1 軟件建立數據庫,采用雙錄入并邏輯核查。運用mGENOVA 軟件,概化理論分為G 研究和D 研究,首先在G 研究中估計各種誤差來源的方差分量及其占比,然后在D 研究中利用G 研究結果通過調整各測量側面的樣本數以改變測量設計,重新構建各概括全域[7],分別計算出各領域相對誤差和絕對誤差的方差分量、各領域概化系數和可靠性指數、合成的相對誤差與絕對誤差方差分量、合成的概化系數和可靠性指數等指標,從而提出量表條目數分配優化建議和評價者最適宜人數的建議。
概化理論中的絕對誤差(Δ)是指被試觀測值與概化全域上的全域分數之差,而相對誤差(δ)是指所有隨機誤差引起的測量誤差。概率理論中有兩個反映信度的指標分別是概化系數和可靠性指數,概化系數(G)被定義為測量目標的有效方差占測量目標有效方差與相對誤差方差之和的比值;而可靠性指數(Φ)被定義為測量目標的有效方差占測量目標有效方差與絕對誤差方差之和的比值。即概化系數和可靠性指數的計算公式如下:

式中,σ2(P)表示測量目標的方差分量,σ2(Δ)表示絕對誤差的方差分量,σ2(δ)表示相對誤差的方差分量。
本研究設定當概化系數或可靠性指數在0.80及以上時研制的量表信度較好。
參與評教的421 名學生中有6 名學生性別信息缺失,其中男性153 人(占36.9%);女性262人(占62.3%)。年級構成方面:二年級學生有39 人,占9.3%;三年級學生有282 人,占67.0%,四年級學生有100 人,占23.8%。專業構成方面:醫學實驗技術班39 人,臨床醫學班90 人,全科醫學班119 人,臨床醫學班(全科方向)73 人,預防醫學班100 人。
對各個領域的變異來源分解后發現:學生嵌套于教師效應的方差分量最大,學生條目交互并嵌套于教師的效應其次,條目效應及條目教師交互效應的方差分量均較小。橫向比較反映教師(t)的各領域方差分量,最大的是教學方法,其次是教學效果,最小的是教學組織,見表1。

表1 各領域方差及協方差分量估計Tab.1 The estimated variance-covariance components for every domain
原始測量長度條件下的多元D 研究結果呈現于表2 中。各領域上,相對誤差方差和絕對誤差方差均小于0.05,概化系數均大于0.8,可靠性指數除教學組織與教學方法兩個領域大于0.8 但小于0.7 外,其余領域均大于0.8。總量表上看,合成相對誤差方差和合成絕對誤差方差小于0.005,合成概化系數為0.915 2 和合成可靠性指數為0.898 1。

表2 基于原始測量長度條件下多元D 研究結果Tab.2 D-study results for design based on original test length
進一步分析表明:在教學內容、教學態度和教學效果領域中,領域全域分數對合成全域分數的方差貢獻率接近各領域條目數比例;而在教學組織領域與教學方法領域中,領域全域分數對合成全域分數的方差貢獻率與領域條目數比例間相差較大,見表3。

表3 各個領域的領域條目數比例與方差貢獻率間比較Tab.3 Comparison between the CRCUS and the PDS in every domain
鑒于教學組織和教學方法領域可靠性指數小于0.8,基于原始量表各個領域的條目分配情況(模型1),在這教學組織和教學方法領域上分別增加1 個條目,而在其余領域分別減少1 個條目形成了模型2;在這教學組織和教學方法領域上分別增加2 個條目,而在其余領域分別減少3 個條目形成了模型3。結果顯示無論增添還是刪減條目數,對合成概化系數和合成可靠性指數均影響較小。即使將教學組織和教學方法領域的條目數增加為7 條和10 條時,領域可靠性指數也仍然小于0.80。即使教學內容、教學態度和教學效果三個領域條目減少為原來一半,各領域概化系數和可靠性指數也仍大于0.80,見表4。

表4 不同測量長度下各領域及共性量表的兩信度系數間比較Tab.4 Comparison of two reliability coefficients of every domains and universe under different test length
為探討保證一定測量信度前提下需要的最少學生人數實施了一系列D 研究。通過保持原始量表測量條目數不變,而調整學生人數來形成不同模型再計算各模型的概化系數和可靠性指數。其中模型A 保持了原始測量學生數(各班人數依次為90、119、73、39、99),模型B、模型C 及模型D 依次是調整各班人數為原始人數的2/3、1/2及1/3(無法整除時四舍五入);模型E 至模型F中各班人數一致,即班級數為5,每班抽樣人數相等,從模型E 到F 各班學生數依次為90、60、30、28、27、25、20。結果發現若按模型H(五班各取樣28 人)來抽取學生,合成概化系數和合成可靠性指數仍然在0.8 以上;若按模型I(五班各取樣27 人),合成概化系數等于0.8 但合成可靠性指數低于0.8。若按模型K(五班各取樣20 人),合成概化系數和可靠性指數均是小于0.8 但大于0.7,見表5。

表5 不同樣本下各領域及共性量表的兩信度系數間比較Tab.5 Comparison of the two reliability coefficients of every domains and universe under different samples size
G 研究發現變異來源中條目及教師條目交互效應的占比均較小,提示量表條目變異小,測量工具質量好。而學生嵌套于教師效應的占比最大,提示在學生評教中影響教師水平的有很多是來自學生方面的因素,如有研究顯示男女兩類學生對于不同性別教師評價具有差異[8],亦有研究認為學生對教師的教學評價更多在于學生期望值與實際教學距離[9-10]。在五個領域中,教學方法和教學效果兩領域方差分量具有更大變異性,提示在學生評教中教師的教學方法和教學效果對最終評價影響較大。
概化系數及可靠性指數均可作為該量表評價信度指標,其中概化系數側重指示常模參照測驗,可靠性指數側重指示標準參照測驗。通常對同一個領域,概化系數高于可靠性指數。教學水平評價的應用可能有兩個目的,一是應用評價結果對教師水平排序以便開展績效考核,此時屬于常模參照測驗;二是建立一個水平線以評判教師教學水平是否達到某個標準,此時屬于標準參照測驗。通常研究者決策風險越高,對信度系數的要求越高[11]。關于信度系數多大時表示信度較好,多數研究者[12-13]認為:概化系數或可靠性指數在0.80 及以上時表示測量工具信度較好。學生評教的結果有可能用于對教師水平進行排序,也有可能是需要建立一個應達到的水平線。結合本研究中原始測量長度下D 研究的結果(合成概化系數及合成可靠性指數均高于0.80),量表已達常模參照測驗及標準參照測驗要求,測量信度好,可推廣于實踐應用。而各領域的概化系數均大于0.80,僅有教學組織和教學方法可靠性指數低于0.80 但大于0.70,提示這兩個領域可作為下一步量表優化重點領域。
本研究嘗試通過增加教學組織和教學方法領域的條目數來提高這兩個領域的可靠性指數,但發現條目增加對可靠性指數影響甚微,因此建議若需修訂量表,可考慮在教學方法和教學組織內容上修訂或合理劃分新領域。另一方面,實際學生評教中,同樣信度下條目精簡的量表更佳,本研究以保證信度系數達到0.80 標準為前提,對教學內容、教學態度和教學效果等三個領域的條目數進行減少方向的調整,結果發現以上三個領域條目數減少為原來一半后信度依舊較好。因此下一步修訂時,可考慮將教學內容、教學態度和教學效果等三個領域的條目數調整為4、4、3。
有研究[14]表明不同人數學生評教樣本數對評教結果具有顯著影響,本研究也同樣發現在現有量表各領域條目分配方案下,學生容量越大信度系數越高,但是實際測評中,筆者期望能夠確定信度較好前提下的最少學生人數。如前所述,本研究以信度系數在0.80 以上為信度好的標準,若目的是按某一水平線來評價教師教學水平是否達標,則每班最低需抽取25 人;若目的是依據學生評教結果對教師教學水平進行排序,則每班需最低需抽取28 人。