多元概化理論在中國大學英語閱讀課程評估設計中的運用

2022-12-08 09:21:38朱適

現代英語 2022年21期

朱適

(南京大學外語部，江蘇南京 210023)

一、引言

大學英語教師的教育質量直接影響非英語專業學生的大學英語四、六級成績，甚至包括出國深造學生的標準化考試成績(如托福、GRE、GMAT等)，因此如何科學評估大學外語教師的教學質量成為目前許多高校都極其關注的一個問題。Bachman(1990)將“評估”定義為對人們的特征進行定量的過程，其主要作用在于為人們進行正確決策提供信息[1]。

通過觀察教師課堂表現并給教師的課堂表現打分是教學質量評估中的重要環節。一系列的研究證明，標準化的課堂觀察打分有助于學生的發展以及提高教師和學生間的互動質量[2]，但評分標準的差異、評估者打分松弛度的不同、專家評委人數的不同等因素造成了不同的測量誤差源(sources of measurement error)。應用概化理論(generalizability theory)可以幫助確定測量評估中的誤差來源問題，確定評分者的人數，提高大學英語教學評估的信度。

二、概化理論的概念與相關文獻回顧

經典測試理論關注的核心是測量信度(reliability)與效度(validity)，概化理論與此相似。概化理論屬于隨機抽樣理論，運用統計學中的方差分量模型，通過確定不同的測量目標(object of measurement)和側面(facets)的做法，有針對性地考察多種信度和效度[3]。概化理論中的概化系數(generalizability coefficient)、相對測量誤差(relative error)、絕對誤差(absolute error)以及Phi系數是我們在概化理論設計中需要特別關注的重點。

概化研究分為兩步:第一步為概化研究，又叫G研究，在該研究中研究者根據已有數據獲得概括推論測驗結果時所獲得的概化全域(universe of generalization)；研究者在概化全域上對各測量面、測量對象或它們之間交互作用的研究被稱為D研究(decision study，決策研究)[4]。

Brennan(2001)指出運用概化理論首先要確定測量的目標(object of measurement)，這個目標的方差即真實變異部分，也是概化研究的重點，剩下的就是隨機變異部分，又稱作測量側面(facet)，相當于試驗設計中的干擾成分。概化理論中，研究者希望測量目標的變異越大越好，而測量目標以外的測量側面則被認為是系統的誤差來源。Brennan和他的同事開發了進行概化(univariate generalizability)分析的軟件GENOVA、urGENOVA和mGENOVA。雖然SPSS也可以幫助進行方差分析，但SPSS無法提供決策研究的結果，需要研究者自己去運算，而整個運算過程相當煩瑣。GENOVA和mGENOVA的出現極大提高了運算的效率和準確性。一元概化理論的概念基于方差分析(ANOVA)之上，而多元概化理論則是基于多元方差分析(MANOVA)[3]。

劉遠我和張厚粲(1998)是我國最早進行概化理論研究的學者，他們介紹了概化理論中的基本概念，應用了概化理論對作文評分的誤差控制問題進行應用探討，分析了評分員和試題效應，探討了評分者一致性系數和概化理論系數[5]。楊志明等(2004)通過多元概化理論研究廣東省高考綜合能力測試，通過多元概化理論的決策研究發現，當把高考綜合考試各個部分的題數擴大一倍時，總分的信度將會提高。不過，地理和政治所提供的方差貢獻程度遠遠低于相應的賦分比例，而化學和歷史的方差貢獻比例又遠遠高于相應的賦分比例，這意味著歷史和化學較好的考生得到了較高的綜合考試分數[6]。胡誼和顧春梅(2007)使用多元概化理論分析了上海市2006年的高考歷史考卷。他們的研究更多關注于各誤差來源的方差貢獻率而非試卷本身的信度。研究者發現，在高考歷史試卷結構方面，各部分試題具有較好的測量信度，但各部分分值比例存在一定問題；此外在主觀題評分方面，評分教師對分數影響微弱，說明最后的評分能比較可靠地反映不同學生之間的知識水平和學術能力差異[7]。

在外語研究和教學領域，運用概化理論研究外語教學的文章極少，最近的一項研究是孫海洋和韓寶成(2011)所做的將概化理論應用于一項針對職前中學英語教師的口語考試設計研究。他們對這項考試的試測數據進行了一元概化和多元概化分析，確定了成績誤差的來源，分析了不同考試設計模式的信度。本研究的結果對英語口語考試的設計有比較重要的意義，考試設計者可以根據一元概化理論和多元概化理論研究分析的結果選取相對恰當的考試任務，確定評分員的數量，提高主觀測試的信度，選擇比較滿意的考試設計模式[8]。汪順玉和席仲恩(2008)運用多元概化理論，演示了如何利用該理論計算舊版六級考試語言測試結果的信度系數并分析考試結構[9]。

盡管我國目前已經有了一定數量的概化理論研究成果，但是還沒有研究者將多元概化理論運用于大學英語課程的評估之中。

三、研究設計

(一)課堂評估標準的確立

美國弗吉尼亞大學教授Pianta，La Parro和Hamre(2008)設計了一種在美國被廣泛使用的課堂評估評分系統(CLASS)[2]。本研究在他們研究基礎之上設計一套適合中國大學外語教學的英語課堂教學質量評估表，使用標準化的觀測手段來測定中國大學英語教師課堂教學質量的標準。其包含兩個維度:情感交流和授課。情感交流包括五個項目(1為是，0為否)，描述的是a.英語閱讀課堂教學氣氛是否活躍；b.英語閱讀課上師生之間是否相互尊重；c.英語閱讀課上師生之間是否積極互動；d.英語閱讀教師對學生需要的是否敏感；e.英語閱讀教師能否從學生的視角去分析問題；授課包括五個項目(1為是，0為否)，即a.英語閱讀教師的授課能否提高學生的學習能力；b.英語閱讀課是否有助于語言水平(proficiency)的提高；c.英語閱讀課能否拓展學生的語言學習能力(aptitude)；d.英語閱讀課能否提高學生的學術英語思辨能力；e.英語閱讀課能否組織好學生參與課堂英語討論中來。每個維度(情感交流和授課)的總分為5分，0為最低分，5為最高分。

(二)研究樣本

在本研究中，我們選取了來自全國三所不同層次大學的共五位大學英語閱讀課程的教師。五位教師都在35歲以下，一位為男性，其余四位為女性。這五人全部取得了英語專業的碩士學位。在一個月內按照我們初步設定的評分標準對他們的課程進行兩次評估(兩周一次)。參加課程打分的共有兩位評估者，全部為受過培訓的、有多年教學和研究經驗的大學英語教師，均取得博士學位。

研究的基本假設之一就是教師的能力、水平和教學態度在短期內不會發生改變，其次我們假設這五位教師大學英語閱讀課程是從容量無限的全國大學英語教師閱讀課程總體中隨機抽取的一個課程樣本，能代表我國大學英語教師的基本狀況。同樣，評分者側面樣本也可以被看作是我們從全國受過相關培訓，具有博士學位的評分員總體中抽取的樣本，能夠在相當程度上代表根據兩次評估的結果。

由于一元概化理論模型無法得到各效應在不同時間段評估之間的協方差估計，因此我們選擇建立多元概化理論模型，模型中教師的課程將被作為測量目標對待，課程在模型中表示為(c)，評估者表示為(r)，他們的交互作用為(c x r)，兩次評估獲得的成績可以被理解為多元結果的兩個因子。因此我們的多元概化理論模型為c·x r·。其中c為測量目標(object of measurement)，r是測量的側面(facet)。我們利用mGENOVA軟件得出大學英語閱讀課程評估的總體信度和兩個維度各自的信度，同時估計各誤差來源的方差對總體方差的貢獻率。理論上評估者人數的增加，可以提高大學英語閱讀課程評估的信度，減少評分誤差，提高評分的準確度，但是定性分析和傳統測試學理論無法告訴我們具體的評估者數字，通過多元概化理論模型我們可以根據不斷變化的概化系數值和實際預算要求決定評分者人數。

四、結果與討論

通過mGENOVA的運算，我們可以分別得到5位教師在情感交流和授課兩維度上的兩次觀察所獲取的平均分。情感交流方面，第一次觀察的總均分為3.71667，第二次為4.06667；授課方面，第一次為4.31667，第二次為4.40。結果可以看出，大學英語教師在單純的傳授知識方面達到了基本的要求，但是在與學生的溝通和調節課堂氣氛方面在一定程度上仍然缺乏有效的手段和技巧。

根據mGENOVA軟件。我們得到課程(c)，評估者(r)以及課程與評估者(cr)之間相互效應在兩個因子上的方差和協方差分量的估計矩陣(表1和表2)。

表1 情感交流評分中各種變異來源方差與協方差矩陣

表2 授課評分中各種變異來源方差與協方差矩陣

(一)概化分析

由表1和表2我們發現共有三個變異來源得到了分析。從表1可以看出，測量目標(教師課程)的方差貢獻率是81.7%，說明不同教師在與學生的情感交流層面有較大差異。而評分者側面的方差貢獻率是7%，這意味著評分者因素給分數變異帶來的系統誤差很小，評分前后一致，比較穩定。測量目標與評分者側面的交互作用占總變異的11.3%。從表2看，最大的變異來源為評分者側面與測量目標的交互作用，占總變異的49.2%，說明評分者給部分教師的打分具有較大變化。我們還可以看到，測量目標的方差貢獻率最小，占22.5%，說明教師間的授課水平差異相對不大。造成以上問題的原因可能是授課維度的評分標準不好把握，造成評分者給部分授課教師的打分浮動較大。這啟示我們，概化理論還可以用于提示研究者如何改進完善測量工具。

(二)研究(決策研究)

由于測量目標在決策研究中是固定的，因此我們通過改變評分者側面來觀察概化系數(generalizability coefficient，又稱G系數)的變化。

表3 cxR設計的情感交流D研究

為了研究改善整個大學英語閱讀課程評估的信度，我們可以通過改變評分者側面的樣本容量來觀察信度的變化特點。在情感交流維度，當評分者為2時，概化系數為0.95245，Phi系數為0.83576，而當評分者為3和4時候，概化系數有小幅提高變為0.95568和0.96639，Phi系數為0.92676和0.94404；在授課維度，評分者側面人數的改變會極大影響整個評估的信度。從表4我們可以發現，當評分者為2時概化系數最低，為0.47909，Phi系數為0.36842，說明在授課維度評分者人數較少時，測量的可靠性極低，而將評分者人數升到3時，概化系數可以提高到0.57975，評分者人數為4時，概化系數和Phi系數分別躍升到0.64781和0.53846，相較于2人時，提高幅度約為35.2%和46%。0.64781是一個中等偏下的信度，不過在主觀性很強的評估打分中，此信度可以接收。

表4 cxR設計的授課D研究

當我們觀察兩個維度的全域相對誤差方差量和絕對誤差方差量時，可以發現在情感交流維度，評分者數目為4時，全域相對誤差方差量(0.01387)和絕對誤差方差量(0.02363)最低。同樣在授課維度，當評分者為4時，全域相對誤差方差量(0.00892)和絕對誤差方差量(0.01406)都相對較低。由上述數據可以看出，評分者人數的增加，可以提高大學英語閱讀課程評估的信度，減少評分誤差，提高評分的準確度。當然增加評分者人數以提高整體信度的前提是要在評分前對評分者進行嚴格的培訓使評分者本人對評分標準有非常透徹的了解，能夠準確把握評分尺度。此外，我們可以發現，評分者在情感維度的打分非常準確，信度極高，這里面可能有兩點原因:一是，情感維度的標準容易把握。情感交流關注的是課堂氣氛、師生互動以及教師對學生需要的敏感度等，這些指標相對容易衡量，往往可以通過上課時候學生表現是否積極以及課堂討論是否熱烈等來判斷，因此評分者在此維度上的打分比較穩定。二是，在授課維度。一些具體指標(教師的授課能否提高學生的學習能力，是否有助于語言水平的提高，能否拓展學生的學習能力，能否提高學生的學術思辨能力及能否組織好學生參與課堂教學中)很難通過兩個小時的課程完全反映出來。我們也許需要收集更多的數據，采訪更多的大學外語教師，通過因子分析的方法找出更加恰當適合的指標來評價授課維度。

五、結語

通過多元概化理論分析，我們可以發現評分者側面在主觀性極強的大學英語閱讀課程評估中的作用是極強的。因此減少評分者因素造成的誤差在評估中具有重要意義。研究可以發現，增加受過訓練的評分員的人數是提高整個評分信度的最佳方案。就多元概化設計而言，當評分員數目為4時，整個設計的信度特別是授課維度的信度得到了極大提高。現有大學英語閱讀教學評估經常使用純定性方法，簡單描述教師上課時候的表現并給予一定的評價。這種評估方式具有極大的主觀性。非標準化的評估原則以及經常模糊的評估用詞很難使廣大英語閱讀教師從評估中獲益。即使使用傳統測試學指導下的定量方法，評估中的誤差控制問題始終是棘手的難題。

本研究充分吸收了Cronbach和Brennan兩人關于概化理論和多元概化理論的精華，利用國內外已有的先進研究成果，探討如何將多元概化模型運用于我國大學英語閱讀課程的教學評估中，如何通過多元概化理論中的方差協方差分析和概化系數等幫助建立一套適合我國大學外語實際教學情況的評估標準，使評估標準科學化和標準化。本研究對大學英語閱讀課程評估的設計具有重要意義。課程評估要求的設計者可以根據多元概化理論的結果選取合適的評分員人數，選取合理的評分要求，建立最佳的評估模式，從而提高閱讀課程的質量，節約評估的費用并且有效提高英語閱讀課程評估的效率。