陳玉蓮
(廣東外語外貿大學南國商學院 英語語言文化系, 廣東 廣州 510545)
英語專業綜合英語期末考試的效度研究
陳玉蓮
(廣東外語外貿大學南國商學院 英語語言文化系, 廣東 廣州 510545)
文章在回顧了語言測試效度理論和研究的基礎上,運用定性和定量分析的方法檢驗了某校英語專業綜合英語期末考試的效度。研究結果表明,該綜合英語期末考試的試卷有較好的表面效度,但是內容效度不夠,考試的分數也存在構念表現不足的現象。文章認為,要提高綜合英語期末考試的效度,施教者和試卷設計者應該熟悉英語專業綜合英語教學大綱和測試大綱,了解測試理論,擺脫專業四級水平測試的束縛,結合教學實際不斷創新。
綜合英語期末考試;表面效度;內容效度;構念效度
語言測試經歷了一個漫長的發展過程。從不同的角度來看,語言測試可以被分為不同類型。從測試的目的出發,一般把語言測試分為四類:水平測試、成績測試、診斷測試及潛能測試[1]。筆者在對2003年至2012年間發表在國內一些著名核心期刊上有關英語測試研究的論文進行統計分析時發現,英語測試研究的對象開始出現了多樣化。研究者不再只是關注類似于CET4、CET6、TEM4、TEM8這樣的全國統一的水平測試,而開始關注考生們在日常學習過程中頻繁接觸的階段性測試和期末測試。水平測試與成績測試的區別在于:水平測試考查考生對語言的掌握,而成績測試往往是為了檢測考生在一門特定的課程或大綱指導下的學習結果[2]。這一類的成績測試針對性強,個別性突出,是學生完成四年本科教育的一個非常重要的教學環節,對教學起著不可低估的反撥作用[3]。因此,有必要加強對教學過程中各課程測試的研究。
新的《高等學校英語專業教學大綱》把英語專業課程分為了英語專業技能、英語專業知識和相關專業知識三大類型[4]。綜合英語則是一門專業技能課,是英語專業本科一、二年級初級階段的專業必修課,是培養和提高英語基本技能的重要課程。該課程的目的是傳授系統的語音、語法、詞匯、篇章結構、閱讀技巧等基礎語言知識,訓練聽、說、讀、寫、譯等基本的語言技能,培養學生初步運用英語進行交際的能力,同時指導學習方法,培養邏輯思維的能力,為進入高年級的學習打下堅實的基礎。由此可見,綜合英語課程承擔著培養和提高學生綜合運用英語能力的重任,對知識儲備的全面性、教授方式的多樣性,以及內容銜接的靈活性都有很高的要求。如何針對新大綱的要求,進行英語教學,并如何有效地對學生的學習效果進行檢驗,是一個值得探討的問題,這也正是本文的研究目的所在。
效度是評價一項測試質量的重要標準。沒有效度的測試不能稱其為測試,效度的重要性可見一斑[5]。針對效度的定義和分類,不同時期不同學者提出了不同的看法。美國心理學會認為效度是據考試成績所做出的推論的恰當性、意義性和有用性,并提出了效度的四種類型:預測效度、共時效度、內容效度和構念效度。Lado認為效度本質上是一種關聯,表明測試與測試目標的關聯程度[6]。Heaton指出,測試效度可分為表面效度、內容效度、構念效度和實證效度[7]。Messick則提出了整體效度概念,且認為構念效度是整體效度概念的核心,其他效度都是用來支持其作為整體效度的證據[8]。之后,為了解決效度驗證的具體實施問題,Bachman & Palmer提出了語言測試有用性框架,即測試的有用性=信度+構念效度+真實性+交互性+影響力+可行性[9]。該框架使語言測試界充分意識到了構念、構念效度及測試后果的重要性[5]。
鑒于成績測試的性質,成績測試的表面效度、內容效度和構念效度顯得至關重要。表面效度指試卷到了使用者手上,其表面和內容,是否使受試者覺得它是一次有效的考試,一次的確是考它應考的能力的考試。Heaton認為,如果測試對其他老師、測試的被試以及成績核對人而言,看起來是適合的,那么它就至少具有了表面效度[7]。表面效度可以迅速提供學生和老師對考試的意見和看法。缺乏表面效度的測試,是不被接受的,甚至會引起受試的反感,不在測試中表現出自己真實的水平。但是僅僅依靠表面效度是不能解釋測試的效度的。內容效度能幫助評判測試是否充分有效得測試了應該檢測的技能和行為[10]。換言之,內容效度是指測試是否考了考試大綱規定要考的。另外,構念效度則能反映出考試分數在多大程度上能代表我們想要測量的能力或構念。
綜上所述,鑒于綜合英語課程在英語專業課程中的重要性,有必要對該課程期末考試試卷進行效度分析,以期能給予任課教師和試卷設計者正面的反撥作用,發現存在的問題,進行更正,并努力設計出有高效度的試題。
(一)試題選擇和數據收集
綜合英語課程一共持續四個學期,每個學期期末都會有一次測試來檢驗考生是否掌握了他們在課堂上的所學,并測試考生在該課程學習過程中發展起來的語言知識和語言技能。本研究選擇了2013至2014學年上學期的綜合英語三期末試卷作為分析的對象。試卷一共有六項內容:語法詞匯、完形填空、閱讀理解、翻譯、句子釋義和作文。考試時間為120分鐘。相關授課教師認為測試沒有涉及聽力與口語部分,主要是因為該學期學生有專門的聽力課與口語課,以及測試時間的關系。英語專業翻譯與傳媒方向192名學生參加了此次測試。作者用Excel表格登記了他們的名字、班級、學號、授課教師姓名以及每個考生在試題每一部分的得分作為原始數據便于全面分析。同時,研究分析過程中主要使用了Excel 和SPSS 17.0統計軟件。
(二)綜合英語期末考試的表面效度
綜合英語期末考試旨在測試考生對語法、詞匯、篇章結構、閱讀技巧等基礎語言知識的掌握,以及在課程學習過程中獲得的聽、說、讀、寫、譯等基本的語言技能。在試卷的六類題型中,翻譯、句子釋義以及語法詞匯題三部分基本上是直接測試課堂上講授過的內容,其他部分則是測試在該課程學習過程中發展起來的語言技能。可見,該測試具有較高的表面效度,正如Hughes所言“一項測試如果看上去測試了它想測試的內容,那么就具有表面效度”[11]。
(三)綜合英語期末考試的內容效度
劉潤清認為,一般可從三個方面來檢驗某次測試的內容效度:1)測試內容是否和測試目標相關; 2)測試內容及試題是否具有代表性; 3)測試內容是否符合代表對象[1]。
對綜合英語期末考試而言,其內容相關性是不難界定的。綜合英語課程的開發依據是教學大綱原則或標準,考試也是從課程本身選擇測試內容或界定測試標準。所選取的試卷中客觀選擇題和主觀產出題的分數比例為60%和40%(見表1)。在這六道題目中,翻譯、句子釋義以及語法詞匯題是直接從學過的課本單元中提取出來的。試卷中測試內容和課堂所教內容直接關聯與非直接關聯的比例為49%和51%(見表2)。因此,測試內容與測試目標是足夠相關的。

表1 試卷主客觀題的分數比例

表2 測試內容與教學內容的關聯比例
然而一項測試如果其內容覆蓋面不充分、不典型的話,有再高的內容相關性也無多大意義。測試內容的代表性如何直接影響測試效度的高低。評估考試題目取樣的代表性,要看試題的樣本是否充分全面體現了要考查的全部內容。從形式上看,此次綜合英語期末考試的試題涵蓋了讀、寫、譯,試題的類型包括客觀選擇和主觀產出題。試卷的題型設置和英語專業四級考試的題型設置相差不大,同樣包括了30道語法詞匯題、一篇20道選題的完形填空,四篇共含20道選擇題的閱讀理解文章和一給定話題的議論文寫作。從內容上看,這些題目中,只有語法詞匯題包含了一部分與已經教過的單元內容完全相關的基本的語法詞匯知識,其他三大道題目與教學內容和要求沒有任何的相關性。完形填空的文章在題材上,絲毫沒有涉及教材內的教學內容;閱讀理解的四篇文章在體裁和題材上也比較隨機。作文題目的話題雖然和校園生活相關,但是也不是依據該學期的教學要求或相關的內容題材和文章體裁。另外兩大題翻譯和句子釋義的考查內容雖然直接源于課堂教學,但是也導致了學生在考試前去進行死記硬背,甚至在很多老師眼里,這兩類題型是典型的送分題。換言之,研究涉及的綜合英語期末測試只是把語法、詞匯、閱讀、寫作等各種題型集中了起來,并沒有真正檢測到學生的語言運用綜合能力,不能對學生的語言運用水平做出客觀的評價。因此,從試題的代表性以及內容與測試對象是否相符合兩方面來講,其內容效度是不夠的。
(四)綜合英語期末考試的構念效度
構念效度能反映出考試分數在多大程度上能代表我們想要測量的能力或構念。Messick曾指出分數的解釋和相應的構念效度有兩種情況:1)構念表現不足,即構念中的某些重要特征被遺漏,測試分數不能通過該構念得到充分恰當地解釋;2)構念不相關,測試分數可能因為這些與測試目的不相關的構念而被曲解,從而影響效度[12]。那么究竟綜合英語期末考試的構念效度如何呢?考試的各題目之間是否相關?考試的構念中包含了幾個因素?下文將針對這些問題進行統計分析。
1.總分正態分布檢驗
為了有效地對期末考試問卷進行統計分析,筆者首先對192名考生的成績分數進行了正態分布檢驗。圖1 為考生在綜合英語期末考試中的總分的正態分布檢驗直方圖。表3 為總分的單個樣本K-S檢驗結果。從圖1中可以看出根據直方圖繪出的曲線很像正態分布曲線。表3的K-S檢驗中,Z值為0.493,P值 (sig 2-tailed)=0.964>0.05。因此數據呈近似正態分布。

均值=71.20標準偏差=7.863N=192圖1 綜合英語期末考試的總分成績分布直方圖

表3 綜合英語測試總分的單樣本K-S檢驗
2.各題目之間及與總分之間的相關性分析
題目之間的相關性分析對檢測試題的效度非常重要。運用SPSS17.0對綜合英語期末考試各題目之間以及各題目與總分之間進行相關性分析,其結果如表4所示。

表4 各題目之間及與總分之間的相關性分析
注:**在0.01水平上顯著相關,*在0.05水平上顯著相關。
從表4可以看出,試題的各題目之間體現了一定的相關性。其中第二大題完形填空與其他各大題之間呈顯著相關,與第一大題詞匯語法的相關系數最高,達到了0.359。第四大題翻譯與其他各題目之間也呈顯著相關,與第五大題句子釋義的相關系數最高,達到了0.380。第一大題語法詞匯、第三大題閱讀理解、第五大題句子釋義分別和第六大題寫作的相關性相對較弱,尤其是句子釋義與作文之間的相關系數僅為0.044。這表明作文考查的語言能力與語法詞匯、閱讀理解和句子釋義考查的語言能力是大不相同的。所有大題與總分之間均呈現出了非常明顯的相關,其中詞匯語法與總分的相關系數最大,相關性最為明顯,達到了0.800。Alderson 等曾表示因為總分是對語言能力的綜合測量,根據經典測量理論,子項目和總分的相關值可被預期達到0.7或者更高[13]。這表明在這六大道題目中,語法詞匯對總分的解釋能力是最強的,而其他題目與總分間的相關系數均未達到0.7,解釋能力最弱的則是作文部分,其與總分的相關系數為0.305。這樣的結果可能是因為語法詞匯部分在試卷中所占的比例最大(30%),而且大部分的詞匯語法題都是源自課本和練習冊,考生在這類題型上表現的能力就較強些。作文所占的比例雖然不是最小,但是由于作文考查到了語言知識的詞、句、段落、篇章各個層面的知識,而且話題源自課外,所以考生在這部分上的表現也相對差些。
綜上,從題目之間的相關性和題目與總分的相關性來看,綜合英語期末考試試卷的內部結構一致性較理想,但仍然有待提高。
3.綜合英語期末考試的因子分析
從統計學的角度看因子分析的目的是尋求變量基本結構、對變量進行分類、簡化觀測數據、用少數的變量解釋研究復雜的問題。因子分析的基本原理是用少數幾個抽象的因子,去描述多個指標或者因素(原變量)之間的聯系,將相互之間關系比較密切的變量歸為同一個類別之中,每一類變量就變成了一個因子。進行因子分析的前提是原變量內部一致性高、原有變量存在較強的相關關系。在對綜合英語期末考試進行了相關性分析后,已經發現了各大題間存在較強的相關關系,再對其進行因子分析,能幫助進一步弄清楚各題之間的聯系,了解試題究竟檢測了考生哪些方面的語言技能。
從表5能看出,KMO檢驗的系數為0.719>0.6,Bartlett球形檢驗的卡方值為133.444,P=0.000<0.001,滿足因子分析的前提條件。

表5 KMO和Bartlett球形檢驗
從表6可以看出,所有6個原始變量中,作文的共同度最高,為0.881,提取的因子解釋了原有變量方差的大部分,超過80%,信息缺失少。其它5個原有變量中,語法詞匯和翻譯的共同度超過了0.5,提取的因子解釋了原有變量方差的一半,信息缺失較多。完形填空、閱讀理解和句子釋義的共同度則低于0.5,提取的因子解釋了原有變量方差的小部分,低于50%,信息缺失量很大。

表6 公因子方差
表7顯示,6個因子中特征值大于1的因子有兩個,特征值為2.193和1.029。這兩個因子能解釋的方差百分比是36.557%和17.142%,一共能解釋6個變量中53.699%的方差。

表7 解釋的總方差
從表8可以看出,主成分分析法提取了兩個主要因子,其中因子1在語法詞匯、完形填空、翻譯和句子釋義四個部分的負荷都高于0.6,可以把它看作是語法詞匯知識以及其在句子和語篇中的運用能力。因子2在作文部分的負荷較大,為0.888,因此可以把因子2確定為寫作能力。這表明目前的綜合英語期末考試的構念主要包括兩個因子:語法詞匯知識以及其在句子與語篇中的運用能力和寫作能力。這與英語專業教學大綱以及英語專業四級考試大綱中的要求一致。但是大綱中要求的閱讀能力并沒有得到充分體現,且總分中有約46%的方差沒有被提取的公因子所解釋,考試的分數中存在構念表現不足的現象。

表8 被提取的因子成分矩陣
綜合英語期末測試是英語專業學生學習過程中必不可少的一部分。從上述分析來看,綜合英語期末考試的表面效度較高,內容效度和構念效度則都呈現出不足,有待改善。在與筆者訪談的過程中,任課教師和被試對綜合英語期末考試提出了自己的看法。譬如,一些被試的學生認為,翻譯與句子釋義題沒有什么技術含量;考查語法詞匯基礎知識的方式很單調等等。那么如何才能提高綜合英語成績測試的效度呢?筆者以為以下幾點尤其重要。第一,試題設計者應該非常熟悉英語專業綜合英語教學大綱和測試大綱,切實弄清楚測試的目標究竟是測試分割開的獨立的語言技能還是在培養學生的綜合能力;第二,施教者和設計者對測試的理論要非常了解,能夠選擇正確的測試方式和題型去實現對目標的測試;第三,英語專業基礎階段的學習要擺脫專業四級水平測試的束縛,要培養學生外語技能也要鼓勵學生學習多領域內的專業知識;第四,綜合英語期末考試的內容和形式上不能老是遵循過去的老模式,或者直接從已有的題庫中抽取現題,一定要結合教學實際不斷創新。
[1] 劉潤清,韓寶成.外語測試和它的方法[M].北京:外語教學與研究出版社,2000.
[2] Henning G.A Guide to Language Testing Development Evaluation and Research[M].Beijing:Foreign Language Teaching and Research Press,2001.
[3] 錢冬梅.淺談綜合英語成績測試中的效度及存在問題[J].國外外語教學,2004,(3):8-12.
[4] 高等學校外語專業教學指導委員會英語組.高等學校英語專業英語教學大綱[M].北京:外語教學與研究出版社,2000;上海:上海外語教育出版社,2000.
[5] 韓寶成,羅凱洲.語言測試效度及其驗證模式的嬗變[J].外語教學與研究(外國語文雙月刊),2013,(5):411-425.
[6] Lado,R.Language Testing[M].London:Longman,1961.
[7] Heaton,J.Writing English Language Test [M].London:Longman,1975.
[8] Messick,S.The Once and future issue of validity:Assessing the meaning and consequence of measurement [C]//In H.Wainer & H.Braun (eds.).Test Validity .Hillsdale,N.J.:Lawrence Erlbaum,1988:33-45.
[9] Bachman,L.& S.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
[10] Richards.Longman Dictionary of Language Teaching and Applied Linguistics[M].Beijing:Foreign Language Teaching and Research Press,2002.
[11] Hughes,A.Testing for Language Teachers[M].Cambridge:Cambridge University Press,1989.
[12] Messick,S.Validity[C]//In R.Linn(ed.).Educational Measurement(3rd edition).Washington,D.C.:American Council on Education,1989:13-103.
[13] Alderson,J.C.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
[責任編輯:寸曉非]
2014-04-11
廣東外語外貿大學南國商學院教改項目:對南國商學院英語專業綜合英語期末考試效度的調查與反思
陳玉蓮 (1982-),女,重慶人,廣東外語外貿大學南國商學院英語語言文化系講師,碩士。
G642.474
A
1008-4657(2014)03-0083-05