鄭靜靜
(鄭州成功財經學院,河南 鞏義 451200)
TEM8人文知識測試構念效度研究
鄭靜靜
(鄭州成功財經學院,河南 鞏義 451200)
本文在測試使用論證理論的指導下,在新的統一效度的框架下,對英語專業八級新增人文知識題目從難度、區分度、信度、公正性和考點分布等方面進行構念效度分析.
人文知識;構念效度;AUA框架
從2005年起的英語專業八級考試(簡稱TEM8)在測試內容方面新增加了人文知識項目. TEM8作為以全面檢查已完成英語專業高年級階段課程的學生的語言能力、語言知識和專業知識為目標的大規模高風險型考試,其改革必將對學生、學校和社會都要產生很大影響.因此,對其考試效度的檢驗顯得至關重要.
測試使用論證理論框架(簡稱AUA)(Bachman,2005)是從哲學方法論的角度入手,對測試有用性模型(Bachman,1996)的發展和補充.該框架既涵蓋了原框架的主要內容(信度、構念效度、真實性、互動性、影響和可行性),也使這些要素在新框架內形成相互關聯的有機整體.它對提升語言測試的設、開發和使用都具有非常重要的指導意義.本文正是在測試使用論證理論的指導下,對英語專業八級人文知識測試部分的構念效度進行研究分析.
效度檢驗是確保對考試分數的合理使用和基于考試分數的推斷有意義的重要手段.根據Bachman(1996),考試效度驗證主要集中在構念效度、信度、互動性、真實性、影響和可行性方面.在這種傳統的效度概念中,效度被分為相互獨立的部分,而構念效度只是其中之一.這種分類存在一定欠缺,缺乏對分數使用的社會后效以及分數的社會決策意義的考察(Messick,1995).本研究采用的是新的統一的構念效度,它是一種綜合效度概念,彌補了傳統的效度概念的不足,擴充了其內涵和外延,既對分數的意義進行解釋,也研究測試使用的社會價值.
公正是效度的重要方面.因此,測試開發者有責任對考試分數偏差進行分析.本研究采用項目差異功能(簡稱DIF)來測量考試分數偏差.TEM8是全國性考試,考生來自于不同背景,而這些背景可能會影響其分數.因此,對新增加試題的項目差異功能的分析對于保證考試公平性具有重要意義.
3.1 研究目的
本研究探索所研究TEM8人文知識試題的構念維度并探究其分數的意義;評估TEM8人文知識部分數據的構念是否在不同的考生群體中保持一致;檢查人文知識部分試題對于不同類別的考生的公正性;分析2011至2013年的人文知識試題的考點,檢驗其內容效度.
3.2 研究樣本
本次研究以參加2013年3月舉行的英語專業八級考試的河南省內部分高校的部分考生為樣本,這些考生分別來自于不同類型的高校,分為綜合性、理工類、師范類、外語類和其他.
3.3 研究數據
本研究的數據包括兩個方面,一是2011至2013年的英語專業八級人文知識測試真題;二是由考試中心提供的2013年考生專八成績的原始數據.對前者進行內容考點分布即內容效度的研究.對后者采用數據分析方法,提供效度依據.
3.4 分析過程
本研究中,構念一致是指測驗的分數在所有考生群體中具有相同的意義.數據分析分為以下步驟:(1)探索該分測驗試題的難度系數及其相關系數;(2)對該分測試的分數的一致性及信度進行比較分析;(3)對不同考生在此測試題上的的項目功能差異進行分析,探究考試的公正性;(4)對2011-2013年的人文知識題目的測試內容進行考點分析.
4.1 難度系數及不同學校類型考生間難度相關系數
本研究用分測試10個題目在不同類型學校的項目難度系數來代表的是來自某類院校的考生答正確某試題的比例,與試題的難易程度成反比.根據數據統計結果,該分測試的10個題目之間難度系數存在一定差異,在所有參照考生中,難度系數在0.429到0.901之間,平均難度為0.654,難度的標準差為0.110.這說明,試題整體上不難,試題間難易程度相差較大.
由不同院校類型間的難度系數的相關系數數據分析得知,其值都在0.9以上,說明試題難度在不同類型院校間相關度較高,即同一道試題對于不同學校的考生的難易程度相同.
4.2 信度比較
題目的信度在測量學意義上是指分數的一致性.本研究的信度指的是人文知識不同題目間的內部一致性系數,表示的是題目同質性的程度,用α系數表示.

表1 難度系數的相關

表2 人文知識題目內部一致性系數
從上表可以看出,整體考生的α系數僅0.5125,偏低,說明人文知識測試不同題目間的的內部一致性偏低,α系數的范圍介于0.5432和0.4675之間,說明不同院校類型間此方面差異不大,從而說明證明該分測量的在不同類型院校較穩定. 4.3項目差異功能分析
為了確保考試的公正性,本研究對不同背景不同專業類型的考生進行項目功能差異分析.STD P-DIF取值范圍為{-1,1},其中在{-0.05,+0.05}范圍內的值被看做有細微差異,取值范圍在{-0.10,-0.05}和{0.05,0.1}兩個范圍內就要引起注意,而如果所得值在{-0.1,+0.1}以上,被視為異常,該項目功能就需要仔細審查.其中而負值表示題目對目標組不利,正值表示題目對參照組不利.
分析結果如下:
按照專業類型,有四道試題的STD p-dif統計量為負數,表明這些題目對目標組(外語院校考生)不利,而其他試題的STD p-dif統計量為正數,對參照組(非外語院校考生)不利,但沒有在(-0.1,+0. 1)以上的值,不利程度不大.按照專業類型分析,從上表可以看出,大部分題目的DIF值為正數,說明大部分題目對目標組(外語專業本科)有利,也沒有在(-0.1,+0.1)以上的值,說明這種有利性不顯著.這說明不同學校類型、不同專業類型的考生在該分測試上也沒有明顯的項目功能差異存在,該分項測試具有對于不同背景的考生是公正的.

表3 人文知識分測量STD p-dif統計量
4.4 考點分布
本研究分析了近三年英語專業八級的考點分布,其結果如下表:
以2011、2012、2013年TEM8真題為例,2011年10道選擇題中人文地理知識共占3道,文學知識占4道,語言學知識占3道;2012年10道選擇題中人文地理知識占4道,文學知識占2道,語言學知識占4道;2013年10道選擇題中人文地理知識占4道,文學知識占3道,語言學知識占3道.通過此部分近三年的TEM真題可以看出,人文知識、文學知識以及語言學知識這三部分的分值比重并不固定,在內容方面,人文地理主要考查美國、英國、澳大利亞、加拿大、新西蘭等國家概況,文學方面主要考查小說和詩歌,尤其偏重英美作家作品,語言學方面題目近三年涉及較多的是社會語言學和詞匯學,也考察了語音學、形態學,甚至近些年比較熱門的認知語言學也在考察范圍之內.這些考題的設計,內容廣泛,層次多樣,滿足了《考綱》對此部分考查目的的要求.通過這一部分的測試,能夠有效檢測出考生的人文知識掌握能力.

表4 2011年至2013年八級考試人文知識試題題目的考點分布
研究發現,TEM8人文知識測試的大部分題目難度不高,題目區分度不顯著,內部一致性偏低;對不同群體測試的構念一致;在項目功能差異方面該測試對不同院校不同專業的考生差異表現不明顯,說明考試具有較高的公平、公正性;在構念維度方面,人文知識考試包括三個維度,即英語國家概況、語言學和英美文學,這與《考試大綱》要求相符;內容方面,英語國家概況比較偏重地理的考察,文學方面對于英美作家作品的考察較多,語言學方面偏重對于社會語言學和語音學方面的考察.
本研究是在Bachman測試使用論證的指導下對英語專業八級人文知識試題的構念效度進行分析,研究結果對于考試的設計和改革具有一定的參考價值,對于語言測試的效度驗證也有一些參考意義.但由于受客觀條件的限制,本研究在操作方面存在一些局限,比如抽樣只局限在河南省的部分高校,試題范圍只是近三年的專八試題,研究結果具有一定的實際意義但代表性不夠等,需要更多研究者加以完善.
〔1〕Bachman,L.F.,&Palmer,A.(1996).Language testing in practice.Oxford:Oxford U-niversity Press.
〔2〕Bachman,L.F.(2005).Building and supporting a case for test use.Language Assessment Quarterly,2(1),1-34.
〔3〕Messick,S.(1996).Validity and Washback in Language Testing.Princeton:ETS.
〔4〕高等英語專業八級考試大綱修訂小組.高等英語專業八級考試大綱(2004年新版)[Z].上海:上海外語教育出版社,2004.
〔5〕鄒申.TEM考試效度研究[M].上海:上海外語教育出版社,1997.
H319
A
1673-260X(2014)07-0256-03
河南省社科聯、河南省經團聯2013年度調研課題(SKL-2013-1525)