999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內容證據的PETS-4口試效度研究

2015-12-14 05:03:45高懷勇劉鋒戢煥奇
山東外語教學 2015年3期

高懷勇,劉鋒,戢煥奇

(四川農業大學文法學院,四川雅安 625014)

基于內容證據的PETS-4口試效度研究

高懷勇,劉鋒,戢煥奇

(四川農業大學文法學院,四川雅安 625014)

本研究依據語言測試效度理論,通過檢查表、問卷調查和訪談方法收集“內容相關與內容覆蓋”、“測試任務特征”和“測試實施環境特征”等口試的“內容證據”,檢驗了2013年9月PETS-4口試的效度。研究結果表明:1)PETS-4口試任務內容相關和內容覆蓋恰當,符合預設的考查內容與目標;2)PETS-4口試任務特征和實施環境特征有利于擬測構念的表現,具體表現為:(1)口試任務充分體現了測試設計者預設的“交際模式”、“交際功能”、“口試渠道”和“真實性”等口試特征,考官語言輸出用語嚴格一致;(2)測試場景、施測程序符合測試整體要求。上述證據綜合表明2013年9月的PETS-4口試在內容證據方面具有較高的效度。[關鍵詞]全國公共英語等級考試;口試;效度;內容證據

1.0 引言

作為行為測試(performance testing)之一的英語口語測試歷來為研究者所關注,如:口試研究綜述(楊莉芳,2006;王保云,2006;鄒瓊,2007;呂長宏等,2008),CET口試效度研究(金艷、郭杰克,2002),TEM口試效度研究(王海貞,2007;黃永紅,2006)。PETS(全國公共英語等級考試)是教育部考試中心設計并組織實施的全國性標準化英語考試,在我國有很強的影響力,其口試研究亦受到學界廣泛關注。縱觀目前國內PETS口試研究,雖然在口試特點與交際特征(李潔平,2004;龐繼賢、潘文紅,2007;肖德法、向平,2004)、口試體系設計及其特色(劉慶思,2008;金啟軍等,2002)、口試與口語教學之關系(向平、肖德法,2003)、口試評分信度(向平,2003)等方面有廣度和深度的發展,但就PETS口試效度研究而言,相關研究缺乏。雖然高懷勇等(2011,2014)探討過PETS口試效度,但其研究僅限于評分過程、試題內部結構分析和測試后效研究。作為大規模、高風險測試之一的PETS口試,對其效度的考查不可依賴單一證據,有必要從不同角度收集證據來考察其準確性與科學性。國外雖然有學者用檢查表法(observation checklist)(如O’Sullivan et al.,2002)和會話分析法(如Lazaraton,2000)從內容證據視角檢驗過英語口試的效度,但其研究對象為劍橋大學考試委員(UCLES)編制的英語口試系統,PETS口試在內容證據方面效度如何,有待進一步驗證。基于此,本研究依據語言測試效度理論,采用檢查表(checklist)、問卷調查和訪談方法從以下三方面收集“內容證據”來檢驗PETS-4口試的效度:1)內容相關和內容覆蓋;2)口試任務特征;3)口試實施環境特征。

2.0 效度理論框架

要談測試,必須從測試效度的涵義開始。效度是“測量工具確能測出其所要測量特質的程度”(楊惠中&Weir,1998:1),即測試的準確性和有效性。Messick(1989:7)將效度的涵義界定為“證據和理論依據支持基于測試分數或其它評估方式所做出的推斷或采取的行動的程度”。效度是決定語言測試與評價質量的關鍵(Alderson et al.,1995;Bachman,1990;Messick,1989;Weir,2005),是科學的測量工具所必須具備的最重要的條件之一。自20世紀60年代以來,效度問題成為“語言測試國際研討會的一個永恒話題,并將一如既往”(Bachman,2000: 22)。20世紀90年代后,效度被普遍認為是一個整體概念 (Messick,1989;Bachman,1990; Cronbach,1988;Anastasi,1988;Weir,2005),該效度框架下的基本觀點有:1)效度是一個整體概論,構念效度是其核心,傳統上不同的效度種類是構念效度的不同證據來源;2)效驗即舉證,效度驗證過程是所有測試使用者舉證說明其合理性的過程。

測試界對效驗證據的討論由來已久,如Bachmann(1990)認為,效驗證據應包含:內容相關與覆蓋、效標關聯性、測試公平性。美國心理學會(APA 1999)則認為效驗證據來源有五類:測試內容、反應過程、內部結構、與其他變量關系和測試后效。在此基礎上,Weir(2005)和Shaw&Weir(2007)從實踐操作的角度對效度證據進行了梳理,他們認為效驗證據有以下五方面:1)理論證據或認知效度;2)內容證據或環境效度;3)評分證據;4)測試后效證據;5)效標關聯證據。其中“內容證據”是“影響交際語言測試質量的決定性因素”(Douglas,2000)。Bachman將內容證據分為“內容相關”、“內容覆蓋”和“測試方法”(method facets)三方面。內容相關指“對相關測試的表現行為(即相關能力)與相應任務的具體明細或說明”(1990:244)。具體來說,內容相關包括:1)對擬測能力理論構念的闡述與界定;2)對擬測能力所涉及的相應任務和指標的詳細說明。內容覆蓋指“測試任務能代表所測能力各方面的程度”(Messick,1989:

10)。也就是說,內容相關與測試設計者對擬測能力構念與測試任務的界定與詳細指標說明有關,內容覆蓋與測試任務代表擬測能力的程度有關。換言之,對內容相關和內容覆蓋的考察可以通過對比考試設計者對擬測構念和考試內容的具體要求與考試相關者(考官與考生)和測試專家對該考試的認識而獲得。Bachman雖然提出了“測試方法”維度,卻沒有提出具體的操作方法。鑒于此,Weir對測試方法進行了細化,他認為“一項測試中所選擇的任務……與任務本身對語言和應試者的能力要求有關,也與任務本身和任務實施環境所要求的條件有關”(2005:19)。也就是說,內容證據除了應該考察測試所要測量能力的詳細指標(即內容相關)和測試任務的代表性(即內容覆蓋)外,還應包括“測試任務特征“和“測試實施環境特征”。在討論口試效度驗證時,Weir將口試“任務特征”分為“語言輸入與輸出”和交談考官(interlocutor)兩個方面。前者主要考量口試參與者在口試過程中的語言“交際模式”、“交際功能”、“口試渠道”(即測試口試的方式)和“真實性”四個方面(Weir,2005:46)。后者主要考查考官的語言輸出。“實施環境特征”是“測試環境接近真實語言使用環境的程度”(O’Sullivan et al.,2002:33-56),即測試物質環境應符合測試要求,操作程序應一致(李清華,2007)。正是為了突出語言使用的社會性,Weir才強調收集“任務特征”和“實施環境特征”的重要性,因為語言測試過程不是發生在真空中,只有了解測試任務特征和真實的語言使用環境,我們才有可能使語言測試任務盡可能復制(模擬)這種過程,從而反映受試使用語言的真實能力(李清華,2007)。

圖1 口語測試“內容證據”考查示意圖

上述理論探討促進了人們對測試內容證據機理的認識,但是作為有影響的大規模測試之一的PETS口試,對其測試內容方面的效度考查不可依賴主觀想象簡單推測。有必要在具體的社會環境下進行實證研究。基于此,本研究擬考查PETS口試相關人員(考試中的考官與考生)和測試專家對該測試的認識在多大程度上與測試設計者的預設目標相一致,其操作機理如圖1所示。

3.0 研究設計

3.1 研究問題

本研究擬回答以下兩個問題:

1)PETS-4口試任務“內容相關和內容覆蓋”是否符合預設的考查內容與目標?具體要回答的問題是:(1)PETS-4口試測試任務是否考查了擬測構念的詳細指標?(2)PETS-4口試測試任務能否充分代表擬測構念?

2)PETS-4口試任務特征和實施環境特征是否有利于應測構念的表現?具體要回答的問題是:(1)PETS-4測試任務是否充分體現測試設計者預設的特征?(2)interlocutor的語言輸出是否有利于擬測構念的表現?(3)PETS-4測試物質環境與操作程序是否有利于擬測構念的表現?

3.2 研究對象

參加本研究檢查表調查的對象為13位國內語言測試專家(2位為博導,11位為博士或博士后研究人員)。參加本研究問卷調查的對象有:1)參加先導性實驗的60名四川某高職院校考生(均參加了2012年9月PETS-4口試);2)川、陜兩地參加2013年9月PETS-4口試的考生461人,考官38人(其中30人為英語口語教師,8人為專業從事語言測試的教育行政人員)。參加本研究訪談的對象為參加上述問卷調查的10位考官(7位英語口語教師和3位教育行政人員)和20名考生。

3.3 研究工具

本研究根據《PETS考試指南》下稱《指南》),對口語能力的界定及考試內容的要求并結合O’Sullivan(2002)的口試內容證據特征量表設計了PETS-4口試內容證據調查問卷,訪談提綱和檢查表。在進行正式研究之前,本研究進行了先導性實驗,目的在于確定問卷的信度與結構效度。根據第一次先導性實驗(30名受試)結果,研究者對問卷進行了修改(如拆分、合并部分問卷題目;避免使用生僻術語,必要時在問卷中進行特別說明、解釋,以避免調查對象不理解問卷內容)。并進行第二次先導性實驗(另30名受試),通過SPSS16.0對實驗結果進行因子分析和信度分析,結果見表1和圖2。從表1和圖2可見:問卷中的27個問題包含3個維度(因子),第一個維度為問題1-12,調查有關PETS-4“內容相關與內容覆蓋”,其信度為0.816;第二個維度為問題13-25,調查PETS-4“口試任務特征”,其信度為0.848;第三個維度為問題26-27,考察PET-4“實施環境特征”,其信度為0.864。整個問卷的內部一致性系數為R=0.92。訪談提綱包括有關內容證據三個方面的六個問題。檢查表是用專業術語對問卷的提煉,與問卷內容一致。

表1 內容證據調查問卷結構、因子分析與信度分析表

圖2 調查問卷因子結構圖

3.4 研究步驟與數據收集

征得考場同意,研究者對4個考室進行口試過程全程錄像,并隨機選擇了8組考生(每個考室4人,共16人)的錄像文件作為測試專家在檢查表上評判的依據(觀看視頻錄像后作出選擇)。錄像內容隨同檢查表及PETS-4口試試卷(見附錄4)一同通過電子郵件發給13位專家。檢查表在兩個月內完成。問卷調查在口試結束后進行,時間約20分鐘。為避免問卷調查本身的局限性,本研究于問卷調查結束后對10位口試考官和20名學生進行訪談。對考官的訪談采用半開放一對一式訪談(semi-structured),時間為15分鐘/人。對學生的訪談以5人/組/15分鐘的形式進行。檢查表和調查問卷采用利克特五級量表。調查對象在量表上的選擇表明他們對選項的態度:1=完全不同意;2=不同意;3=不知道;4=同意;5=完全同意。分數的高低代表同意的程度。本研究發出檢查表13份,問卷499份,收回有效檢查表11份,問卷442份。我們對訪談內容進行錄音和文字轉換以備后用。

4.0 結果與討論

調查統計結果顯示(見表2),測試專家、考生和考官普遍認為PETS-4口試在內容證據方面有較高效度:92.63%的考官和考生(下稱受試)和87.12%的專家認為PETS-4口試測試任務考查了擬測構念的詳細指標,充分代表了擬測構念;92.09%的受試和96.03%的專家贊成PETS-4測試任務充分體現了測試設計者預設的特征,考官語言輸出用語嚴格一致,有利于擬測構念的表現;88.47%的受試和84.24%的專家贊成PETS-4測試物質環境與操作程序均有利于擬測構念的表現。為使我們收集的證據有說服力,下面我們結合問卷結果和訪談結果進一步分析討論“內容相關和內容覆蓋”、“口試任務特征”和“實施環境特征”證據。

4.1 內容相關和內容覆蓋

問卷中有關“內容相關與內容覆蓋”的問題(1-12題)是根據《指南》對口語能力的界定及考試內容的要求而進行設計的。《指南》中詳細界定了PETS-4口試的擬測構念及其詳細指標,并對PETS-4口試測試內容有較清晰的界定與闡述(2003:22)。將《指南》對考試構念和內容的要求與考試相關者(考官與考生)以及測試專家對該考試的認識進行比對,我們可以檢驗PETS-4口試“內容相關與內容覆蓋”是否達到了《指南》的總體設計目標。如果施測任務與《指南》要求一致,我們就得到了內容相關和覆蓋的一個證據(McNamara,2006)。從表2

可見,87.12%的專家和92.63%的受試贊成PETS-4口試測試任務考查了《指南》擬測的口語能力及其詳細指標,充分代表了擬測的口語能力(M分別為3.656和4.194)。這一結論也在訪談中得到了印證,大多數訪談者(如I5,I13,I16,I22)①均認為PETS-4考查了“英語口語的各方面能力,任務覆蓋面廣,很全面,類型眾多……要求層次不一”。因此PETS-4各項測試任務都滿足了《指南》對口語能力的要求和覆蓋范圍。因此我們得出結論:PETS-4口試任務“內容相關和內容覆蓋”符合預設的考查內容與目標。

表2 調查問卷結果統計(N=463)

4.2 口試任務特征

4.2.1 交際模式

口試中誘導出的話語功能和交互性受不同交際模式的影響(Lier,1989)。口試的交互性程度“取決于所采用的交際模式,如講座、面試、對話等”(Weir,2005:71)。對話是比較理想的交際模式,原因在于在該交際模式下,交際雙方同等擁有話語權和交際責任,而不是由考官獨自控制話語權,承擔交際責任(同上)。因此,“一項有效度的口試必須包含交互性”(同上: 72)。從表2可見,所有專家和98.75%的受試贊成PETS-4口試的交際模式主要是強調交際的“互動性”與“責任”的面對面對話模式(第13題)。綜合起來,訪談者認為面對面對話模式有利于體現口試的互動性(I23,I26)。測試題目的設定方便考生參與到交際中去,彼此應答,接替話輪,共同承擔交際責任、構建對話、完成言語交際任務,實現口語交際的“社會性”(Luoma,2004:20)。考官I28認為:“有信息差的試題設計使得聽話者必須根據講話者的內容組織語言,講話者必須根據聽話者的反應調節自己的詞匯和信息,因為對話雙方持有的信息不均等,需要進行真實的交際溝通。所有的交際都是以信息溝通為出發點,而不是以語言形式為出發點,信息的獲取和信息的表達都是在參與交際的各方之間互動完成。這與傳統的口語考試中考官提問考生回答截然不同”。

4.2.2 交際功能

口試中的“交際功能”(即話語的illocutionary force)是口語測試與評估中重要的考量因素(ETS 2001)。根據歐盟2001年制定的《歐洲語言通用參照框架》,交際功能可以分為兩類:宏觀功能和微觀功能(Luoma,2004)。前者指使用語塊描述、敘述、評價、解釋等;后者指實施請求、道歉、邀請、勸說、建議等具體語言行為。口語任務應該考查這兩方面的能力(O’Sullivan et al.,2002)。由表2可見,分別有83.76%受試和84.25%的專家認為PETS-4有效考查了語言的交際功能,具體情況見表3。結合訪談內容,訪談者I1,I26,I29認為PETS-4通過詢問考生有關生活、工作、學習等方面的問題考查考生問候、打招呼、道歉、致謝等微觀功能。而訪談者I28,I29,I30則認為利用有信息差的圖片PETS-4考查了描述、敘述、評價、解釋等宏觀功能。PETS-4可以說是綜合考查語言宏觀功能和微觀功能的測試模式典范之一。

4.2.3 口試渠道

“口試渠道”指通過什么方式來測試,是面對面談話、電話談話、看圖說話還是獨白等。測試方式不一樣,誘導出的語言產出會有差別(Weir,2005)。表2顯示,所有專家和94.96%的受試贊成PETS-4口試以面對面對話方式為口試渠道。一接受訪談的考官(I21)以一項測試任務為例說明PETS-4口試的測試渠道:考官分別給兩考生具體內容不同但都是關于“野外生存”的圖片,要求考生進行交互描述,告訴對方自己圖片的內容(如,一考生持有圖片顯示野外生存需要“火柴、帳篷,電話”等工具,而另一考生持有的圖片顯示野外生存需要“手電筒、指南針、藥品、水”等必須品,考生需要就圖片信息進行描述、溝通),在溝通的基礎上,考生相互討論、協商并決定野外生存需要帶哪些物品,并說明選用該物品的理由,并最終形成野外生存物品必備清單(問題解決)。面對面口試渠道無疑有助于誘導出反映受試口語真實水平的樣本。適當的口試渠道和采樣任務的多樣化(問候-描述-討論-問題解決)是保證測試效度的一個重要因素(Bachman&Palmer,1996)。

4.2.4 真實性

真實性是決定一項測試質量的關鍵指標之一,是“一項測試任務特征與目的語使用任務特征的一致性程度”(Bachman&Palmer,1996:23),一致性程度越高,測試真實性就越高(Bachman,1990:123)。測試任務真實性的考查離不開對目的語使用特征的考查。英國語言測試專家Weir(1993)對目的語使用特征作了比較詳盡的描述,他認為操本族語者的英語技能主要體現在三個方面:(1)常規技能(routine),如問候、陳述、解釋等;(2)即席技能(improvisational),如表明目的、確認不/理解、尋求提示等;(3)微觀語言技能(micro-linguistic),如話輪轉換、補償策略等。調查結果顯示(見表2),分別有83.74%的受試和85.92%的專家贊成PETS-4口試任務考查了這三種口語技能,具有真實性,具體情況見表4。訪談考官I21和I26認為在微觀語言技能方面,PETS-4口試中圖片的描述與討論起著關鍵的作用。由不同圖片指示誘導難度呈等級、具有信息差的一般性話題使考生無論是在“圖片描述”環節還是在“討論與問題解決”環節都要進行必要的話輪轉換、修正、補救策略甚至尋求提示等以順利完成交際任務(龐繼賢、潘文紅,2007)。多數訪談考生與考官都認為無論是從“問候”到“描述”,還是從“討論”到“問題解決”,PETS-4均對語言的三種技能進行了全面考察。可以說這是一種符合現代語言交際理論有交際真實性的口試形式。

表4 PETS-4口試真實性調查結果(N=463)

4.2.5 Interlocutor的語言輸入

“口試考官因素可能是口試中最難界定的變量”(Weir,2005:80)。只要口語測試中有考官的參與,他們說什么、做什么,對考生的表現都有影響。在PETS-4口試中,考官的語言指令對考生完成測試中規定的任務有很大影響。如interlocutor的語速、口音、清晰度、語篇長度等都會對考生測試表現產生影響(Weir,2005:154)。作為interlocutor的考官技能和可比較性是測試是否公正的重要考量因素(Luoma,2004:52)。因此測試開發者應盡量編制清晰、明白、一致的考官指令,對考官進行培訓和認證(Bachman&Palmer,1996)。為了保證測試效度,PETS-4口試對考官培訓、考官資格認證,特別是考場指令(如考官在測試中講話的多少、講話的復雜程度、話語的所指范圍、語言的功能范圍等)都做出了詳盡規定(《PETS口試教師指南》,2003:4)。這一點得到了調查結果和訪談結果的印證:所有訪談者、測試專家和98.79%的受試均認為interlocutor的語言輸入嚴格一致。其中所有專家和98%的受試認為考官主持考試的指導語是嚴格一致的(第24題),95.58%的受試和所有專家贊成考官的語言輸入不因考生而異、不因考場而異(第25題)確保了口試的公平性。這是直接測試中非常難得的。

4.3 實施環境特征

測試實施的物質環境和實測程序會影響考生的測試體會從而影響考試結果,對保證測試的公正和可比性尤為重要(Luoma,2004)。測試物質環境具體指口試考場的布景和座位安排等。在口語測試中,如果物質環境不能反映出考生將來所使用的語言,那么考試效度將受到威脅(Khalifa,2003)。實測程序的差異會誘導出不同的語言產出,從而影響考生表現(Weir,2005)。調查結果顯示85.47%的受試和84.24%的專家同意PETS-4口試的實施環境有利于擬測構念的表現(見表2)。訪談考官I26和I28認為,在統一的施測程序下,PETS-4的施測程序嚴格一致。這一點也得到82.36%的受試和86.5%的專家認同(第26題)。在考場的布景上,88.58%的受試和81.98%的專家認為PETS-4考場的布景創造了輕松的氣氛(第27題)。這一點得到訪談結果的印證,訪談考官I23和I27認為PETS-4口試對考場房間大小、桌子擺放位置和擺放方式、燈光位置、光線強度等都有具體規定與要求(如房間不宜過大,燈光或陽光不能從考官的背后照射過來;應該將桌子擺在距門不遠的地方,避免考生因在口試考官的注視下穿過房間而緊張;考官應該同考生呈直角就坐,避免考生和考官面對面以減少考生的緊張感)。考生越放松,所產出語言的采樣量越大,受與構念無關變量影響也就越少,口試效度也就越高(Messick,1989)。測試環境設置和施測過程的人性化是PETS-4口試同等關注語言測試社會認知維度的真實體現。

5.0 結語

綜上所述,本研究通過檢查表、調查問卷和訪談方法收集PETS-4口試“內容相關和內容覆蓋”、“任務特征”和“實施環境特征”等口試的“內容證據”,驗證了PETS-4口試的效度。

分析結果表明:1)PETS-4口試測試任務考查了《指南》規定的口語能力詳細指標,口試測試任務充分代表了擬測口語能力。表明PETS-4口試“內容相關和內容覆蓋”符合預設的考查內容與目標。2)口試任務充分體現了測試設計者預設的“交際模式”、“交際功能”、“口試渠道”和“真實性”等特征,考官的語言輸出嚴格一致,增強了測試的效度。測試物質環境符合測試總體要求、施測程序一致。即PETS-4口試任務特征和實施環境特征有利于擬測構念的表現。這些源自不同渠道的證據綜合表明2013年9月的PETS-4口試在內容證據方面有很高的效度。

本研究通過檢查表、調查問卷和訪談方法對PETS-4口試的內容證據進行了研究,雖然由于試題例證的不足(僅限于2013年)以及統計分析的缺陷(僅僅考查百分比和平均分),本結論不能概括整個PETS-4內容證據情況,但管中窺豹,可見一斑。本研究對PETS口試內容效度的探索能為眾多PETS口試研究增加新的例證,對提高PETS口試的科學性和有效性作出有益探索,同時,本研究有望能啟發測試研究者采用更科學、有效的研究方法,如有聲思維法(think aloud)、內省法(introspection)、回顧法(retrospection)等方法從不同視角對其他測量工具的效度進行更具普遍意義、更深入、細致的研究。

*本文在寫作過程中得到了上海交通大學金艷教授的悉心指導,謹致謝忱!錯訛之處,概由本人負責。

注釋:

①I表示Interviewee,I11表示第11位接受訪談者,同理可解釋文中的I18,I13,等。限于篇幅,有興趣者可向作者索取有關錄音、視頻、文字資料。

[1]Alderson,J.C.,C.Clapham&D.Wall.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.

[2]Anastasi,A.Psychological Testing(6th ed.)[M].New York:Macmillan,1988.

[3]APA.Standards for Educational and Psychological Testing[Z].Washington,DC:APA,1999.

[4]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1990.

[5]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language Testing,2000,17(1):1-42.

[6]Bachman,L.F&A.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.

[7]Cronbach,L.J.Five Perspectives on validity Argument[C].In H.Wainer&H.Braun(eds.).Test Validity.Hillsdale,NJ:Lawrence Erlbaun,1988.3-17.

[8]Douglas,D.Assessing Language for Specific Purposes:Theory and Practice[M].Cambridge:CUP,2000.

[9]ETS.Test of Spoken English and Speak Score User Guide[Z].Princeton,NJ:Educational Testing Service.http://www.toefl.org/tse/tesindex.html.2001.[2014-03-05]

[10]Khalifa,H.(ed).Student Achievement Test Development Manual[Z].Egypt:USAID,2003.

[11]Lazaraton,A.A qualitative approach to the validation of oral language tests[J].Studies in Language Testing,Ser.14.Cambridge:Cambridge University Press,2000.

[12]Lier,L.Reeling,writhing,drawling,stretching and fainting in coils:Oral proficiency interviews as conversa-

tion[J].TESOL Quarterly,1989,23(3):489-503.

[13]Luoma,S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.

[14]McNamara,T.Assessment of second language proficiency[A].In Keith Brown(ed.).Encyclopedia of Language and Linguistics[C].Elsevier Science,2006.251-271.

[15]Messick,S.A.Validity[C].In R.L.Linn(ed.).Educational Measurement(3rd.ed.).New York:Macmillan,1989.3-103.

[16]O’Sullivan,B.,C.Weir&N.Savill.Using observation checklists to validate speaking test tasks[J].Language Testing,2002,19(1):33-56.

[17]Shaw,S.&C.J.Weir.Examining writing in a second language[A].Studies in Language Testing 26[C].Cambridge:Cambridge University Press/Cambridge ESOL,2007.

[18]Weir,C.J.Understanding and Developing Language Tests[M].New York:Prentice Hall,1993.

[19]Weir,C.J.Language Testing and Validation:An Evidence-Based Approach[M].Palgrave:Macmillan,2005.

[20]高懷勇,戢煥奇,劉峰,汪定明.基于試題內部結構和評分過程的口試構念效度研究——以PETS四級為例[J].山東外語教學,2011,(4):49-55.

[21]高懷勇,劉峰,戢煥奇.基于測試后效證據的PETS口試效度研究[J].解放軍外國語學院學報,2014,(5):40-48.

[22]黃永紅.英語專業四級口語測試的信度和效度[J].外語研究,2006,(3):36-38.

[23]教育部考試中心.全國英語等級考試PETS口試教師指南[R].北京:教育部,2003.

[24]教育部考試中心.全國英語等級考試PETS考試指南(第二版)[R].北京:教育部,2003.

[25]金啟軍,李思國,梁興莉.全國公共英語等級考試體系:理論與實踐[J].外語與外語教學,2002,(4):38-46.

[26]金艷,郭杰克.大學英語四、六級考試非面試型口語考試效度研究[J].外語界,2002,(5):72-79.

[27]李潔平.PETS口試特點及信度和效度:兼談口試中的失誤與應試策略[J].繼續教育研究,2004,(4): 90-92.

[28]李清華.《語言測試與效度驗證——基于證據的研究方法》述介[J].現代外語,2007,(2):214-217.

[29]劉慶思.全國英語等級考試(PETS)計算機輔助口語考試研究[J].中國外語,2008,(2):7-9.

[30]呂長宏,宋冰,王焰,劉文麗.口語測試評分標準比較研究[J].外語教學與研究,2008,(6):453-458.

[31]龐繼賢,潘文紅.PETS-3口試的會話分析[J].外語與外語教學,2007,(10):12-17.

[32]王保云.外語口試的形式評析——面試、錄音口試和機助測試[J].外語電化教學,2006,(1):60-64.

[33]王海貞.基于評分過程證據的英語專業四級口試效度研究[J].解放軍外國語學院學報,2007,(4):49-53.

[34]肖德法,向平.交際策略與PETS口試研究[J].外語與外語教學,2004,(12):16-18.

[35]向平.論提高PETS口試評分的信度——對一次PETS口試量分統計結果的思考[J].中國成人教育,2003,(12):87-89.

[36]向平,肖德法.PETS口試對成人英語口語教學的啟示[J].中國成人教育,2003,(10):74-75.

[37]楊惠中,C.J.Weir.大學英語四、六級考試效度研究[M].上海:上海外語教育出版社,1998.

[38]楊莉芳.近二十年口語測試研究中存在的主要問題[J].外語教學,2006,(1):42-48.

[39]鄒瓊.普通高校大學英語口語水平測試模式研究[J].四川外語學院學報,2007,(6):71-74.

Validation Study of PETS-4 Oral Test:A Study Based on Content Evidence

GAO Huai-yong,LIU Feng,JI Huan-qi
(College of Literature and Law,Sichuan Agricultural University,Ya’an 625014,China)

This study,employing checklist,questionnaire and interview,validated PETS-4 oral test administered in Sep 2013,on the basis of content-related evidence by collecting evidence from“content-related”,“content-coverage”,“task demand”and features of“the context of oral test”.The results indicate that:1)test tasks in PETS-4 do represent and cover the target domain;2)The characteristics of test tasks and contexts both facilitate the construct supposed to be tested,specifically:(1)test-tasks in PETS-4 fully represent the presupposed characteristics of oral communication in terms of discourse mode,communicative function,channel and authenticity.Language input of interlocutors is strict and uniform;(2) settings and administration settings all meet the general requirements of oral test.Considering the evidence listed above,we may conclude that PETS-4 oral test administered in Sep 2013 is of high validity in term s of content-related evidence.

Public English Test System;oral test;validity;content-related evidence

H319

A

1002-2643(2015)03-0047-10

10.16482/j.sdwy37-1026.2015-03-006

2014-09-08

本文為國家社科基金項目“整體效度觀下的語言測試效度研究:基于證據的效度驗證”(項目編號:13BYY085)的部分成果。

高懷勇(1974-),男,四川雅安人,碩士,副教授。研究方向:語言測試。劉峰(1980-),男,江西吉首人,博士,講師。研究方向:二語習得、語言測試。戢煥奇(1975-),男,四川眉山人,碩士,講師。研究方向:應用語言學。

主站蜘蛛池模板: 无码 在线 在线| 国产欧美日韩资源在线观看| 国产精品丝袜视频| 一级毛片免费观看不卡视频| 亚洲国产av无码综合原创国产| 99热国产这里只有精品9九| 国产尹人香蕉综合在线电影 | 欧美日韩午夜| 99爱在线| 欧美日韩一区二区在线免费观看| 亚洲一区免费看| 欧美成在线视频| 最近最新中文字幕在线第一页| 99在线观看免费视频| 欧美精品黑人粗大| 免费在线色| 国产精品午夜电影| 日本免费一区视频| 四虎成人免费毛片| 国产在线精品99一区不卡| 国产91久久久久久| 九九热在线视频| 成人午夜视频网站| 国产精品熟女亚洲AV麻豆| 99在线免费播放| 人妻91无码色偷偷色噜噜噜| 日韩麻豆小视频| 91色老久久精品偷偷蜜臀| 色综合狠狠操| 免费国产一级 片内射老| 国产美女免费| 自拍中文字幕| AV老司机AV天堂| 亚洲无码熟妇人妻AV在线| 日韩国产一区二区三区无码| 亚洲一区无码在线| 久久天天躁狠狠躁夜夜躁| 大陆国产精品视频| 亚洲欧洲一区二区三区| 国产精品美女免费视频大全 | 九九这里只有精品视频| 一级毛片在线播放免费| 午夜久久影院| 国产欧美日韩18| 久夜色精品国产噜噜| 综合天天色| 乱人伦视频中文字幕在线| 欧美日本不卡| 97综合久久| 欧美成人影院亚洲综合图| 日韩毛片免费| 无码专区国产精品一区| 免费观看亚洲人成网站| 国产精品人莉莉成在线播放| 日本成人福利视频| 国产精品区视频中文字幕| 超碰aⅴ人人做人人爽欧美| 99无码中文字幕视频| 国产女人18水真多毛片18精品 | 欧美A级V片在线观看| 全部无卡免费的毛片在线看| 91九色国产porny| 亚洲精品视频免费看| 88国产经典欧美一区二区三区| 欧美日韩亚洲综合在线观看| 亚洲一级无毛片无码在线免费视频| 人妻精品全国免费视频| 精品伊人久久大香线蕉网站| 国产乱人免费视频| 国产视频入口| 国产精品播放| 中日无码在线观看| 久久黄色影院| 成人在线综合| 国产精品吹潮在线观看中文| 成人精品在线观看| 日本久久久久久免费网络| 亚洲人成在线免费观看| 蜜芽国产尤物av尤物在线看| 亚洲动漫h| 精品人妻一区无码视频| 99中文字幕亚洲一区二区|