徐智鑫 謝小苑 劉長江 陳向俊 劉芳 谷健飛



[摘要]文章是關于大規模計算機輔助英語口語測試效果的實證研究報告。文章首先通過對比發現,計算機系統自動化判分與教師評分所得成績的相關度為0.911,說明計算機評分基本可代替教師評分完成直接型口試任務。其次采用定量和定性分析方法,從受試者和教師角度對大規模計算機口語測試的效度和信度進行分析,論證了高校口語機考的可行性和整體測試效果。
[關鍵詞]計算機口語測試;效度;信度;可行性
[中圖分類號]G420 [文獻標識碼]A [論文編號]1009-8097(2013)08-0076-05 [DOI]10.3969/j.issn.1009-8097.2013.08.015
一、引言
隨著大學英語教學改革的不斷深入,口語教學與測試日益受到重視。如何為口語教學提供更高效科學的測試方法,已成為諸多學者研究的熱點之一。為解決傳統口試成本過高、學生基數大、教師資源不足、測試者間信度等問題,大學英語口試引入了計算機輔助語言測試(Computer-assisted Language Testing,CALT)。目前無論是國內還是國外,CALT都處于實驗與探索階段,尚未成為一種成熟的大規模考試形式。為了最大程度的利用計算機技術測試學生的真實口語水平,對大規模計算機口語測試的整體效果進行全面、深入地研究是非常有必要的。鑒于此,本研究從目前我校大學英語正在實施的大規模計算機口語測試入手,以受試者和教師參與口語機考時的認知和態度為切入點,通過對比分析直接型口試教師評分與計算機輔助口試系統自動化判分的實驗結果,探究大規模口語機考的效度與信度,從而為高校更有效地實施大規模計算機口語測試提供可行性建議。
二、文獻綜述
隨著我國大學英語口語教學重要性的日益凸顯,國內許多學者進行了各種口語測試方法的研究和實踐,包括直接型口試、半直接型錄音口試和基于現代化手段的計算機輔助口語測試。目前我國高校普遍采用直接型口試來測量學生的口語交際能力,研究者認為,傳統的直接型口試比較貼近現實生活中的口語交際活動,在內涵上也體現了語言的交際功能,考官直接參與考生真實的交際活動,直接觀察到考生的面部表情以及身體語言,因此具有“表面效度高、靈活性大、針對性強的特點”。但是,受考官資源、評分標準等因素影響,直接型口試的評分信度通常較低。在半直接型錄音口試中,考生更注重話語輸出的正確性,口語水平的發揮不受考官的語言水平和情緒的影響,因為口試與評分分開進行,半直接型錄音口試能采集到更多的語言樣本,具有評分信度高和可操作性強等特點,但是其缺乏真實口語交際互動性的弊端也較為突出。
計算機化考試研究始于上世紀70年代,至90年代才開始走向成熟,并真正開始應用于考試的實踐中。邱東林等基于高校三次大學英語口語機考實驗的基礎上,對比分析了直接型口試與計算機口試的利弊,指出后者具有省時省力、操作簡便易行、評分相對客觀公正、考試語料易于保管的優點。蔡基剛通過對四、六級計算機口試與直接型口試成績的對比分析,驗證了計算機口試的信度和效度,指出計算機口語測試適合目前的社會需求,能夠解決考生人數多、考試成本大的難題。高丙梁在比較和分析非英語專業學生在計算機口試與直接型口試中的表現和應試反應后發現,計算機口試不僅在形式和內容上更豐富,而且在評分的準確性和組織實施的效率上都優于其他口試形式。李玉平和金力的問卷調查也表明大部分學生對計算機口試持認同態度,并指出在設計計算機口試的題型時,測試者和測試管理者應充分考慮考生的情感因素,通過聽覺、視覺等多感官刺激和多形式試題內容,為考生創造較為真實、輕松的語言交際環境。此外,國內許多研究者在肯定了計算機口試優勢的同時,也發現其最不容忽視的問題在于缺乏真實口語的交際交互性。
總的來說,國內專家對計算機口語測試的可行性以及反拔作用等方面進行了初步研究和論證。但是,將計算機口試作為大學英語課程成就測試的一個部分,探討大規模計算機口試的信度、效度和可行性的研究屈指可數。計算機口試能否在高校大規模使用,取決于其是否具有和直接型口試同樣高的信度和效度。根據Shohamy等的觀點,如果同一批考生在直接型口試考官評分與計算機口試系統自動化判分中所得成績具有高相關度,則說明這兩個考試具有相同的效度和可替代性。鑒于此,本研究作為對比性研究,將詳細介紹我校進行計算機口試的實驗,并對計算機口試系統自動化判分和直接型口試教師評分的結果進行對比分析,以學生和教師參與口語機考時的認知和態度為切入點,探究口語機考的效度和信度,為高校實施大規模計算機輔助英語口試提供實證依據和可行性意見。
三、研究過程與研究方法
1.研究對象及方法
研究對象為南京航空航天大學2011級雙語前期大學英語教學實驗班的680名學生,通過對研究對象一次計算機口試和一次直接型口試成績的收集和比較,同時結合學生問卷和教師訪談,分析計算機口試的效度、信度和可行性。
2.研究問題與假設
本研究擬通過對比實驗,并結合定量和定性分析,回答三個問題:(1)計算機口試系統自動化判分和直接型口試教師評分的成績相關性是否一致?(2)比起直接型口試,計算機口試的效度和信度如何?(3)大規模計算機口試的可行性如何?
3.題型設計與要求
兩次口試均以2007年教育部頒布的《大學英語課程教學要求》中對口語表達能力的較高要求為依據,即考生能用英語就一般性話題進行比較流利的會話,能基本表達個人意見、情感、觀點等,能基本陳述事實、理由和描述事件,表達清楚,語音、語調基本正確。
本研究首先對參與實驗的680名學生進行了直接型口試,口試題型圍繞所學教材內容展開,包括簡答題(short-answer question)和6個主題式對話(talk based on a given topic)。每場口試由任課教師主持,2名學生參加。學生在分別回答完簡答題后。抽取一個話題,經3分鐘準備后進行連續2分鐘的對話交流。
計算機口試使用的軟件系統是由安徽科大訊飛信息科技股份有限公司研制的“暢言英語互動學習平臺”。該學習平臺的口試題型由短文跟讀(60分)和話題表述(40分)組成。短文跟讀要求學生在聽完示范朗讀后,大聲朗讀出現在測試軟件屏幕上的文字,約250詞,時間約2分鐘。話題表述由學生根據所給提示,自行組織語言進行表述。經2分鐘準備后,就所給話題進行連續1分鐘的表述,錄音時間為2分鐘。每種題型只有一次錄音機會。學生會看到準備時間和答題時間提示,屏幕下方顯示剩余時間。考試結束后,學生提交試卷,計算機將收集記錄學生答案的錄音文件包,并在屏幕上顯示學生的口試成績(分別給出單項分和總分)。為了契合期末考試內容,話題表述由任課教師從暢言英語互動學習平臺的口試題庫中抽選了與教材主題一致的六套試題,確保話題難易程度接近直接型口試話題。
兩次考試的評分依據包括三個方面:語言的準確性和范圍、話題的長短和連貫性以及語言的靈活性和適切性。計算機口試系統采取題型分項評分法:短文跟讀側重考察語音語調:話題表述側重考察語言組織和連貫表達能力。直接型口試采用綜合評分法,由任課教師獨立打分。每場考試滿分均為100分。
4.研究過程
參與計算機口試前,實驗對象在計算機中心先行體驗了暢言英語互動學習平臺及其考試程序,以熟悉該系統的使用。我校計算機中心有250臺電腦,分為A、B、C、D、E五個區域。考試當天,學生分三批先后進入計算機中心進行考試,按班級就坐在B、C、D、E四個區域,每人一臺電腦,一個帶有話筒的耳機。每個區域內有兩名監考教師,其中一名為任課教師,另一名為技術人員。學生在電腦上輸入學號和密碼即可進入考試界面準備考試。試題由事先準備好的題庫隨機發放,共有六套試題,每場試題有所不同。相鄰座位學生的試題形式相同,內容不同。每場考試時間約為20分鐘,其中答題時間為10分鐘。A區為備用區域,如果學生在口試過程中遇到機器故障等問題,為了不影響下一批考試,這些學生將統一在A區進行補測。
計算機口試結束后首先對學生進行問卷調查,問卷共有六個問題,調查學生對口語機考的態度,共發放問卷680份,有效問卷674份。隨后對參與口語機考的六位任課教師進行集中訪談,了解她們對機考整體效果的認知和態度。
四、研究結果與討論分析
1.學生成績對比分析
語言交際能力的評價最終要以測試成績為依據。為此,對兩種測試形式所得的口試成績進行了描述性統計和相關性分析。
表1和表2顯示計算機口試系統自動化判分的分數呈正態分布趨勢,成績集中分布80-84分之間,該分數段集中了25.3%的學生,接近教師評分的分布比例(32.4%),得分在75-79分之間的考生占24.7%,也很接近教師評分(27.4%)。但計算機系統自動化判分的均分低于教師評分,其差異在于前者在70-74分之間集中了25%的學生,而教師評分只占3.5%;同樣,前者在85-89分數段只集中了10.7%的學生,而教師評分的分布比例為27.4%,這可能是因為學生第一次參加計算機口試,難免會感到緊張,或多或少會影響到口試成績。此外,直接型口試中教師對學生成績分布的總體主觀把握也會影響學生口試成績的分布狀態。
表3是對計算機口試系統自動化判分和任課教師主觀評分的Pearson相關分析,結果表明兩者之間的相關度達到0.911。根據金艷和郭杰克的觀點,兩個不同的考試進行同期效度研究,如果相關達到0.700,應該說是較為滿意的。由此可見,這次實驗中的計算機系統自動化判分與教師評分具有相當高的一致性。以上分析結果表明,計算機口試在很大程度上能夠反映學生的真實口語能力,基本可代替教師批量評分完成直接型口試任務。
2.學生問卷和教師訪談的歸納分析
我們以學生問卷和教師訪談的形式進一步探究了大規模計算機口試的信度、效度和可行性。表4列出了學生對口語機考的認知和態度。
(1)表面效度
效度是語言測試理論中的一項重要指標,包括表面效度和內容效度。表面效度指考生對測試的看法和態度。我們通過問卷(見表4)了解學生對計算機口試態度的數據顯示:學生的接受程度高達66%,也有22.3%的學生不能接受口語機考。在測試過程中,學生的情感狀態也會影響到他們對計算機口試的態度。直接型口試中,教師的態度會影響學生的焦慮程度。在沒有教師直接參與口語交流的情況下,50.3%的學生認為機考能緩解焦慮感,29.3%的學生則表現得更為緊張,這說明在計算機口試中,學生面對新的測試手段內心的焦慮是不可避免的。此外,61.3%的學生認為自己下一次機考的口試成績會有提高,只有19%的學生持消極態度。
以上這些數據基本說明計算機口試總體上受到了學生的普遍認可,學生大多持積極態度,并且對下一次機考的成績抱有信心,也就是說,此次大規模計算機口試具有比較令人滿意的表面效度。
(2)內容效度
內容效度指測試中的項目與任務是否與測試的總體目標相符。問卷要求學生對自己的整體表現進行自我評價,結果顯示,53.7%的學生認為計算機口試能夠真實反映他們的口語水平。我校的口語測試為學業考試,所測即所學,試題難易程度取決于教材難度,考試中的口語交際任務與測試的整體目標基本相符,因此學生比較熟悉試題內容,在口語機考中能夠發揮自己的正常水平,對自己的表現較為滿意。但是,相對于直接型口試而言,有49.7%的學生認為計算機口試缺乏真實性。
參與訪談的教師也一致認為,事先從口試系統的題庫中抽取試題,既保障了口試話題與所學教材內容一致,也確保了話題之間的難度系數比較接近。與直接型口試相比,計算機口試解決了耗時多、效率低的問題。但是,有五位受訪教師也指出,口試系統雖然可以考察學生的語音語調、語言組織和連貫表達能力,卻無法測試學生的語言交際能力,由于是人機對話,學生也無法利用身體語言等手段輔助交際,因此,計算機口試過程缺乏了一定的真實性。針對這一問題,有兩位教師認為如果從多維度、全方位去分析口語測試,其真實性是一個相對的動態概念,無論是直接型口試,還是計算機口試,都不可能達到絕對的真實性。經過討論,受訪的六位教師最后達成一致:僅僅通過一場考試就評判學生的語言交際能力是片面的,因為有些學生會因為口試時面對教師而感到緊張,出現忘詞或肢體語言不自然等情況,而口語機考則很難做到互動。因此,為了更加全面地評價學生的口語交際能力,需要平衡形成性評價和終結性評價兩種考察方式,這樣既可以公正地反映出學生口語的真實水平,又可以減輕計算機口試無法考察交際能力的弊端。
因此,以上數據分析部分證明了計算機口試能夠反映學生的真實口語水平,同時,口語試題具有較高的內容效度。
(3)信度分析
信度是指測試的可靠性程度,表現為測試結果的穩定性,本研究中主要指施考的條件要一致以及閱卷評分要一致。
針對施考條件,受訪教師一致認為在直接型口試中,學生在準備話題時會故意讓口語好的學生獨占話輪,口語較弱的學生則“臺詞”較少,難以保證每個學生同樣的發言時間。此外,直接型口試中排在后面的學生可以向已經考過的學生打聽話題內容,這些都影響了考試的公平性。而計算機口試由屏幕出示話題,相鄰的學生題目不同,屏幕同時顯示每個學生的發言時間,確保了每個學生的樣本的量是相同的,公平性也就因此體現出來了。
就閱卷評分而言,58.3%的學生認為計算機口試的評分更加客觀公正,只有19.2%的學生持反對意見(見表4)。受訪教師也指出直接型口試與評分同時進行,是瞬間的,具有不可重復性,教師必須對每組學生的口語樣本當場做出準確地判斷,給出整體分數,壓力較大,如果沒有較高的專業素質很難做到公正客觀地評分,而且直接型口試評分與教師對學生成績分布的總體主觀把握有關,同時也受教師之間的評分標準不一致、個人喜好、連續評分產生疲勞等眾多因素的影響。相較而言,計算機系統自動化判分采取題型分項評分法,不受主觀因素影響,使得評分結果更客觀、穩定、公正。
由此可見,本次計算機口試在一定程度上保障了施考的條件,確保了評分的一致性,由此提高了測試的信度。
(4)大規模計算機口語測試的可行性
根據以上分析,在保證同樣的效度、信度前提下,大規模計算機口試的可行性涉及考試組織實施、考官評分資源、考場設備、考試時間等成本因素。
與直接型口試相比,受訪教師認為計算機口試有三點優勢:(1)省時、省力。以往需要一周的課時進行隨堂口試,而大規模計算機口試只需1.5小時即可完成。(2)語料易于保管。學生的原始聲音資料可以完整保留。考試結束后,教師可以按需要進行各種分析,為以后的考試、科研和教學提供各種有益的參考依據,而直接型口試卻做不到這點。(3)調動學生學習積極性。這次的口語機考對雙語班學生的視聽說自主學習起到了督促作用。自從通知學生期末采取機考后,學生對視聽說更加重視,課后更是利用“暢言英語互動學習平臺”練習口語。因此,計算機口試對大學英語的導向作用很好,不僅緩解了教師的工作壓力,還可以有效改變學生啞巴英語的現象。
部分受訪教師也指出,盡管計算機口試有較高的效度和信度,系統自動化判分也與教師評分趨于一致,但要讓學生完全接受和習慣計算機口試這一新型測試方法,還需要一個適應過程。這次考試也存在一些問題,例如與直接型口試相比,此次計算機口試的題目難度要低一些,題型相對單一。如果建立了試題庫的話,就可以事先利用屏幕設計現實生活中各種口語交流的真實情景,使整個考試過程更貼近真實,互動性更好。此外,考試期間,少數計算機發生故障無法使用,雖然對于這類突發事件事先有所準備,學生可以在預留考場重新考試,但是在一定程度上會對學生的考試心理產生負面影響,考試心理素質不夠好的學生極易產生焦慮感。
五、結論
計算機口語測試已成為我校大學英語教學中一個新的評估手段。本研究通過對比分析證明計算機系統自動化判分性能與教師評分已非常接近,基本可代替教師批量評分完成直接型口試任務。通過學生問卷和教師訪談發現,計算機口試得到學生和教師的普遍認可,不僅能反映學生的真實口語水平,還降低了學生的考試焦慮感,更能夠公正、有效地測試出學生的口語能力,具有較好的測試效度和信度,在高校大規模使用具有可行性。當然,計算機口試的完善有一個以點到面的問題,例如建立試題庫、完善考場設備等。大規模計算機口試是我國英語教學改革和教學手段多樣化的產物。就目前來看,利用現有的教學技術,實現英語口語測試的現代化,不僅能提高口試的效度和信度、減輕教師工作壓力,而且對整個口語教學將會產生正面的反撥作用。目前利用計算機系統自動化判分進行口語測試在高校英語口語測試中尚處于探索階段,如何更大程度地利用計算機實現接近于真實語言環境的測試,如何將測試目的與測試形式統一起來,還需要進一步的研究。