吳若蕙
(財團法人語言訓練測驗中心,臺灣)
由于電腦資訊產業的蓬勃發展,在英語能力測試方面,電腦化測驗、電腦化適性測驗與網路測驗已漸趨常見,也普遍受到學習者與受測者的認同。美國教育測驗服務社(ETS)的“托福”(TOEEL)電腦化測驗始于1998年7月,并自2000年10月起在臺灣開始實施電腦化適性測驗,隨后又于2006年5月改為網絡測驗。目前在臺灣,不論政府單位或民間組織自行主辦的大型測驗采用電腦化的情形尚未普遍。雖然如此,電腦化測驗在臺灣愈來愈受到重視,政府單位(例如:考選部)已意識到電腦化的趨勢,自2004年起實施航海人員電腦化測驗,并計劃逐年擴大實施電腦化測驗,選擇其他考試類科辦理;而民間組織方面(例如:語言訓練測驗中心),也自2010年起實施“全民英檢”高級電腦化寫作測驗,提供受測者在原有傳統紙筆寫作測驗外之另一選擇。
教育測驗、評量與資訊科技結合的突破確實簡化了試務流程,提高了考試的效率及效益。對以選擇題為主的測驗型式而言,電腦計分非常單純,但對于非選擇題的測驗型式,題型的文字界面及多元計分等均涉及測驗的信度、效度。美國心理學會也對此提出呼吁,希望測驗專業正視電腦化測驗上有關信度與效度之議題,而這也是發展語言電腦化測試刻不容緩的研究課題。特別是語言測驗從原來的傳統紙筆測驗模式轉型成電腦化測驗模式的過程中,因現實因素之限制(例如:電腦化測驗考場地不足),必須紙筆測驗與電腦化測驗雙軌并行,也就是說,讓一部分受測者接受紙筆測驗,而另一部分受測者接受電腦化測驗。如此一來就產生這兩種不同應考環境下,即使是考題一樣、測試時間相同,受測者的表現是否相當、對評分者是否造成影響等疑問。如受測者因接受電腦化測驗而較紙筆測驗的受測者表現佳或差,皆造成測試不公平,對測驗的信度與效度亦皆形成挑戰。
“全民英語能力分級檢定測驗”(簡稱“全民英檢”)由臺灣教育部補助財團法人語言訓練測驗中心(簡稱LTTC)研發。“全民英檢”自2000年施測以來廣受采用,迄今已達510萬人次報考,成績獲申請入學、畢業、甄選、國際學程等采認。“全民英檢”檢測對象為一般社會人士及在校學生,共分五級:初級、中級、高級、高級及優級;測驗內容包含初試(聽、讀)、復試(說、寫)四項;初試通過者始能報考復試,初復試皆通過者獲頒該級通過證書。各級綜合能力說明如下(更多有關“全民英檢”的資訊可查閱“全民英檢”網站http:∥www.gept.org.tw)。
初級:具有基礎英語能力,能理解和使用淺易日常用語,相當國中畢業者。
中級:具有使用簡單英語進行日常生活溝通的能力,相當高中畢業者。
中高級:英語能力逐漸成熟,應用領域擴大,雖有錯誤,但無礙溝通,相當大學非英語主修系所畢業者。
高級:英語流利順暢,僅有少許錯誤,應用能力擴及學術或專業領域,相當國內大學英語主修系所或曾赴英語系國家進修并取得學位者。
優級:英語能力接近受過高等教育之母語人士,各種場合均能使用適當策略作最有效的溝通。
正如國際著名語言測驗學者Lyle E Bachman教授(1990)所言:“測驗不是在一個與社會價值完全隔絕的試管中所研發出來或被使用的產物,測驗應以服務教育、社會為最終目的。”多年來“全民英檢”不論在研發或實際運作方面努力與國內英語教學建立合作、互動的機制,產生正面的回沖效應(washback effect)。在這基礎上,LTTC持續進行效度研究,以期提升“全民英檢”的測驗品質,發揮推廣全民學習英語的功效(Wu 2012)。本文所提的“全民英檢”高級寫作電腦化測驗的開發就是一個例子。
考慮到“全民英檢”高級寫作測驗字數要求約為500字,加上受測者大多為成年學習者,為求測驗方式更加貼近其平時的寫作習慣,LTTC認為有需要研議增加電腦化測驗的選項。LTTC在開發“全民英檢”高級寫作電腦化測驗模式時,即決定采紙筆、電腦兩種模式并存,因此在維持測驗的公平性、不影響測驗效度之前提下,進行“全民英檢”高級寫作紙筆測驗與電腦化測驗是否平行之實證研究。本文說明該研究過程與結果,由作者摘譯自原英文研究報告(Wu&Chao 2011)并補充文獻探討等后改寫而成。以下為“全民英檢”高級寫作測驗的介紹。
“全民英檢”高級寫作測驗的題型為任務型導向(task-based),希望反映出與現實相符的學術性寫作(academic writing),例如“從讀至寫”(reading-towrite)。本測驗設計獲學者高度肯定,認為是學術英語能力評量的佳作(Roever&Pan 2008;Weir 2005)。受測者須在限定時間內分別完成兩個大題。第一大題作答時間為60分鐘,題目包括兩篇英文文章(每篇文章長度約350字至400字,難度設在中高級的程度),文章分別就同一議題抒發不同的看法。回答內容須包括兩篇文章的重點摘要,并提出個人對該議題的看法,長度約250字。第二大題作答時間為45分鐘,題目是與同一議題相關的兩個圖表。回答內容須包括兩份圖表的重點訊息,并提出解決方案,長度約250字。評分方面,評分量表分為兩種:一是整體式(holistic)量表,二是分項式(analytical)量表,包含內容、組織、遣詞用字及文法結構。寫作測驗的兩大題分別給分,標準為0-5整數級分。測驗總分為所有分項分數的平均數,且總分需達3級分以上始能通過寫作測驗。每篇文章皆由兩位評分員評閱,一旦評分員之間的給分差異過大,再由資深評分員第三次評分,并決定最終成績。另每篇文章的整體式評分與分項式總分差異過大時也須重閱。“全民英檢”高級寫作測驗的試題樣例與評分量表見附錄。
“全民英檢”高級寫作電腦化測驗在電腦教室進行,有別于紙筆測驗,電腦化測驗提供復制粘貼、自動字數統計、自動儲存檔、字體大小調整、計時等功能。為控制電腦化與紙筆測驗之差異,兩者作答時間一樣,且寫作題目內容(含閱讀文章與圖表)皆以紙本方式呈現,而答卷也印出來,同紙筆測驗的答卷以紙本方式交由評分員評分。
電腦化測驗運用在語言教育上,對學習者的影響是正面或負面,關鍵在于測驗進行時是否有作答時間的限制。Mead和Drasgow(1993)在整理分析近160篇有關探討電腦施測影響的論文后,指出無作答時間限制的電腦施測(power tests)對受測者的作答表現并無負面影響;但是具作答時間限制的電腦施測(speed tests)卻對受測者的作答表現造成負面影響。因此,Mead和Drasgow(1993)呼吁在比較紙筆測驗與電腦化測驗(具作答時間限制)是否相當(equivalence)時,需確定電腦化測驗的品質、效度與其原有的紙筆測驗相同。這也表示在有時間限制的作答環境下,不論是在紙筆測驗或電腦化測驗的模式下應考,受測者的成績表現是可能相同的,但前提是應事先確定兩者是相當的。這點也深獲其他學者(例如:Van de Vijver&Harsveld 1994;McDonald 2002)的認同,并主張應透過實證研究,證明兩種測驗模式是相當的(McDonald 2002:300)。
在進行紙筆測驗與電腦化測驗是否相當、平行的研究(comparability studies)時,最直接的就是比較受測者在這兩種測驗模式下的作答表現:一個是受測者所得的分數;另一個是受測者在作文中所使用的語言、文字,下簡稱文本分析。以下即依每一項分別說明。
寫作測驗多依賴人工判斷、評分,因此測驗模式的改變也可能會對評分者造成影響,進而影響評分。紙筆測驗時,受測者用手寫的方式作答(handwritten text),可能因受測者的字跡工整度而影響評分者的判斷;相對地,電腦測驗時,受測者用打字方式作答(typed text),評分者評閱時所讀的全是工整的印書體。因此,電腦測驗作答的呈現方式很可能是影響評分的變數之一,但是它對于受測者的得分到底是利或弊? 一般人認為電腦打字的作答呈現方式應該對受測者較有利,因為手寫作答可能因字跡問題影響了評分者對其寫作能力的判斷。但是根據研究(Powerset al.1994;Russell&Tao 2004a),事實上相同的文章以手寫方式接受評分,其得分高于電腦打字方式。可能的原因包含:電腦打字方式的作答讓錯誤更明顯易見;評分者對于受測者能運用電腦作答有更高的期待;手寫方式較人性化;縮短與評閱者的距離;手寫作答看起來較長、較費心力等。但是這些問題應可從加強評分者的訓練予以防范。Russell和Tao(2004b)比較手寫、電腦打字、電腦模擬手寫三種不同的受測者寫作,發現評分者對電腦打字寫作的給分較其他兩種模式低,而手寫與電腦模擬手寫的得分并無顯著差異。但經評分者在三種不同模式下練習評閱后,即有效降低了作答呈現方式對評分造成的影響。然而有其他研究(如Russell&Haney 1997;Aydin 2006)發現相反的結果,也就是受測者在電腦化寫作測驗上的表現得分高于紙筆測驗。他們認為可能的原因是:電腦化寫作測驗提高受測者作答的意愿;評分者對電腦化寫作測驗的評分工作持較正面看法。總之,寫作測驗作答的呈現方式對受測者的得分是利或是弊并無定論。
靠人工判斷、評分的測驗,向來注重測驗信度,特別是評分者之間的一致性(inter-rater consistency),或稱為評分者間信度(inter-rater reliability)。因此,在進行紙筆測驗與電腦化測驗是否相當、平行的研究時,除比較兩者分數的變化外,也應檢視兩者之評分者間信度有否差異。Aydin(2006)將40位學生平分成能力相當的兩組,一組參加紙筆寫作測驗,另一組參加電腦化寫作測驗;每組接受前測(pretest)、后測(posttest)。之后所有學生的作文由兩位評分者評閱,依其評分計算出每組的前、后測評分者間信度(Cronbach Alpha)并加以比較。結果顯示電腦化寫作測驗的評分者間信度明顯高于紙筆測驗,但是該研究未進一步探究信度提高的原因。值得一提的是,該研究中前、后測所使用的題目是不同的,這可能是影響結果的原因之一。
有別于分數的比較,我們也可針對受測者在兩種作答模式的文字表現進行文本分析,以檢視兩者是否相當,項目包含:詞匯、組織(句子、段落)、拼字、標點符號等。Chambers(2008)研究中針對英國劍橋大學考試院(Cambridge ESOL)中級測驗(PET),比較電腦、紙筆兩種寫作模式下受測者的作答文本分析。該研究運用Wordsmith Tools(Scott 1998)、Range(Nation&Heatley 1996)、SPSS等工具分析上述項目,發現在詞匯方面,受測者的作答量(作文的總字數)兩者間大致相當,但電腦化的作文詞匯較有變化、較豐富。句子、段落方面,兩者句長相當,但是電腦化的作文平均句數、段落數皆較紙筆作文少。而拼字、標點符號的錯誤量兩者相當,有趣的是發現錯誤的類型不同。電腦化的錯誤屬于打字輸入的失誤(電腦化寫作測驗時電腦不具“拼字檢查”的功能),例如:ask打成aks;紙筆的錯誤多數字跡亂而影響理解。
上述的研究發現讓我們了解作答模式的改變對受測者語言能力表現的影響。但值得注意的是該研究所使用的寫作測驗為敘述文,且受測者的母語背景皆熟悉羅馬字母,因此,電腦化測驗對于其他文體、其他母語背景的受測者是否有類似的影響,尚需更多的研究。
過去“全民英檢”高級寫作測驗只采用紙筆作答,有鑒于寫作測驗的字數要求約為500字,加上受測者大多為成年學習者,于是考慮增加電腦作答的選項,希望更能貼近受測者平時的寫作習慣。為此,本研究于2009年進行,目的即為檢驗在紙筆與電腦化兩種不同的應考方式下,受測者的寫作表現是否相當,包括:分數與文本分析比較。
同年度報名高級寫作測驗的56位受測者獲邀參加本研究,和正式測驗的受測者背景(如性別、年齡、教育等)相同。隨機將這些受測者分成兩組,其中44位在本研究中以電腦作答,但在兩周后的正式測驗則以紙筆作答,目的在比較他們在兩場測驗中的表現,以判斷不同的應考方式是否會對評分與作答表現造成影響。為排除前后測使用不同試題帶來可能干擾的變數,本研究安排另12位受測者在兩場測驗中皆使用紙筆作答,目的是比較他們在兩場測驗的表現,以確認本研究(前測)和正式測驗(后測)所使用的題目難易度相當。此外,本研究將這12位受測者的前測手寫作文以電腦重打,制成電腦打字版付印,并將這些具有同樣寫作內容,但以不同方式呈現的答卷隨機分配給同批評分員評閱,以檢視評分員面對不同呈現方式的答卷是否能保持評分一致性。
為確認本研究與正式測驗中所使用的題目難易度是相當,本研究就上述12位受測者在兩場測驗的表現進行一配對樣本T 檢定,結果顯示兩者僅在第二大題的文章字數有顯著差異(p<.05),而第一大題的字數、兩者的平均句長和分數均大致相當。換句話說,兩場測驗的難易度應大致相當(表1)。

表1 分數、作文平均字數與句長比較

(續表)
為檢驗不同形式的答卷是否會影響評分,我們將這12位受測者前測的紙筆作答制成電腦打字版付印,與其原來的手寫下答卷共24份答(手寫和打字各12份),隨機分配給3位評分員評閱,每份答卷皆經其中兩位評分員評分。經比較手寫和打字兩組的得分無顯著差異(p>.05),結果大致相當(表2)。另依每篇作文的兩組得分計算相關性,相關系數達.85、.91;兩者分數均差距0.5級分內,這表示評分應未受到答卷呈現形式的影響。

表2 手寫組和打字組之得分比較

表3 手寫組和打字組之得分相關性分析
本研究中有44位受測者以電腦作答,這些受測者在本研究的兩周后參加正式測驗(以紙筆作答方式進行),因此得以比較他們在前后兩場測驗的表現,以判斷不同的應考方式是否會對其得分與作答表現造成影響。
在得分方面,兩場測驗(電腦、紙筆)的平均得分皆為2.59(p=1.00),相關性分析顯示:無論是分項或整體分數均顯著相關,相關系數介于0.37-0.68,屬中度相關(表4)。

表4 兩場測驗(電腦、紙筆)得分之相關系數
在寫作表現方面,本研究比較兩場測驗(電腦、紙筆)作答的長度(字數)、句構復雜度(句長),并進行配對樣本t檢定。結果顯示兩者在第一大題的作答長度有顯著差異(p<.05),第二大題則相當;而兩者的平均句長相當,差異未達顯著(表5)。
因兩場測驗所使用的題目已獲檢驗難易度相當,又評分員不受手寫或打字的答卷呈現方式影響,綜合上述結果,這44名受測者在電腦、紙筆兩場測驗的表現(含得分、實際作答長度、句長)相當,顯示受測者未因應考方式不同而受影響。

表5 兩場測驗(電腦、紙筆)字數與句長比較
本研究結果顯示,大致上不同的應考方式不影響受測者的得分、文章字數和句子長度,雖然電腦作答的文章(第一大題)長度較紙筆測驗的作答長。這可能是參加“全民英檢”高級寫作測驗者多為成人學習者,他們習慣使用電腦打字從事長篇英文寫作,而非通過手寫的方式。因此,有了電腦的復制粘貼功能,受測者往往會產出篇幅較長的文章。然而根據參與本研究的評分員表示,電腦打字的拼字錯誤比手寫作答更容易發現,而且許多拼字錯誤皆屬打字錯誤。按結果推論,大多數的受測者沒有花時間重新檢閱文章。評分員也表示,盡管他們比較偏向評閱電腦作答的答卷,但實際上除非手寫筆跡過于潦草,否則手寫和打字的答卷并無太大差別。這些看法與前述文獻探討及本研究結果相符。
本研究有兩個主要不足之處:第一、樣本數量偏少。其實目前全民英檢高級寫作測驗每次大約200-300名受測者,本研究樣本數(56)約占20-30%,應不算過少。但考量研究的嚴謹度,樣本數量宜增加。第二、文本分析本次僅做文章表層的分析(字數、句長),未能深入文本分析,例如:用字、組織、錯誤分析等(Chambers 2008)。此外,受測者的作答認知過程(cognitive process)在兩種測驗模式下是否相同?這也是探討測驗理論效度(theory-based validity)的重要課題(Weiret al2007)。
因本研究結果顯示“全民英檢”高級寫作電腦化測驗的結果大致與紙筆測驗的結果相當,兩者并存是可行的,該測驗研究委員會乃議自2010年起試辦電腦化測驗,并由受測者自由選擇報考紙筆或電腦測驗;同時收集更多受測者作答資料,持續進行相關研究,致力確保紙筆、電腦化測驗具有相同的效度、品質。
附錄
GEPT Advanced Writing Test
General Instructions:In this test,you will have an opportunity to demonstrate how well you can extract main ideas from both verbal and non-verbal input,organize these ideas effectively in writing tasks and make clear your own viewpoint on these main ideas.There are two tasks in this test.Each task has a different time limit.You must complete both tasks or your test will not be marked.Detailed instructions will be given to you at the beginning of each task.
Read these instructions carefully and plan ahead so that you can complete all the requirements within the time limit.Insufficient development of any part of either task will result in a lower score for that task.Your performance will be scored according to the following criteria:relevance and adequacy,coherence and organization,lexical use,and grammatical use.
The entire writing test takes 105 minutes.
Task 1
You are going to take part in the GEPT Composition Contest and the winning prize is an NT$S5,000 book voucher.The title of the composition isThe Advantages and Disadvantages of Advertising.Information about this topic is provided in the two articles on the following pages.
·Eirst,read each text to establish the main points the writer is making.You can use the space provided on your test paper to make notes.
·Then,in your own wordsas far as possible,write a composition that summarizes themain ideas of both textsconcerning the pros and cons of advertising.If you use more than three consecutive words from the articles,use quotation marks(“ ”).Plagiarism will result in failure.
·In the final part of the composition,you should make clear your own viewpoint on these main ideas and come to a conclusion.
Your composition must be about250 words.You have60 minutesto complete Task
The Advantages and Disadvantages of Advertising
The Disadvantages of Advertising
Anyone who lives in America is aware of advertising.Reading newspapers and magazines,we see full-page ads urging us to buy clothes,autos,cigarettes,and kitchen appliances.Television and radio programs include commercials;we all have heard the phrases“brought to you by”and“sponsored by”hundreds of times.If we drive,we see road signs or billboards proclaiming the qualities of products or the location of restaurants or motels.If we commute on a transit system,we cannot help but notice the prominent signs displayed on the buses and subways.And in our mail,along with the bills and the letters,come shiny flyers and circulars promoting products and announcing sales.
Advertisements in some form intrude into nearly every waking minute of our lives.We simply cannot get away from their pounding,incessant messages.Because ads permeate radio and television,we find ourselves singing their silly jingles and repeating their“cute”lines.Sellers admonish us to buy through a profusion of techniques:hard sell,soft sell,music,comedy,and appeals to all our emotions and fears.
Some ads areeven potentially harmful.Perplexing or misleading sales pitches may lure unwary buyers into financial trouble.It is always best to remember:“caveat emptor”—let the buyer beware.Many commercials go far beyond the mere transmitting of information when they attempt to transform our values and attitudes.Cigarettes ads,for example,often imply that smoking is a manly or sexy habit.It is neither.
Because of these problems,many people have become extremely critical of commercials,especially those directed at children.As adults,we are often skeptical of what we read or hear in advertisements.Children,because they are not as mature or experienced as we are,cannot judge how reasonable or accurate ads are.If the man on TV says chocolate-covered,sugar-coated wheat toasts are healthful and nutritious,children may very well believe it.Many parents feel sellers take unfair advantage of children's inability to evaluate what they see or hear.
Unfortunately,despite their problems,commercials and ads are an established part of modern life.Providers of goods and services will always try to persuade us to purchase what they are selling.As consumers,we must learn not to believe everything we hear or read,so that we will not be fooled into buying things we don't need.
(Adapted from the article by Dennis Keen)
NOTES
The Advantages of Advertising
Advertising plays an extremely important role in our society.Perhaps most obviously,it keeps us informed about the latest products and services,thus enabling us to buy intelligently.Advertising also has a positive impact on our economy,by providing funding for the media and stimulating competition among goods and service providers.In addition,advertising can be used to promote public welfare,thus exerting a positive social impact on society.
We as consumers benefit greatly from advertising.By reading bank ads,for example,we might decide to transfer our money from our current bank to one offering better rates or more convenient hours.When traveling,we can save hundreds of dollars on transcontinental airfares by comparing the ads in the travel section of the newspaper.
Advertising can also be used to increase awareness in society about particular issues,and in so doing,it becomes a form of education.Anti-drug advertising such as“Just say NO”,and drunk driving campaigns are just two examples of how society uses the advertising industry as a means to promote public welfare.
In addition to the social benefits,advertising also brings huge economic benefits to society.Without advertising,the media—including newspaper,television,radio,etc.—would be much less vigorous.Advertising provides revenue for commercial mediums which would otherwise need to be funded by the actual consumer of these mediums.Eor example,a newspaper would cost up to three times as much money(since advertising provides two-thirds of the revenue of the print media),or all television,bar government funded networks,would be pay-TV(since nearly all revenue for television is currently provided by advertising).The price a consumer may have to pay to receive very cheap,or even free,news and entertainment may include sitting through a 30-second commercial break while watching a television program,or flicking a couple of extra pages in a magazine,to get through the advertisements to the articles.
Although advertising might appear to raise the prices of goods and services,a closer look will show that it actually helps to keep prices low.Advertising stimulates economic activity,with vigorous competition between institutions and higher buying rates of products.This,in turn,leads to lower product costs for the consumer.
(Adapted from article found at:http:∥www.essayworld.com/members/essays/30/4020.shtml)
NOTES
GEPT-Advanced Writing Test
Task 2
A local English newspaper has just printed some worrying statistics on the traffic accidents that occurred in the downtown area in June.The data are shown in Eigures 1 and 2 below.As a citizen,you would like to help improve the situation.
Write to the Opinion section of this local English newspaper:
·Eirstly,summarize what you think are themain findingsfrom the reported data and discuss the possible causes.
·Secondly,make suggestions about what can be done to reduce the number of accidents in the downtown area.Your report must be about250 words.You have45 minutesto complete Task 2.



(續表)

Global Rating Scale of the GEPT Advanced Level Writing Test
Non-ratable compositions
A composition is considered“non-ratable”when
◆the length is shorter than 80 words,or
◆the content is totally irrelevant,or
◆the content has apparently been copied or memorized from other known materials,or
◆the handwriting is completely unintelligible.