基于ＩＲＴ的大學英語詞匯在線自適應測試系統的設計

2008-12-31 00:00:00趙傳海吳敏葉艷

現代教育技術 2008年12期

【摘要】如何科學有效地測量學習者的詞匯量，以及測量其對詞匯的掌握程度是當前語言研究者十分關注的問題。文章根據詞匯的廣度、深度之間的相關性，提出了在廣度測試的基礎上進行深度測試的思想，并將項目反應理論的測試方法、設計思想，應用到實際測試系統中，最終設計實現了基于項目反應理論的大學英語四、六級在線自適應單詞測試系統。

【關鍵詞】詞匯測試；廣度測試；深度測試；IRT；單詞庫

【中圖分類號】G434 【文獻標識碼】B 【論文編號】1009—8097 (2008) 12—0087—04

一引言

語音、詞匯和語法是語言的三大要素。學習語言的最終目的是為了交際，詞匯是語言交際的核心。對于ESL（English As A Second Language）學習者，詞匯是外語學習的主要瓶頸與最大障礙。在國內，大學英語考試（College English Test）是教育部主管的一項全國性的教學考試，其中四級考試（CET-4）自從1987年，六級（CET-6）自從1989年在我國實行以來，其目的是在于準確地衡量我國在校大學生的英語綜合應用能力，為實現大學英語課程教學目標發揮積極作用。其對學習者詞匯量的要求又是針對大學英語教學大綱而制定，大致為4500個單詞700個詞組（CET-4）和5500個單詞與1200個詞組（CET-6），詞匯量水平以及掌握程度在很大程度是直接影響四、六級成績的首要因素。因此，如何科學有效的測量學習者的詞匯量，以及對詞匯的掌握程度的研究成為語言研究者在教學研究活動中十分關注的問題。

為了幫助學習者進行詞匯的記憶與學習，以便有效地進行詞匯測試，作者構建了基于IRT的大學英語詞匯在線自適應測試系統，其中的自適應算法設計是該系統的核心問題。本文首先論述詞匯廣度和深度的內涵及其測試；其次引入項目反應理論（Item Response Theory，簡稱為IRT）以及詞匯知識衡量等級（Vocabulary Knowledge Scale，簡稱為VKS）來進行單詞的廣度與深度測試；再次詳細介紹了詞匯測試系統的設計實現；最后提出了本系統的一些不足以及今后的研究方向。

二詞匯廣度與深度及其測試

詞匯測試分為廣度測試（Vocabulary Breadth Measures）和深度測試（Assessment of The Depth of Vocabulary Knowledge）。廣度測試是估計語言使用者的詞匯總量，深度測試是了解語言使用者對詞匯知識掌握的程度。詞匯量以及詞匯深度知識均可有效預測語言綜合能力（包含聽力、閱讀、完型、寫作，下同），其中詞匯深度知識對語言綜合能力的預測能力強于詞匯廣度知識，特別體現在四、六級的完型填空與寫作的預測中，而總體來說詞匯廣度與深度呈高度正相關[1]。

詞匯量測試，一般稱為廣度測試，其重要性以及與語言綜合能力關系的研究成果頗多，國外具有代表性的是詞匯量與閱讀（Koda 1989；Laufer 1989，1992；Laufer Nation 1996；Qian 1999，2002）[2-7]及語言綜合能力（Meara Jones 1988）[8]呈顯著正相關關系。國內具有代表性的有詞匯量與語言綜合能力成高度正相關關系（桂詩春 1983，1985）[9-10]。當前常用單詞量測試的方法有以下幾種：一是概率統計法。即一定樣本中隨機抽取單詞，選擇其正確的意思，根據其抽樣單詞答對百分比來做樣本總量的推斷；二是詞表是否測試法。即認識為是，不認識為否；三是Nation（1983，1990）[11-12]的分級詞匯測試法等。

學習者對詞匯知識（深度）的習得，是一個由不同層面和水平組成的連續體，而不是一個“習得”或“未習得”、“知道”或“不知道”的簡單二分的過程。詞匯深度有以下的分類方法：從多個維度（Dimensional Approach）界定，主要代表人物有Cronbach， Richards， Nation， Qian[13-15][6]；從發展的角度（Developmental Approach）出發，主要代表人物有Dale，PARIBAKHT Wesche[16-17]；主要的測試工具有新西蘭維多利亞大學瑞德John Read設計的詞匯聯想測試（Word Associate Test）和PARIBAKHT Wesche的詞匯知識衡量等級（VKS）等。

三項目反應理論（IRT）與詞匯知識衡量等級（VKS）

一直以來，學生為了備考大學英語四、六級考試所做的第一件事往往是背單詞。大多數學生僅是單純的背誦單詞的拼寫，對詞組的記憶，而忽略了如何將單詞與語法、句法聯系起來運用。綜合作者所做的文獻調研得知，如何有效科學地進行單詞量評估與施測，以及對一定單詞量（廣度）的基礎上再進行“質”（深度）的測試目前還沒有一個行之有效的方法。

上文提及的幾種詞匯量測試方法，即詞匯廣度測試，均不能體現學習者的能力特征，從而很難保證學習者的測試效度。其次測試中的施行效率也不高，即抽取的樣本量以及如何抽取等。因此本系統采用當前測試中普遍使用的項目反應理論（IRT）[18]來進行單詞量自適應測試。由于國內外單詞量測試題型主要有選擇題與翻譯，而前者應用更廣，且具有較高的信度、效度（婁喜祥2005:2）[19]，故而本文的單詞量測試也采用選擇題。然后在此基礎上運用PARIBAKHT Wesche的VKS工具再進行深度測試。

項目反應理論（IRT）最大優越性在于測試系統可以主動適應受測者狀況的“因人施測”問題。試題參數的估計獨立于被試樣本，而能力參數的估計又獨立于試題樣本。也就是說，項目反應理論中的這些參數具有不變性，它們不隨被試的樣本而變化，從而提高了測試效率和測試效度，以及避免了測試過程中被測能力與題目難度的密切關系。理論中最常用的是拉希模型、雙參數和三參數邏輯斯蒂（Logistics）模型，運用極大似然法或貝葉斯方法來估計項目的參數難度—區分度和偽隨機參數。本文系統采用了三參數邏輯斯蒂模型以及極大似然法，其中三參數邏輯斯蒂模型的函數表達式如下：

上式中，表示能力水平為的人答對題目i的概率；

：表示受測者的能力水平；

D：表示量表因子，D=1.702

e：表示自然對數的底，e=2.71828

ai：表示題目i的區分度；

bi：表示題目i的難度；

ci：表示題目i的猜測度；

計算機化自適應測試（Computerized Adaptive Testing，簡稱為CAT）是建構在項目反應理論（IRT）基礎上的，從題庫的建設、參數的估計到試題的選擇再到最后評分，都是以此為指導進行的。由于理論分析和實踐經驗都證明，只有當題目難度跟受測者水平相適應時，題目所提供的信息量才最大，受測者的積極性最高，誤差最小，測試效度才會最高。CAT的核心思想是：系統會根據答題情況不斷計算受測者的能力值及信息量，并實時地根據這些參數調整出題策略，選取與受測者能力相對應的試題，最終給受測者的能力與特質一個恰當的評價。

下面介紹下本文采用的單詞深度測試算法，即廣泛應用的PARIBAKHT Wesche的VKS工具，該工具使用五個等級將自述與所表現的語言能力結合起來以得出研究對象對各個詞的掌握程度，該表包括五項，每項意義如下表1：

四詞匯測試系統的設計

本系統是在大學英語四、六級單詞庫的基礎上，首先應用IRT理論進行大學英語詞匯的廣度測試，然后使用IRT工具來進行詞匯深度測試，并最終反饋給受測者關于詞匯量與詞匯掌握程度的度量結果。

其中單詞量測試的具體流程如下，先根據受測者的能力初值從單詞庫中選取一個單詞實施測試，如果受測者答對了就選取一個較難的單詞再施測；如果受測者答錯了就選取一個相對簡單的單詞再施測；不斷重復測驗過程，一直到受測者的能力值被精確估計出來為止。

本系統對于受測者有三種方式確定能力初始值。其一，選擇歷史記錄，系統會自動選取該受測者最近的一次測試記錄最終能力值作為初始值施測；其二，選擇自定義初始值，系統將根據受測者自定義的初始能力值選取單詞；其三，選擇隨機單詞測試，這樣系統會隨機抽取一組單詞，根據受測者的答題結果利用極大似然法初步估計其特質水平，然后繼續施測。這里要注意的是，如果抽取的一組單詞全對或者全錯，會再次抽取一組施測，如果仍然是全對或全錯，則說明題庫中的試題對于受測者而言太難或太易，無法測出其真實水平，此時則終止施測，并向受測者反饋預測結果。在施測過程中，系統會根據受測者的答題結果動態評測其能力值，然后動態調整與之對應的單詞難易程度。對于如何終止施測，也有幾種方法，如題目數控制、測驗估計精度、或者強制退出等。考慮到測量的精度需求以及效率、避免隨機猜測等方面，本系統采用了受測者最后3次的估算能力值誤差，如果此3次誤差值皆小于指定誤差范圍內，則可以終止施測。其中選擇隨機單詞測試的具體流程圖和使用本系統單詞量測試生成的能力值曲線圖分別參見圖1和圖2所示：

然后，對于能力值的解釋，本系統采用了極大似然法估算能力值，其近似正態分布的，從而對能力終值通過一個線性轉換，其分布仍是正態，并得到其置信區間值，對應于本系統即是單詞量的范圍。最后按照單詞的頻率高低內選取前1%的單詞再進行VHS深度測試，可進一步測試受測者單詞的掌握程度，并反饋給受測者。整個測試流程如圖3所示：

本系統的單詞庫建立是一個關鍵，要確定每個單詞的難度、區分度、猜測度等參數，而其中難度又尤為重要。通常做法可以根據大綱要求的單詞，然后按歷年四、六級考試的詞頻劃分，再與專家審核相結合后確定難度值等，或者由樣本測試后統計分析確認參數值，本系統綜合此兩種方法，實現參數動態維護，更好的實現單詞庫的本身自適應，有效改進結果精度與測試效度。

五結束語

本文就當前詞匯測試提出了一個新的思路與嘗試，即在自適應測試單詞量的基礎上再進行單詞的深度測試，讓學習者更方便有效地進行自身單詞量的評估，進行下一階段的復習。不僅可以做到“因人施測”，大幅提高測試效率，還可以反饋給受測者對于不同單詞的掌握程度，更好的應用于大學英語教學改革。目前系統尚有許多不足，比如沒有引入多值法自適應測試、受測者答題時間對于能力值的影響、以及與常用的概率統計等單詞量測試方法的比較分析，此外，單詞廣度與深度對于低級、中級、高級詞匯量的學習者所體現的不同相關度的介入等等，這些都值得我們的進一步深入研究與探討。

參考文獻

[1] 李曉.詞匯量、詞匯深度知識與語言綜合能力關系研究[J].外語教學與研究，2007，39(5):424-450.

[2] Koda， K.The effects of transferring vocabulary knowledge on the development of L2 reading proficiency [J].Foreign Language Annals，1989，22(4):529-540.

[3] Laufer， B. A factor of difficulty in vocabulary learning:Deceptive transparency [J].AILA Review，1989，6(1):10-20.

[4] Laufer， B.How much is necessary for reading comprehension? [A] In H. Bejoint P.Arnaud(eds.).Vocabulary and Applied Linguistics [C].London:MacMillan，1992:126-132.

[5] Laufer， B. P.Nation.Vocabulary size and use:Lexical richness in L2 written production [J].Applied Linguistics，1996，16(3):307-322.

[6] Qian D D.Assessing the Roles of Depth and Breadth of Vocabulary Knowledge in Reading Comprehension [J].The Canadian Modern Language Review，1999，56(2):282-307.

[7] Qian D D.Investigating the Relationship between Vocabulary Knowledge and Academic Reading Performance:An Assessment Perspective[J].Language Learning，2002，(52):513-536.

[8] Meara，P. G.Jones.Vocabulary size as a placement indicator [A].In P.Grunwell (ed.).Applied Linguistics in Society [C].London:Center for Information on Language Teaching and Research，1998:80-87.

[9] 桂詩春(編).中國學生英語詞匯量調查，公共外語教學研究文集 [C].上海:上海外語教育出版社，1983.

[10] 桂詩春.我國英語專業學生詞匯量的調查與分析[J].現代外語，1985，(1):1-6.

[11] Nation I S P.Testing and teaching vocabulary [J].Guideline，1983，5(1):12-25.

[12] Nation I S P.Teaching and Learning Vocabulary [M]. Victoria University of Wellington:English Language Institute，1990.

[13] Cronbach L J.An Analysis of Techniques for Diagnostic Vocabulary Testing [J].Journal of Educational Research，1942，(36):206-217.

[14] Richards J.The role of vocabulary [J].TESOL Quarterly，1976，(10):77-89.

[15] Nation I S P.Learning Vocabulary in another language [M]. Cambridge，England:Cambridge University Press，2001.

[16] Dale E.Vocabulary Measurement:Techniques and Major Findings [J] .Elementary English，1965，(42):895-907.

[17] PARIBAKHT T S，W ESCHE M B.The relationship between reading comprehension and second language development in a comprehension-based ESL program [J].TESL Canada Journal，1993，(11):9-29.

[18] Howard Wainer Robert J. Mislevy.Item Response Theory Item Calibration， and Proficiency Estimation.Computerized Adaptive Testing:A Primer Second Edition，2000，4.

[19] 婁喜祥.兩種常用的外語詞匯量測試方式的信度及效度對比[J].外語與翻譯，2005，(2):220-241.

[20] 劉紹龍.論二語詞匯深度習得及發展特征[J].外語教學與研究，2001，(6):436-441.

[21] Lawrence M. Rudner. An On-line Interactive Computer Adaptive Testing Tutorial[Z].< http://EdRes.org/Scripts/cat，1998，11.>

現代教育技術2008年12期

現代教育技術的其它文章: 打造職業特色鮮明的國家級精品課程; 高校信息化教學環境的建設與探索; 計算機基礎課程的任務驅動的教學設計與實踐; 活動革新信息技術教材; 《信息技術》課程中的認知技能該如何培養？; 兩級式中學物理虛擬實驗模式的探索與實踐