梁麗娟
(中國農業大學 人文與發展學院 外語系,北京 100083)
生態學視角下信息技術和語言測試深度融合研究*
梁麗娟
(中國農業大學 人文與發展學院 外語系,北京 100083)
適應性測試是信息技術與教育深度融合在測試領域的體現。基于測試的生態學視角,本文設計實施了適應性語言測試。通過改編現有試題進行題庫建設降低了題庫建設成本;采用以組為單位的跳轉原則減少了對試題的需求數量。實驗證明依據上述方法設計的適應性英語閱讀測試具有良好效度和信度,為今后適應性語言測試在中小型測試中的推廣提供了借鑒。
深度融合;適應性測試;信度;效度
信息技術帶來了教學模式的轉變,學生個人的主動性得到充分體現,教學主從關系翻轉。這種改變促使我國教育信息化從初步應用整合階段向信息技術與教育的深度融合階段轉變[1]。這種轉變在測試領域也日益體現。近年來,測試領域經歷了從紙筆測試到計算機測試的轉變。測試的媒介發生了變化,信息技術與教育的深度融合不僅局限于媒介變化,而是測試的深層改變。
20世紀70年代以來,教育與生態學的結合衍生出了一系列相關研究,如教學生態、課堂生態、學習生態。近年來隨著信息技術的發展又出現網絡學習生態等等。其主要觀點認為,學習環境是由眾多要素構成的有機體,如課程、教學、學習和課堂;學生和教師作為學習環境中的主體與環境相互作用就構成了一個教學生態系統[2]。以教學生態、課堂生態和學習生態等反觀測試,就形成了生態視角下的測試觀。生態視角下的測試屬于教學生態系統的一部分,它應具有這一系統共有的特征即開放、共享、交互等。以測試系統的交互性為例,交互指的是受試與自身之外的任何生物或非生物進行的交互,如受試與考試資源之間的交互。一般來說,測試生態系統中,外部交互較多的受試能更好地利用考試資源從而體現自身的水平。因此在生態視角下的測試中我們應該重視這種交互,使受試能主動選擇,利用適合自己的考試資源。傳統的紙筆測試不能充分實現這一任務。隨著信息技術在教育領域的深入應用,基于計算機的適應性測試(Computer Adaptive Testing,簡稱“CAT”)是一種更理想的選擇。所謂適應性就是測試軟件自動地適應被試的具體情況,在被試作答過程中根據作答的正誤估算出被試的可能水平,并針對這一水平迅速決策,從題庫中調取難度恰當的題目繼續施測。直到施測的題目足夠多,測試信息量達到一定精度為止。它不同于傳統的紙筆測試,是一種非順序、非線性的測試方法,是更加科學化和人性化的測試方法。本文基于測試的生態學視角,以語言測試為例,就適應性測試的設計和實施進行了實證性研究。
第一個適應性語言測試由美國楊百翰大學(Brigham Young University)實施,并且證實了適應性閱讀測試相對于傳統閱讀考試的效率[3]。Laurier在法語適應性考試中采用30詞左右的段落作為閱讀材料,并從考試內容、技術要求和實施等方面進行了可行性論述[4]。Zabaleta研究發現在普通機考和適應性考試相結合的測試中語法和閱讀的得分具有很高的相關性[5]。總體來說,以閱讀為主要內容的適應性語言測試研究仍處于探索階段。盡管一些研究證實了適應性測試的效率,但閱讀測試模式對考試效度和信度的影響研究仍需深入探討。
在國內,相對于計算機在教學中的廣泛應用,計算機在語言測試中的應用還有待深入。目前已實施的適應性語言測試較少。曾用強對比了不同的CAT模式在詞匯測試中的效果[6]。韓少杰和李新濤研究了適應性考試信度和預測效度[7]。張武保進行了自適應性詞匯測試與適應性詞匯測試[8]。在上述實施的適應性測試中,兩項是針對詞匯的研究,兩項是綜合性考試研究,筆者認為適應性語言測試的開發和有效性研究應該在總體研究的基礎上進行分項研究,也就是對不同語言技能(聽說讀寫)的適應性考試進行分別研究。閱讀能力是一項非常重要的語言技能,又是各種考試考察的重點,所以本文就如何設計有效的適應性閱讀測試進行研究。
試題庫的質量決定適應性測試的成敗。試題庫需包含充足的試題數量,試題必須能反映考生某一語言技能的水平[9]。題庫設計的第一個問題是題庫的大小。題庫太小,不能提供足夠的試題實現跳轉;題庫太大會增加題目設計者的負擔。研究發現試題庫的大小為適應性考試固定長度的12倍左右能滿足考試內容和結構上的需求[10]。本測試預計在30分鐘左右,每位考生完成20-28個閱讀題目,由此計算出本試題庫應包含約320道題目。題庫設計的第二個問題是題目質量。一般來說,適應性考試的試題需要經過實測得出難度系數、區分度等相關信息[11],但由于費用等原因實測往往不現實,所以采用改編紙筆測試的試題成為另一種選擇。Young等[12]在設計容量為300-500道題目的題庫時使用了改編自分級閱讀材料的題目,研究發現考試效度不受影響。因此本研究采用改編試題。
本研究中所采用的閱讀題目形式為短語境閱讀,閱讀題目題干平均40字左右,形式如右圖所示。傳統篇章閱讀理解中一篇文章后往往有4-5個問題,如何在適應性考試中確定難度和考點成為難題。而短語境閱讀由于單一的問題和短小的題干,更容易確定題目的難度和考點。由于語境短了,所選的材料類型可以大大增加,多種類型的閱讀材料更能體現讀者的閱讀能力[13]。研究證明短語境閱讀形式能有效測量閱讀者的閱讀水平。此外,我們在對題目進行改編時考察了不同的閱讀技能,如詞義相關、例證、描述結論、邏輯推理、目的、對比、情境判斷和因果關系等。

短語境閱讀題目形式范例圖
根據題目難度我們將題庫中題目劃分為4個等級區域:入門、初級、中級、高級。4個等級之下共包含10個次級別:入門1-2級、初級1-3級、中級1-2級、高級1-3級。測試分為兩部分,第一部分為探查階段。探查階段的起始點位于初級區域。分配學生4道難度不同的題目,如果全部答對就進入中級;如果錯一個則繼續完成初級階段的另一組探測題(題目難度和上一組相當),如全部答對也能進入中級,否則根據剛才8道題的得分給學生分配相應的定級試卷。在初級探測階段成績較好的學生會進入中級探測階段,再根據表現學生可以進入高級階段,或者進入中級的定級階段。
測試第二部分為定級階段。要分配給適合考生水平的題目,因為這樣才能提供關于考生水平的最大信息量。為了滿足這一需求,我們按照難度將試題庫中的題目分成20多個級別的分試卷,每個分試卷都含有12道題,由3組題目組成,每組包含4道題。相鄰的分試卷有8道題是重合的。這樣設計是因為被分配到相鄰分試卷的學生水平差異并非很大,他們之間的能力是有重疊的。根據學生的答題情況判斷他們在10個級別中的位置。
本設計的特點是以組為單位跳轉。比如考生完成探查階段做完初級探查的四道題目后,正確率若為100%,則跳轉到中級第一組;如果正確率低于100%,則繼續做完初級階段第二組題。設計也充分考慮到考試的偶然性。如在第一組探測題中學生出現一個錯誤,我們認為這具有一定的偶然性,因此給學生機會完成第二組探測。如果學生在第二組探測題中表現出色同樣能向上級跳轉。
我們采用實驗的方法,在實驗班進行初測與再測,還對適應性測試成績與期末考試成績進行了相關分析。
我校目前實施分級教學。根據學生入學英語考試成績將學生分為一級班、二級班和三級班。該實驗以熟悉網絡技術的信息與電氣工程學院二級班41人為實驗對象。
本實驗采集的數據為兩次適應性閱讀測試成績、期末考生成績和調查問卷。第一次適應性測試于2014年11月實施,并于12月進行再測。兩次測試前后相隔1個多月,以降低前測對后測的影響。兩次適應性閱讀測試均安排在同一語音室,并在相同的時間段進行,即都是上午8點開始。第一次測試后采用問卷調查學生對考試的態度,問卷為五級量表,按程度強弱打分,5為強,1為弱。受試于2015年1月進行期末考試。考試形式為傳統的紙筆綜合性考試。我們通過SPSS20.0對實驗數據進行了分析。
1.測試信度
為了驗證適應性閱讀測試是否是一種較為理想的測試手段,首先對考試信度進行了驗證。信度是由同一個考試所得出分數的一致性。影響信度的因素分為一般、環境和個人因素[14]。一般因素包括考試指令是否清晰,學生對考試形式是否熟悉;環境因素指環境的舒適度或噪音等因素;個人因素包括考生個人的生理或心理狀態等。問卷數據包含了影響信度的種種因素。在各種相關因素基本穩定的情況下,如果兩次測試成績相關性較高,則說明這一測試具有較高信度。2014年11月第一次適應性閱讀測試后,通過問卷就考試指令、界面等對學生進行了調查,結果如表1所示。

表1 對考試態度的問卷統計(n1=41)
問卷統計結果顯示學生認為考試界面和考試指令的清晰程度是很高的,分別為4.20和4.18。對考試環境和考試當天個人狀態及對鼠標點擊和鍵盤操作的熟練程度評價較高,分別為3.87,3.98和3.64。在這種情況下,分別計算出學生在兩次適應性測試中的成績以及它們的測量標準誤差(如表2所示),然后對學生兩次適應性測試反映的能力值作了皮爾遜相關分析(如表3所示)。

表2 初測與再測成績

表3 初測與再測成績的相關性
兩次考試成績均值分別為5.36和5.98(本研究中適應性閱讀測試的計分原則不是百分制),差異性顯著。因為兩次測驗前后相隔一個多月,測試所采用的題目難度相當。第二次測試平均成績高于第一次測試體現出學生水平的提高,這說明本測試對于學生的進步是較敏感的。
根據表3,本研究中兩次考試的相關系數為0.892。一般來說大型的標準化考試信度要達到0.90。但對于中小規模的低風險測試,信度達到0.892是可以的。
2.校標關聯效度
效度研究在當今語言測試研究中具有非常重要的地位。Bachman認為語言測試專業化和語言測試效度研究是語言測試界現在和未來研究的兩個重點領域[15]。在適應性語言測試中語言測試效度包括內容效度、結構效度、效標關聯效度等。本文關注的是校標關聯效度,指的是測驗分數與外在校標間的符合程度。若兩者相當符合,則表示校標效度高,反之則否。
我們把學生期末考試成績作為外在校標,把適應性閱讀測試成績與期末考試總成績做相關分析,如表4所示。

表4 適應性閱讀測試成績與期末考試成績的相關分析
數據顯示兩種考試在.01水平上顯著相關,相關系數為0.766。期末考試為包含聽力、閱讀、翻譯、寫作等內容的綜合性考試,而本測試為閱讀單項測試,能夠達到0.766的相關性是較理想的。
3.討論
自生態學的思想引入教育領域以來,教育生態日益成為備受關注的領域,并為我們重新審視教育中存在的問題提供了一個全新的視角[16]。生態學視角下的測試觀對測試提出了更高的要求。適應性測試能夠更好地實現考試的交互性,并具有開放性、多人共享的特點,因此構建適應性測試環境成為近年來教育應用領域的研究熱點[17]。
特色一:生態視角下的適應性測試
從生態學的視角看,適應性測試更容易幫助考生構建與考試環境和諧發展的生態系統。學生對考試的反饋問卷顯示,學生認為本次考試難度適當。主要原因是計算機會根據學生的答題情況提供與其水平相適應的題目,這樣不僅能在更短的時間內提供更準確的考試信息,還能降低考生因為遇到高難度題目時產生的負面焦慮,營造積極的考試氛圍。此外,適應性測試還能通過信息技術使考生隱性的問題顯性化,從而促進新資源的生成,調節考生與考試環境的關系。
特色二:通過改編現有試題進行題庫建設
適應性測試的效果很大程度上取決于題庫質量。題庫的建設研制成本較高,因為試題的編纂需要大量經驗豐富的教師來進行,并且需要進行具有一定規模的實測來獲得試題參數,如難度系數和區分度等。在低風險的考試中題庫建設成本的問題可以通過改編現有試題加以克服。本研究根據實測數據將閱讀材料劃分成若干不同的等級。對現有試題進行評估改編從而作為題庫題目來源,可以有效控制題庫建設成本。研究結果表明通過對現有試題進行改編而進行題庫建設的做法是可行的。
特色三:以組為單位的跳轉原則
跳轉原則可以根據測試的不同類型來定義。本研究中采用的是以組為單位的跳轉原則。每組包含四道試題。根據考生答題的總體情況決定下一組題目的難度,這不同于其它適應性測試中以題為單位的跳轉原則。首先,以題為單位跳轉必須要具備龐大的題庫,這在中小型考試中會給設計者造成很大的壓力;其次,以題為單位跳轉對題目難度的劃分要求相當嚴格,一般只有實測題目才能精確計算出相應的難度系數、區分度等指標;再者,以題為單位的跳轉忽略了考試中的偶然性,進而給考試帶來額外的負擔。
測試結果表明上述生態視角下的適應性英語閱讀測試具有良好的信度和效度,說明通過改編現有試題進行題庫建設和采用以組為單位進行跳轉的做法在適應性語言測試的開發中是可行的。
測試經歷從紙筆測試到計算機測試的轉變,這是信息化與教育深度融合在測試領域的趨勢。生態學視角下的適應性測試比傳統考試更科學有效。本文嘗試設計了適應性語言測試,設計通過改編現有試題進行題庫建設降低了題庫建設成本,采用以組為單位的跳轉原則降低了對試題的需求數量。實驗證明依據上述方法設計的適應性英語閱讀測試具有良好效度和信度。計算機輔助的適應性測試代表了未來語言測試發展的方向,應該加快研究的深入和加大研究的規模。
[1] 張小紅,熊秋娥. 論高等教育信息化的十大關系[J]. 中國電化教育,2014, (12):43-48.
[2] 張立新,徐飛飛. 論虛擬課堂的生態屬性及其管理[J]. 中國電化教育,2014, (2):1-6.
[3] Madsen, H. Evaluating a computer-adaptive ESL placement test [J].CALICO Journal, 1987, (2):41-50.
[4] Laurier, M. The development of an adaptive test for placement in French [A].Chalhoub-Deville, M.. Issues in computer adaptive testing of reading proficiency [C]. New York: Cambridge University Press, 1999.124.
[5] Zabaleta, F. Developing a Multimedia, Computer-based Spanish Placement Test [J]. CALICO Journal, 2007, (3):675-692.
[6] 曾用強.個性化自適應性測試探索[J]. 外語教學與研究, 2002,(4):19-23.
[7] 韓少杰,李新濤.基于英語網絡測試系統的自適應測試與常規測試的對比實驗研究[J].外國語言文學, 2006, (4): 250-253.
[8] 張武保. 自適應性測試的實驗研究[J]. 解放軍外國語學院學報,1999, (3): 53-55.
[9] 陳仕品,張劍平.《現代教育技術》精品課程自適應測試系統的設計[J].中國電化教育,2008,(9): 93-97.
[10] He, W. & Reckase, M.D. Item Pool Design for an Operational Variable-Length Computerized Adaptive Test [J]. Educational and Psychological Measurement, 2014,(3):473-494.
[11] Hsu, C.L, Wang, W. C. & Chen, S. Y. Variable-Length Computerized Adaptive Testing Based on Cognitive Diagnosis Models[J]. Applied Psychological Measurement, 2013, (7):563-582.
[12] Young, R., Shermis, M. D, Brutten, S. R., & Perkins, K. From conventional to computer-adaptive testing of ESL reading comprehension [J]. System, 1996, (1):23-40.
[13] 李筱菊. 語言測試科學與藝術[M].長沙: 湖南教育出版社,1997.
[14] Cohen, A. English for academic purposes in Brazil: The use of summary tasks [A]. C. Hill & K. Parry. From testing to assessment: English as an inter national language[C].London:Longman,1994.174-204.
[15] 陳慧麟. 基于紙筆的語言測試和基于計算機的語言測試之間效度對等性驗證模式初探[J].外語界,2009,(3):73-80.
[16] 彭偉國,張文蘭,毛仁興.影響信息技術與課程深層整合的生態學歸因分析[J]. 中國電化教育,2010,(2):92-95.
[17]陳仕品,張劍平. 適應性學習支持系統的學生模型研究[J]. 中國電化教育, 2010, (5): 112-117.
梁麗娟:講師,博士,研究方向為計算機輔助英語教學(bonnie_119@sina.com)。
2015年1月11日
責任編輯:趙興龍
An Ecological Perspective of Integration between IT and Language Testing
Liang Lijuan
(English Department, College of Humanity and Development, Agricultural University, Beijing 100083)
In-depth integration of IT and language testing is embodied by the application of adaptive test. Based on ecological perspective, this paper designs an adaptive English reading test. Firstly, the method of adapting existing material is proposed in order to cut the cost of item banking. Secondly, the design of jumping on the basis of a unit reduces the number of items needed in item bank. Empirical study shows that the English reading test with the above designing features reveals a sound validity and reliability.
In-depth Integration; Adaptive Reading Test; Reliability; Validity
G434
A
1006—9860(2015)05—0095—04
* 本文系北京市教委青年英才項目 “計算機化適應性英語閱讀測試的設計及有效性驗證”(項目編號:YETP0333)的部分研究成果。