999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機自適應性語言測試的智能選題方法研究*

2014-07-17 10:17:51柴省三
中國教育信息化·基礎教育 2014年4期
關鍵詞:教育信息化

柴省三

摘 要:隨著計算機信息技術的發展和多媒體網絡教學設備的日益普及,基于項目反應理論(IRT)的計算機自適應性(CAT)語言測試由于在測驗信度、測驗效率和考試安全性等方面比傳統的紙筆測驗具有更大的優勢,因此針對計算機自適應性考試的理論問題和實踐問題正在成為教育考試信息化研究的熱點之一。文章在對自適應性考試原理進行考察的基礎上,專門就計算機自適應性語言測試,特別是對國內外計算機自適應性閱讀理解考試過程中遇到的智能選題單位和方法問題進行了探討,并對具體的解決途徑進行了研究。

關鍵詞:教育信息化;計算機自適應性考試;考試信息化;語言測試

中圖分類號:GTP393文獻標志碼:A 文章編號:1673-8454(2014)08-0081-05

當代計算機科學的日益普及和信息技術及網絡技術的高速發展,不僅對語言教學模式和語言教學手段的完善發揮了重要作用,而且還全面提升了教育信息化和考試信息化的水平。進入本世紀以后,以項目反應理論(Item Response Theory,簡稱IRT)為基礎的計算機自適應性考試模式(Computer-Adaptive Testing,簡稱CAT),在國內外語言測試領域的應用已經由理論探索階段進入了實踐探索階段。2000年,美國ETS(Educational Testing Service)即開始對計算機自適應性TOEFL考試的可行性問題進行了實驗研究,并于2005年正式推出了計算機網絡版的TOEFL考試(internet-Based TOEFL,簡稱TOEFL iBT)。與此同時,美國大學入學考試(SAT)、研究生入學資格考試(GRE)以及全美建筑師資格考試等也相繼嘗試將傳統的紙筆測試方式向計算機自適應性測試方式過渡(Sawaki et al.,2008)。

從上個世紀末開始,國內也陸續對計算機自適應性考試進行了許多探索。漆書青、戴海崎(1986)、谷思義等(1990)分別對CAT測驗的模式和在英語水平測驗中的應用問題進行了初步探索;謝小慶(2008)教授對中國漢語水平考試(HSK)自適應性測試的可行性問題進行了實驗,并開發出了國內第一個計算機自適應性HSK模擬考試系統;2008年,全國大學英語四、六級考試也對自適應性測驗方式進行了嘗試。綜觀上述研究成果,我們不難發現,計算機自適應性語言測試在考試個性化、測驗信度和測驗效率等方面確實具有紙筆考試無法比擬的優勢。不過,上述研究主要是針對以分離式(discrete)、客觀性多項選擇題為主要測驗方式所進行的探索和研究,不少研究成果對于傳統的基于共同刺激材料(stimulus)的閱讀理解測驗項目的CAT考試卻鮮有涉及。因此,本文將在對CAT測驗原理和測試邏輯過程進行考察的基礎上,專門就CAT在閱讀理解測驗中的計算機智能選題方法問題進行研究。

一、計算機自適應性考試的原理

計算機考試和計算機自適應性考試是最近幾年國內外語言測試和教育測量界研究的熱點問題之一,由于兩種測試方式所依托的信息技術背景完全相同,而且與傳統的紙筆測驗方式存在顯著的差異,所以兩者經常被誤解,因此我們有必要首先澄清兩者之間的基本關系。

所謂計算機考試,顧名思義,即被試通過計算機終端完成測試的過程,也稱之為基于計算機的考試(Computer-Based Testing,簡稱CBT)。而計算機自適應性考試的標準英文名稱則是“Computer-Adaptive Testing”或“Computerized Adaptive Testing”,簡稱為CAT。CBT和CAT之間存在很多相同的地方,但也存在本質的區別(見圖1)。

首先,CBT和CAT考試都是以計算機科學和網絡技術為依托,測驗的內容都是通過網絡化傳遞和呈現,考生全部在計算機上完成測試的過程。與傳統的紙筆測試相比,CBT和CAT的考試效率和評分效率更高,答題的方式更加便捷(熊春明,吳瑞,2006)。

其次,CBT和CAT也存在若干不同的地方,其中最本質的區別在于兩者的測量理論基礎完全不同。CBT考試的理論基礎是經典測量理論(Classical Testing Theory,簡稱CTT),而CAT考試的理論基礎則是現代項目反應理論。所以,基于計算機信息科學和網絡技術,不僅可以開發和實施CBT考試,也可以實施CAT考試,甚至還可以進行CBT和CAT混合型考試模式的設計,即半適應性測驗,因此,兩者的差異不是體現在信息技術手段方面,而是測量理論和計算機施測時的計算模型方面。

在CBT考試中,所有的考生,無論其語言水平差異有多大,都必須在相同的時間內完成由相同題目構成的定長測驗。由于考生的語言水平和測驗題目的難度指標一般符合正態分布(見圖2),因此,難度較低的部分題目,比如N1和N2部分的題目對于考生團體中語言水平較高的E組和F組考生而言,由于題目的難度水平已遠低于其語言水平,所以考生在回答這部分題目時根本無法獲得有效的分數差異(ceiling effect)。同樣,對于語言水平較低的A組和B組考生而言,試卷中較難的N5和N6部分題目的難度則太難,考生在回答這部分試題時就會產生地板效應(floor effects),即考生的分數普遍較低,考生對這部分測驗題目的回答幾乎無法提供任何測量信息。另外,由于受CTT測量理論的嚴格平行測驗假設的限制,在CBT考試中,考生答對任何一個題目所獲得的分數都相同,即答對相同題目數量的考生被認為具有相同的語言能力。事實,考生答對題目的難度不同,其語言水平也必然存在本質的區別。

基于IRT理論的CAT考試則可以克服CBT考試上述之不足。在CAT考試中,考生的語言水平不是單純地以定長測驗的總分來表示的,因為每個測驗題目的難度、區分度和猜測度不同(b,a,c參數不同),所以不同能力水平(θ)的考生答對每個測驗題目的概率值也就不同,并且概率值可以用下列公式進行估計。

P(θ)=C+(1-c)

其中,Pi(θ)表示具備能力水平θ的被試在題目參數為ai、bi和ci的題目上正確回答的概率。同一個測驗項目,不同能力水平的考生正確回答的概率不同,相同能力水平的考生回答ai、bi和ci參數不同的題目的概率也不相同。由于在IRT中題目的難度參數不依賴于被試樣本,所以,我們就可以借助計算機系統對被試的能力和項目參數分別進行估計,同時將若干題目進行參數估計后建立題庫(item bank)和進行等值處理。參數完備的測驗題庫是CAT考試設計的必要條件之一,因為CAT考試的主要優點就是“量體裁衣”式的考試,只有具備數量較大、參數完備的題庫后才能借助計算機技術參照被試的不同水平進行隨機選擇題目,以保證每個考生回答的測驗題目的難度與其能力水平最接近,從而不必回答那些難度水平明顯高于或低于其語言水平的題目,從而既提高了測驗的效率,也確保了測驗題目對不同被試水平的測量可以提供最大信息函數值(item information)。

二、CAT測試的基本過程

計算機自適應性考試的實施必須滿足三個基本條件:一是事先必須建立一個容量較大的題庫,并對每個測驗題目進行參數估計和參數量表化處理(scaling),以保證題庫具備適應測量不同語言水平被試的足夠題量。二是成熟的計算機技術和網絡信息技術的支持。三是采用優化的計算方法和操作程序,保證考試過程中的即時能力估計和選題策略。目前,計算機科學和網絡技術的發展已經足以滿足CAT考試的實施條件(巫華芳,2011),因此,決定CAT考試可行性的關鍵因素是題庫建設、題庫維護和能力估計的優化算法以及選題策略。根據國內外計算機自適應性考試的研究成果,CAT語言測試的基本流程包括初測、實測和結果處理三個邏輯過程(參見圖3)。

1.初測階段(piloting)

CAT考試的精髓就是針對不同水平的考生提供不同難度的測驗題目,因此初測階段主要是對被試的語言水平進行初步的估計,以便判斷考生在正式考試階段首先作答的題目難度。在初測階段,計算機CAT系統首先從題庫中隨機抽取少量(5-10個)的中等難度的題目讓被試作答,同時計算機系統通過期望能力法(EAP)或最大似然估計法(MLE)對被試的水平進行在線(on-line)估計,從而判斷正式考試階段對每一個被試第一次呈現的題目難度。初測階段的操作機制與眼科大夫根據國際標準視力表檢查學生的裸眼視力時第一次選擇辨別符號的方法一樣。檢查者首先讓被試辨別幾個代表中等視力的符號“E”,然后根據學生反應的正確情況再決定繼續讓被試辨別的視力符號的級別,這樣不斷循環,逐步逼近學生的真實視力水平后即可終止檢查過程,從而可以在最短的時間內準確地判斷被試的視力水平。

2.實測階段(formal administration)

CAT考試的實測階段是考試的核心階段。根據初測階段的結果,計算機從題庫中隨機選擇并呈現一個與被試初測水平最匹配的題目讓被試回答,回答結束后,系統馬上根據回答的結果判斷下一個應該呈現的題目難度,并計算測驗的信息函數值是否達到了終止測驗的標準。測驗的信息函數值(information function)是反映測量準確性的關鍵指標,它是測驗項目信息函數值的總和,其具體估計公式如下:

1(θ)=

其中,P1i(θ)是Pi(θ)的一階導數,Qi(θ)=1- Pi(θ),據此,我們可以得出滿足信息函數值最大化的項目與能力值之間存在如下關系:

θ=b+loge

當Ci=0時,在能力量表的bi點上,題目i提供的信息量最大,即當被試的語言能力水平與項目的難度值相當時,項目對被試的測量準確性最高。所以,在選擇下一個測驗題目時,如果被試答對了項目I(j),并且測驗的信息函數值I(θ)還沒有達到終止測驗的標準,那么系統就會繼續給被試隨機提供一個難度更高(b值更大一點)的項目I(j+1);如果被試答錯了項目I(j),系統則會為被試隨機提供一個難度更低的項目I(j+1),并繼續計算被試的反應結果和測驗信息函數值,如此不斷循環,直到滿足結束標準(達到預先設置的信度要求)后,實測階段即告結束。

3.處理結果(score transformation and report)

CAT考試的最后階段是在測驗滿足終止(end-up)條件后,首先對每個考生的能力估計值進行計算,然后進行分數轉換,并給每個考生報告一個便于理解的標準化測驗分數(standardized score)和測量的標準誤(信度值),最后宣布考試結束。

三、CAT在閱讀測驗中的智能選題策略問題

閱讀理解能力是一個人語言水平高低的重要標志,因此,國內外幾乎所有的外語測試或第二語言測試都將閱讀理解能力的測量作為考試的重要組成部分,而且基本上都是采用經典的篇章閱讀測驗方式對被試的閱讀水平進行考查,即命題者首先選擇若干適當長度的閱讀材料(passages),然后針對每篇閱讀材料命制適當數量的多項選擇題讓考生回答,從而通過考生對測驗題目的回答情況推斷其閱讀理解水平的高低。

這種經典的測量方式可以比較準確、全面地評價考生的綜合閱讀理解能力,具有較高的構想效度(construct validity ),因此在未來一個相當長的時間內,教育測量領域還無法找到其他替代的測量方式。不過,CAT考試中的即時能力估計和選題策略基本上都是以二分記分(dichotomous)模式的孤立測驗項目為基礎的,因此,在CAT測驗方式中,就必然會面對這樣一個特殊的困境:基于同一篇閱讀材料命制的題束內測驗項目之間的難度并不相同,如果僅以題目的難度參數作為標準選擇題目時,不同能力水平的考生必然需要回答不同的測驗項目,同時還必須讓考生閱讀相同的閱讀材料,否則考生就無法對測驗的題目做出回答。然而,考生對同一個題束內不同題目的回答,并不能完全反映考生對閱讀材料的整體理解水平。另外,如果兩個考生分別正確回答了一個難度指數相同、但屬于不同文章的題目時,兩者的閱讀能力也不具有可比性。

所以,為了解決上述測量悖論,在以CAT方式對被試的閱讀能力進行測量時,必須以整篇閱讀材料為單位,而不是以其中的題目參數值為標準進行題目的適應性選擇,否則在考試的可行性和能力的估計方面就會產生邏輯矛盾。目前,國外在實施計算機自適應性語言測試時,主要采用三種方法解決閱讀測試的智能選題問題:一是計算機考試和適應性考試的混合設計方式;二是篇章難度系數控制法;三是借助題組反應理論(TRT)的固定路徑法(fixed branching routine)嘗試解決上述問題,不過該方法目前還不能在CAT中進行實際應用。

1.混合設計模式

在絕大多數語言測試中,為了保證測驗的內容效度和避免測驗方法引起的構想無關變異(construct-irrelevant variance),測驗題目主要以客觀性測驗方式為主。所以只有在段落聽力理解和閱讀理解考試部分不得不采用題束方式。為了避免產生CAT考試中的上述選題陷阱,所以不少考試采用“CAT+CBT”混合設計的方式進行施測。在考試開始階段,首先對考生進行基于CBT的閱讀理解定長測驗,然后再進行其他部分客觀題目的CAT測試。這樣,所有的考生必須閱讀相同的閱讀材料并回答相同的題目,計算機根據每個題目的參數,估計考生的能力和信息函數值。閱讀理解測試結束后,再按照嚴格的CAT模式繼續完成其它部分的測驗。這樣一方面可以充分發揮CAT的優勢,同時又可以避免閱讀測試中的題目選擇問題。目前,“CBT+CAT”混合測量模式是國際語言測試的主流模式之一,其優點是效率高、可行性強,但缺點是兩種測量模式的考試結果必須進行復雜的分數合成處理(Chalhoub-Deville,1999;Yang,2011)。

2.篇章難度系數控制模式

篇章難度系數控制模式的CAT考試理論基礎源自美國對英語閱讀材料的易讀度(readability)研究。1948年美國哈佛大學的語言學家和心理學家G. K.Zipf在對大樣本語料庫(corpus)進行統計研究和變量分析的基礎上,提出了書面語言表達中的最省力原則,即:任何作者在用自然語言寫作時,都會潛意識地在不違反語言篇章組織原則的前提下,使用盡量簡單的詞匯和簡單的句法表達期望表達的意思,這也是后來被稱之為齊普夫定律(Zipfs law)的精髓。齊普夫定律中的詞頻和句子復雜度是英語閱讀材料易讀度研究的基礎。1995年,Stenner在齊普夫定律的基礎上提出了藍思文本難度計算公式(text difficulty in Lexile),并將其用于英語閱讀材料的難度估計(Rover,2001)。

Lexile difficulty=582-386*mean(ln(WF))+1768*ln(mean(SL))

該公式的基本含義是:文章的難度與文章中詞頻(WF)對數的平均值和平均句長(SL)(平均每個句子中的詞匯數量)密切相關。詞頻越低、平均句長越長,文章的難度越高,即藍思值越大,反之藍思值越小。為了保證CAT語言測試中的閱讀理解文章的選擇具有理想的適應性,在建立題庫時,不僅要根據IRT模型對題目的參數進行估計,而且還要對每篇文章的難度Lexile值和相應的題目參數進行計算和標注,從而在CAT考試的選題中根據考生的不同閱讀水平,自動從題庫中選擇滿足相應Lexile值的閱讀材料。篇章難度系數控制模式的CAT閱讀選題和測試過程包括兩個階段,分別是初測和正式施測階段(參見圖4)。

在初測階段,CAT系統以題庫中所有文章的平均難度值為基礎,隨機選擇一篇文章對所有的考生進行施測,并根據考生對文章的整體反應情況,以測驗項目為單位即時估計考生的能力值。然后根據考生能力值的不同,再分別呈現較難或較容易的整篇文章而不是單個的測驗項目讓考生繼續閱讀。

正式考試階段,可以根據實際需要設計不同的測量階段。在初測階段閱讀水平較低的考生將在第二階段閱讀若干篇難度較低的文章,而初測階段閱讀水平較高的考生則在第二階段閱讀若干篇難度較高的文章。在考生回答完每篇文章的所有題目后,CAT系統馬上估計每個考生的測驗信息函數值,如果達到終止條件,考生的閱讀測試即告結束,反之,考生將繼續按上述步驟進入下一個測量階段,直到滿足終止條件。在考生完成閱讀測驗以后,CAT系統將分別估計考生在閱讀理解測驗部分的能力值,為考生提供最終的測驗總分和分測驗考試分數。

篇章難度系數控制模式的CAT閱讀理解考試,是一個在充分考慮閱讀材料難度基礎上的智能選題方案。這種測試方法,不是簡單地以測驗項目的難度值為選題策略,而是充分考慮到文章本身的難度變量對文章和題目難度的影響因素,因而從理論上講更符合語言學的客觀事實。在具體的測量實踐中,我們還可以根據測量精度的要求,將題庫中所有的閱讀材料按照藍思值的大小進行分層組織,從而構造出更多的智能選題路徑(Fulcher,2005),使CAT閱讀理解測驗的適應性更強,測量的信度和效度更高。

四、結束語

計算機自適應性語言測試,可以提供個性化測量模式并確保測量具有更高的信度與效度,因而CAT考試是未來語言測試和教育測量發展的必然趨勢。不過,由于分離式測驗題目在考查學生的綜合語言能力方面存在諸多不足,盡管采用綜合性、整體性測驗任務對考生語言能力進行評價的社會需求日益迫切,然而僅靠傳統的CAT選題策略已經無法滿足對閱讀理解測驗的考試要求,因而這在相當大的程度上限制了CAT考試模式的推廣和普及。所以,為了充分發揮信息技術在語言測試中的作用,我們必須在對測驗內容進行深入分析的基礎上,采用科學的指標體系和靈活的選題方法才能滿足對考生語言水平的自適應性測量。當代計算機科學和多媒體技術與項目反應理論的有機結合為CAT測量方法的實現奠定了基礎,同時針對CAT考試中各種可行性問題的探索,特別是對閱讀和聽力測驗中選題方式的探索,也對語言測試研究人員和計算機科學設計人員提出了更高的技術要求。在多級計分IRT模型和題組反應理論(TRT)在計算機自適應性考試的實踐中取得實質性進展以前,閱讀理解測驗的智能選題策略問題仍將是計算機自適應性語言測試普及中必須面對的嚴峻挑戰。

參考文獻:

[1]谷思義,漆書青,賴民.中學英語水平計算機自適應測試系統的研制報告[J].外語電化教學,1990(3).

[2]巫華芳.計算機化自適應測驗系統的設計與實現[J].科技廣場,2011(1):111-113.

[3]熊春明,吳瑞.紙筆測驗和計算機自適應測驗的比較研究[J].計算機與現代化,2006(9):28-35.

[4]漆書青,戴海崎.項目反應理論及其應用研究[M].南昌:江西高校出版社,1992.

[5]謝小慶.網上模擬HSK考試系統和練習系統[DB/OL]. http://blog.sina.com.cn/s/blog_4cce637301008165.html.

[6]Chalhoub-Deville, M. Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge: Cambridge University Press, 1999.

[7]Fulcher, G. Interface design in computer-based language testing[J].Language Testing,2005(4): 384-408.

[8]Rover, C. Web-based language testing Language[J].Learning & Technology,2001 (2): 84–94.

[9]Sawaki,Y.,Stricker,L.,& Oranje,A. Factor structure of the TOEFL Internet-based Test (iBT): Exploration in a field trial sample [R]. Educational Testing Service. TOEFL Research Report: 08-09. Revised November 2, 2008, from Http: //www.ets.org/Media Research/pdf/RR-08-09.pdf.

[10]Yang, M. Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011(3):10-11.

(編輯:魯利瑞)

猜你喜歡
教育信息化
教育信息化及對教育技術培訓內容的思考
青年時代(2016年27期)2016-12-08 22:25:13
拒絕“花哨”,重拾“得體”
考試周刊(2016年91期)2016-12-08 21:33:05
“互聯網+”背景下高職院校數字校園建設的探索與實踐
基于翻轉課堂的大學英語混合式教學模式探究
人間(2016年30期)2016-12-03 22:19:16
如何加強校園信息化建設創學校發展提速平臺
職業·中旬(2016年10期)2016-11-28 19:01:55
基于虛擬仿真技術的地方高校實驗教學探討
信息技術與教學難以深度融合的成因及解決途徑探析
科技資訊(2016年19期)2016-11-15 10:19:53
榆林學院智慧校園系統架構的分析與設計
高職學院信息化建設中面臨的問題和思考
科技視界(2016年22期)2016-10-18 17:29:57
創新信息技術支撐教學變革
主站蜘蛛池模板: 国产国产人免费视频成18| 久久网综合| 国产精品无码一区二区桃花视频| 国产欧美日韩另类精彩视频| 色婷婷在线播放| 日韩精品一区二区三区大桥未久 | 欧美一级在线播放| 五月婷婷亚洲综合| 国产高清色视频免费看的网址| 亚洲精品国产综合99| 亚洲国产系列| 久久精品无码中文字幕| 91免费国产在线观看尤物| 国产色爱av资源综合区| 91精品国产情侣高潮露脸| 天堂在线视频精品| 国产福利拍拍拍| AV片亚洲国产男人的天堂| 女高中生自慰污污网站| 一级爱做片免费观看久久| 欧美一级在线看| 三上悠亚在线精品二区| 18禁高潮出水呻吟娇喘蜜芽| 日韩麻豆小视频| 免费中文字幕一级毛片| 精品国产网站| 波多野结衣一级毛片| 国产色网站| 国产黄色片在线看| 亚洲久悠悠色悠在线播放| 欧美午夜小视频| 伊人久久久久久久| 欧美日韩亚洲综合在线观看| 国产精品自拍合集| 国产精品自在在线午夜| 国产欧美亚洲精品第3页在线| 最新亚洲av女人的天堂| 最新精品国偷自产在线| 九九视频免费看| 天堂成人在线| 久久99热这里只有精品免费看| 美女毛片在线| 国产精品99r8在线观看| 欧美成人免费一区在线播放| 被公侵犯人妻少妇一区二区三区| 久久这里只有精品66| 99re经典视频在线| 久久频这里精品99香蕉久网址| 午夜毛片免费看| 99ri国产在线| 亚洲天堂视频在线观看| 91麻豆精品视频| 亚洲AV无码不卡无码| 亚洲国产在一区二区三区| 久久影院一区二区h| 国产精鲁鲁网在线视频| 免费毛片视频| 日韩激情成人| 女高中生自慰污污网站| 国产自在线播放| 九九久久精品免费观看| 亚洲伊人久久精品影院| 精品三级网站| 青青青草国产| 久久国产热| 成年女人a毛片免费视频| 在线精品亚洲一区二区古装| 99热这里只有成人精品国产| 狠狠色婷婷丁香综合久久韩国 | 国产成人成人一区二区| 亚洲第一页在线观看| 日本在线国产| 亚洲成a人片在线观看88| 国产亚洲欧美日韩在线观看一区二区 | 蜜臀av性久久久久蜜臀aⅴ麻豆| 日本亚洲欧美在线| 不卡国产视频第一页| 亚洲精品福利视频| 性视频一区| 高清久久精品亚洲日韩Av| 国产男人的天堂| 四虎精品黑人视频|