李天頤 傅洪波 吳迪

摘 ?要:本研究從教學實踐出發,針對形成性測試,提出一種可應用于教學的實證模型。該模型以貝葉斯方法為指導,結合先驗概率和后驗概率對教學行為的結果做出統計評估。該模型相應的統計數據來源于日常測試。統計指標是所謂的吸收概率指標,它由測試的難度系數轉化而來。在統計推斷過程中,還有效地結合了矩陣處理。該統計模型,可行性和操作性強,為大量的教學研究提供了思路和工具。本研究以醫學英語影視化詞匯教學課堂為例,以該模型為工具展開了實證研究。
關鍵詞:形成性測試;統計模型;醫學英語詞匯教學
中圖分類號:TP3-05;TP274 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)06-0024-03
Abstract:Based on teaching practice and formative testing,this study proposes an empirical model which can be applied to teaching. Under the guidance of Bayesian method,the model makes statistical evaluation of the results of teaching behavior by combining the prior probability and the posterior probability.The corresponding statistical data of the model are derived from daily tests. Statistical indicators are so-called absorption probability indicators,which are transformed from the difficulty coefficient of the test.In the process of statistical inference,matrix processing is also effectively combined. The statistical model has strong feasibility and operability,and can provide ideas and tools for a large number of teaching research. This study takes the medical English film-based vocabulary teaching classroom as an example,and carries out an empirical study with the model as a tool.
Keywords:formative test;statistical model;medical English vocabulary teaching
0 ?引 ?言
目前看電影學習英語已成為中國“二語習得”者最受歡迎的附帶學習方式之一,教師在課間或課堂上播放英文電影也成為大學英語教學的常態,醫學英語作為醫學生了解最新醫學動態的重要工具同樣也有豐富的醫學英語電影資源庫,如何有效利用這些醫學英語視頻,同時如何測評采用了醫學視頻資源的課堂教學效果及學生的學習效果,是國內外學者亟待解決的問題。
傳統的終結性評價,一般由總結性考試產生,一方面其考核形式單調,無法體現學生在學習過程中的主體地位,另一方面,反饋周期過長,教學組織者無法及時調控教學,學生學習成績的提升效果也不明顯。而由形成性考核產生的形成性評價,既可實現對學習者和學習過程的全面監測和反饋,同時也實現了對教學過程的監測和反饋,便于教學組織者及時調控教學過程,提升教學質量,因此,形成性評價逐漸成為教學評價體系中不可缺少的重要手段和當前的教研熱點[1-4]。
形成性評價主要依托形成性測試。形成性測試主要對學習者的課程學習成果進行階段性考核,考核范圍針對課程中的一個單元或一個部分,考核內容多樣化(作業、項目、課題、論文、實操、測試),形式靈活(線上或線下,單選,多選結合等),甚至還有各類考核的內容選擇模式及相應評價模式等[5-7]。
但我們分析認為,形成性考核方式雖然多樣化,但傳統的教學測試,仍然是最常用和最經濟的手段,其客觀性、公平性和可靠性都有一定的保障。因此,現階段相應的研究和實踐工作仍然是不斷地完善這種主流的形式,通過文獻調研發現,國內外這方面的相關研究報道幾乎為空白,因此,本研究擬在此問題上做出的相應的探索。
1 ?模式的特征與運行
1.1 ?對知識體系進行劃分
首先,我們傳授的課程的知識體系一般是具有系統性的,而形成性測試,作為階段性考試,其考試內容往往是針對課程中的一個單元或一個部分,因此,我們根據教學進程,對知識進行有計劃的劃分,并對該劃分的單元組織開展階段性核查。這種劃分其實也意味著對形成性測試完成了相應的計劃與管理。
而為了更好的對劃分結果進行管理,我們引入知識矩陣,此矩陣元素為一個知識單元,元素及角標,比如a23,表示第2章第3節知識單元。矩陣元素中一些章長短不一,我們取最大值節數為矩陣列數。針對大量知識單元的測試結果處理后則可形成測評矩陣。矩陣的引入,一方面可以以類似表格的方式清晰、有序地組織教學及匹配形成性測試,另一方面可進行一定的矩陣處理,為前文提及的數據管理和后續處理,提供數學工具。
1.2 ?引入“吸收概率”
測評結果可以是原始的得分,但形成性考核靈活,時長、題型、得分設定也不一,這造成數據背景差異,而一定數量的學習者測評結果也有一定分布差異。對此,我們引入難度系數并轉化為最終的測評結果。難度系數本身是一個常見的測試分析指標,其本義只為反映試題的難易程度[8],即考生在一個試題或一份試卷中的失分程度。如滿分50分的試題,考生平均得分36分,則難度系數為36/50=0.72。
至此,認識“難度系數”定義后,我們可以創造性地把其再定義為所謂知識“吸收概率”,即表示整個學習群體對所學知識的吸收程度或掌握程度(或呈現的準確率),同時也可反映教學者的教學效果,但前提條件是,形成性測試題主要考察學習者對教學知識的“重現準確度”,避免復雜的技巧型和綜合型能力考試。這樣,“難度系數”被賦予新的內涵。針對不同知識單元測試結果的“難度系數”矩陣,也可理解為“吸收概率”矩陣(見圖1,矩陣E),矩陣元素既代表學習群體在各個知識單元的獲取概率、又同時反映了教學效果,為整個教學提供了一個簡明的定量指標,當然也為統計模型提供了統計指標。
教學的實施為函數f(或稱為教學作用),其作用于知識矩陣A,作用結果為E(此處即為吸收概率矩陣)。
1.3 ?建立統計評測及推斷
(1)矩陣組織下的數據,顯然便于找到相應知識單元的學習效果信息,也可以挖掘整體的學習概況。而吸收概率的引入,當然也更直觀的評價了教與學的質量。比如,利用上述吸收概率矩陣,簡單求算術平均,立即得出整個課程體系的平均“吸收概率”。當然還可討論標準差等一系列統計參數,深入挖掘背后的統計信息,全方位的了解教與學的關系。
(2)利用上述測評吸收概率矩陣,實現不同教學行為的統計檢驗給你分析。我們既可以觀測某階段的學習或教學效果的差異,也可以對整體差異展開統計的假設檢驗,單因素的Z檢驗、T檢驗、秩檢驗、游程檢驗,多組分的方差分析[9,10]等,可對相應的教學因素帶來的差異開展統計評價和實證研究。另外,我們設定的固定的知識矩陣,其測量對象也是固定的,不同的教學作用,產生對比結果,正好形成配對統計檢測。
(3)局部分析上,可通過觀察矩陣的相應元素測評結果的聯動性,發現知識單元和整體的相關性,甚至知識單元之間的內在關聯。
2 ?實例分析
依從上述的統計模式,我們在相應的教學研究中,對同一個老師的兩個平行班級(A1、A2班)的醫學英語詞匯教學,進行了對比性研究,實驗周期為九周,每周一次連堂四節課醫學英語課,每次課觀看醫學英語視頻時長為45分鐘。兩個班級的差異在于一個班級A2觀看的是趣味性較高的醫學英語視頻,另一個班級A1觀看的是趣味性較低的醫學英語視頻,但A1班和A2班分別觀看的九部醫學題材影片難度均相同。同時分別使用相同測試題對教學效果進行了形成性測試,測試題主要考察醫學詞匯習得,授課內容的重現準確度。其中A1班對應的吸收概率矩陣A1,A2班對應吸收概率矩陣A2,測試單元為九章。
我們分別做了下列計算和統計處理。
2.1 ?整體的平均吸收概率
由式可算得A1班平均吸收概率為0.703,A2班平均吸收概率為0.714,有一定的差異,A2班平均吸收概率略高,但從數值上看不明顯。
2.2 ?統計檢驗
本檢驗是觀察同一組樣本在處理前后的平均值的差異,由于數據是配對的,所以采用配對T檢驗,檢驗結果概率僅為0.07%。這意味著,兩者平均值統計差異是明顯的,超過99.93%概率是不同的。
2.3 ?局部分析
全局上統計檢驗差別是明顯的,我們也可以進行局部對比分析。我們發現,兩個班級的吸收概率在剛開始的時候數據差別不大,也就是教學前期差別不明顯(前5次測試,平均吸收概率值皆為0.66,T檢驗無明顯差異),但后期差別逐漸顯現。這很可能是趣味值高的電影能夠吸引學生的注意力,引發學生的學習興趣,使學生學習更加專注,從而轉化為學生的學習動力。隨著學習的深入,學習效率的差異最終導致了吸收概率的差異。
在教學反饋交流中,學生也提及醫學英語視頻有助于他們對課堂聽講的內容進行補漏,加深對醫學知識的理解和對醫學英語詞匯的記憶。資源匹配性和趣味性醫學影視資源使學習者的效率有了一定提升。高趣味性影視組A2班在形成性測試中,測試表現自然更為理想。當然,形成性測試結果的反饋,讓我們也隨后終止了實驗,讓兩個平行班級,同時分享相應的教學資源。
由以上的實例,我們不難發現,以矩陣來組織數據,不僅可以形成良好的數據匹配和索引,而且利用矩陣處理,能夠方便快速的搜尋、提取數據,比如提取理論性教學與應用性教學等章節的數據進行對比分析。而統計的關鍵,所謂的統計指標“吸收概率”,其計算簡易,能直觀地顯示教與學的效果,與形成性測試可謂相得益彰。
3 ?結 ?論
綜上所述,本研究設計出一個比較系統的匹配形成性測試的統計處理模型,通過矩陣對數據進行有效組織,通過相應的統計指標,可快速的完成對形成性測試數據的統計分析與推斷。整個模型的數據處理簡單,操作簡練,使用的統計方法成熟。這不僅是對醫學英語詞匯教學形成性評價做出的有益探索,更是對大量的教育、教學理論以及不斷涌現的教育、教學的改革和探索,此模型提供了由形成性測評結果來驗證的現實性,為提升教育、教學研究的科學性、可測性、實證性提供了嶄新的途徑和思路。
參考文獻:
[1] Theofanos M,Quesenbery W. Towards the design of effective formative test reports [M].Usability Professionals’ Association,2005.
[2] Lam R. Formative Use of Summative Tests:Using Test Preparation to Promote Performance and Self-Regulation [J].The Asia-Pacific Education Researcher,2013,22(1):69-78.
[3] ZOU X,ZHANG X. Effect of different score reports of Web-based formative test on students’ self-regulated learning [J].Computers & Education,2013,66:54-63.
[4] 郭茜,楊志強.試論形成性評價及其對大學英語教學與測試的啟示 [J].清華大學教育研究,2003,24(5):103-108.
[5] 方圓.基于CDS自我評測的形成性評價探索 [J].教育科學(全文版),2016(6):00181.
[6] Roberts T S. The Use of multiple choice test for formative and summative assessment [M].Australian Computer Society,Inc.2006.
[7] Wise S L,Plake B S,Pozehl B J,et al. Providing Item Feedback in Computer-Based Tests:Effects of Initial Success and Failure [J].Educational and Psychological Measurement,1989,49(2):479-486.
[8] 艾小偉,王有遠.基于統計學習的試題難度系數修正算法 [J].計算機工程與應用,2008,44(36):227-229.
[9] 盛驟,謝式千,潘承毅.概率論與數理統計第3版 [M].北京:高等教育出版社,2001.
[10] L.沃塞曼.現代非參數統計 [M].北京:科學出版社,2008.
作者簡介:李天頤(1978.07-),女,漢族,湖北人,講師,碩士,研究方向:應用語言學、多媒體輔助外語教學和比較文化研究。