張泉慧 張 穎 馮 攀
全國醫學博士外語統一考試是根據國務院學位委員會頒發的《臨床醫學專業學位試行辦法》和《口腔醫學專業學位試行辦法》,為醫學博士研究生招生單位提供服務而設置的考試。考試包括英語、日語、俄語三個類別,旨在考查考生掌握和運用外語的實際能力,保證醫學博士學位的授予質量[1]。考試自2002 年起實施,2018 年修訂考試大綱,2019 年正式實施新的考試大綱。新大綱更加注重考查學生的外語應用能力和交際能力,要求考生在聽、說、讀、寫的應用方面加強訓練。因此,本研究試圖通過對考試數據的分析,了解大綱修訂后聽力理解題目結構變化對考生作答的影響,分析考生在聽力屬性上的掌握情況變化。
以往,對于考試的研究分析主要集中在經典測驗理論的難度、區分度等指標的評價上。這些指標較為籠統,對于試題開發和考生個人的指導作用相對有限。相比而言,項目反應理論在參數估計方面表現更穩定,能提供更多有價值的題目信息,本研究在對比大綱修訂前后題目參數變化時,主要采用項目反應理論進行分析。以往的考試很少探查到考生作答背后所涉及的認知心理加工過程及屬性表現。隨著認知診斷這一測驗新理論的出現,認知水平與能力評估建立了更密切的關系,從題目反應獲得更細致的屬性評價成為可能,向考生個人提供更有效的分數解釋得以實現,這使得認知診斷研究成為近年來的熱點。本研究試圖通過認知診斷模型探討題目考查屬性的變化和考生的屬性掌握情況。
當前認知診斷應用的模型已超過六十種,主要分為兩類:一類是多成分潛在特質模型,即通過考生作答反應分析其具備的潛在特質,如線性邏輯斯蒂克特質模型、多成分潛在特質模型以及多維項目反應理論下的一系列模型;另一類是潛在分類模型,即按照考生的得分模式找到潛在特質上質的差異并據此分類,如Tatsuoka 等提出的規則空間模型、新發展起來的融合模型、統一模型、DINA 模型、G-DINA 模型等。其中,G-DINA 模型是當前使用較為廣泛的一種認知模型,由de la Torre[2]提出,該模型假設相對寬松,認為試題各認知屬性對試題答對概率有著不同的貢獻比例,掌握部分認知屬性的被試也有一定的答對概率,具有補償性、飽和性特征。一些國內研究者認為,G-DINA 模型的補償性特征契合了語言測驗的綜合性和多元性,飽和性特征則比較理想地應對了語言屬性的抽象性和難區分性,因此對語言測驗的多元性和抽象性特征有較高的適應度[3,4]。
從近些年的文獻來看,國內已有一些研究者對該模型進行了探索與研究:吳婷使用G-DINA 模型對九年級學生進行數學學科中“圓認識”專題的診斷分析[5];胡泊、泰中華以2019 年英語專八閱讀選擇題為例,應用G-DINA 模型進行實證研究[6];王磊等基于G-DINA 模型分析高中數學測驗[7];董艷云等對比分析了Mixed-CDMs 與G-DINA 模型在英語聽力診斷測評中的應用[8];劉歡在小學五年級閱讀能力測評中采用五種認知診斷模型(含G-DINA)進行研究[9];肖云南使用G-DINA 模型對大學英語分級測試聽力理解做了認知診斷研究[3];孟亞茹應用G-DINA 模型對大學生聽力能力進行診斷[11];陳慧麟、陳勁松分別應用G-DINA 模型的補償模型及飽和模型對PISA閱讀測試進行了認知診斷[4]。但總體來看,G-DINA應用于語言測試領域的相關研究仍較為有限,涉及聽力理解的認知診斷數量較少,研究更多停留在分析探討階段,運用到實際考試反饋中的不多。
基于此,本研究采用IRT 估計試題參數,對比考試大綱修訂前后題目參數的變化;采用G-DINA 模型進行認知診斷,分析考生聽力屬性考查點的變化與考生屬性掌握情況的變化,探討具體原因,最后形成考生個性化分數報告模板,嘗試為后續反饋試題命制、促進教學、幫助考生了解自身潛質與不足起到參考作用。
2018 年與2019 年全國醫學博士英語統一考試聽力理解測驗,測驗長度30題,作答時間30分鐘,內容對比如表1所示:

表1 聽力理解測驗內容結構
根據兩個年度的測驗,描述考生構成及成績,采用IRT 估計試題參數,劃分聽力屬性,使用探索性結構方程模型分析數據與模型擬合度,最后應用G-DINA模型進行認知診斷。
具體方法如下:應用Visual Foxpro9.0 自編程序描述考生構成及成績。采用R 軟件包,估計IRT 試題參數。認知診斷時,根據以往文獻中有關聽力屬性的劃分,請相關專家逐題標注題目屬性;采用MPLUS.7 軟件中的探索性結構方程模型分析數據,根據標準化殘差均方根(Standardized Root Mean square Residual,SRMR)、近似均方根誤差(Root Mean Square Error of Approximation,RMSEA)、相對擬 合 指 數(Comparative Fit Index,CFI;Tucker-Lewis Index,TLI)等相關指標分析數據與模型的擬合程度;最后選擇G-DINA 模型進行認知診斷,了解考生在不同聽力能力屬性上的掌握情況,模型計算公式如下:

其中,考生完成試題j時被細分為個潛在類別組,代表題目j所需的屬性;P() 代表考生對試題j的答對概率,δj0是猜測答對概率,即不具備任何認知屬性時的答對概率;δjk是掌握單一的認知屬性αlk時對答對概率的影響;δjkk′是指認知屬性αlk和αlk′的掌握對答對概率的交互性作用;δj2...k*是全部認知屬性的掌握對答對概率的交互性作用。
如表2 所示,兩個年度考生年齡集中在30-40歲,比例接近60%;考生男女比例接近,各自約占一半;學歷構成中,碩士研究生比例最高,兩個年度占比都在90%左右。

表2 考生背景構成
如表3 所示,2019 年考生人數增加,平均分和試卷信度均高于2018 年,顯著性檢驗P <0.01,具有統計學意義。

表3 考生成績描述
IRT 包括單參數、雙參數和三參數模型,三個模型下的參數估計結果顯示:題目參數良好,其中三參數模型數據與模型擬合更優,擬合度指標——殘差均方(Mean-square,MNSQ)為1.005(單參數模型為1.012,雙參數模型為1.009),理想擬合情況下的MNSQ 值為1,MNSQ 值在0.5-1.5 之間表示數據與模型預期擬合程度可接受,三參數擬合度最接近1,擬合更好;參數估計標準誤數值為0.03(單參數模型為0.04,雙參數模型為0.06),誤差最小。
IRT 理論中,難度b數值越大,難度越大;區分度a數值越大,題目區分度越大。和2018 年相比,2019年聽力測驗平均難度降低,整體區分度提高,題目猜測度接近。2019 年試卷總信息量高于2018 年,測量誤差更小,測量精度和穩定性更好。具體結果如表4所示:

表4 兩個年度聽力理解測驗題目參數
研究參照以往第二語言測試中聽力理解相關文獻研究的結果,結合博士英語聽力理解考試的題型結構,并與命題專家討論,初步確定了該考試中涉及的七個認知屬性A1~A7(通過與專家的討論,并參考已有文獻,假設屬性之間沒有固定的層級關系),分別為:
?A1 理解詞語與詞組
?A2 理解句子及結構
?A3 定位事實和細節
?A4 識別語境
?A5 總結與概括
?A6 推理
?A7 選擇性注意
如表5 所示,這些認知屬性主要劃分為兩個層面,語言知識和理解策略;兩者之間相互并行,考生作答時可同時使用不同層面的認知屬性。

表5 聽力認知屬性界定
根據表5 聽力屬性劃分,研究標注并對比了兩個年度中每道聽力試題所涉及的屬性,表6 為題目標注情況,考查到的屬性標注1,未考查的屬性標注為0,一道題目可以只考查一項屬性,也可以同時考查多個屬性。

表6 聽力理解的認知屬性Q矩陣
表7 顯示了模型與數據的擬合情況。一般來說,相對擬合指數(CFI、TLI)大于0.90,說明數據與模型擬合良好;標準化殘差均方根(SRMR)、近似均方根誤差(RMSEA)的結果越小,代表模型對參數的估計越接近真值,兩個年度TLI、CFI 都在0.9 以上,SRMR、RMSEA 數值小,均低于0.01,可知兩個年度的擬合情況都良好,模型與數據是匹配的。

表7 模型擬合情況
表8 顯示了兩個年度聽力題目中屬性考查的頻次,可以看出兩個年度考查的屬性總頻次是接近的,2019年考查的屬性略多;在前三項聽力屬性中,2018年比2019年考查的頻次更多,在后四項聽力屬性中,2019 年比2018 年考查的頻次更多。可以看出,2019年更多地測試了“理解策略”方面的高階聽力屬性。

表8 兩個年度聽力測驗屬性考查頻次
表9 所示為兩個年度考生在各認知屬性上的掌握情況,2019 年考生在“語言知識”的掌握情況上略低于2018 年,但在“理解策略”方面的掌握情況明顯好于2018年。

表9 考生掌握各認知屬性的掌握概率
根據考生得分情況,將得分前27%的考生劃分為高分組,得分后27%的考生劃分為低分組。如表9所示,2019 年考生在低階認知屬性的掌握率與2018年接近;高階認識屬性的掌握率優于2018年。

表10 不同分組群體屬性掌握百分比(%)

圖1 2018、2019年度考生在聽力認知屬性上的掌握率(%)
與大綱修訂前(2018 年)相比,2019 年的聽力測驗平均難度有所降低,這可能與考生整體水平的提高有關,博士和碩士研究生整體人數較2018 年增加,博士研究生人數比例略有升高。2019 年聽力測驗的整體區分度提高,說明題目能更有效地區分不同能力水平的考生,同時測驗信度有所上升,測驗的可靠性與穩定性更好。
兩個年度聽力認知屬性的考查頻次各有不同。2018 年考查各屬性的總頻次為56 次,其中語言知識屬性(涉及A1、A2、A3 三個屬性)考查了18 次,理解策略方面(涉及A4、A5、A6、A7 四個屬性)考查了38次;2019年屬于修訂大綱后的第一次考試,考查各屬性的總頻次為60 次,其中語言知識屬性考查了11次,理解策略考查了49 次。可以看出,修訂大綱后,題目更多地考查了理解策略,即更高階的聽力認知屬性,這與大綱修訂的初衷相符,考試更加側重對語言應用的考查,而非單個知識點的識記。
掌握概率描述的是考生掌握某項屬性的可能性。聽力屬性中語言知識方面,2018 年考生的總體掌握情況略好于2019 年;在“理解策略”方面(涉及A4、A5、A6、A7四個屬性),2018年不及2019年,由于2019 年聽力理解部分的平均分高于2018 年,可以推知2019 年的考生在理解策略上的得分更高,也就意味著考生在高階的聽力認知屬性掌握情況越好,對分數的貢獻越大。
7 個聽力認知屬性中,考生在A2(理解句子及結構)、A3(定位事實與細節)、A7(選擇性注意)的掌握概率在45%以上,高于其他屬性掌握情況,說明這三個屬性的難度相對較小,容易掌握。具體到不同認知層面,考生對“語言知識”的掌握概率介于0.4~0.5之間,對“理解策略”的掌握概率在0.3~0.5 之間,可見,考生掌握“理解策略”的難度比“語言知識”更大。在使用“理解策略”時,考生A4、A5、A6 掌握率比A7要低,提示考生在“理解策略”中掌握薄弱的環節集中在識別語境、總結概括及推理;A7 掌握情況最好,意味著考生在聽文段的過程中,對特定詞匯等聽力信息進行篩選、抓取的能力尚可,具備一定的有針對性捕捉相關信息的能力。
對高低水平組聽力屬性掌握情況進行單因素方差分析,可知:兩組群體對7 種屬性的掌握概率存在統計學差異(P<0.01)。其中,低水平組對于理解策略的掌握情況明顯低于語言知識;相比之下,高水平群體對兩個層面的所有屬性掌握較為良好,大致在70%~83%之間浮動,“理解策略”的掌握概率要好于“語言知識”,其包含的四個屬性中,A5、A6、A7 這三個屬性的掌握情況最好,說明考生在總結概況、推理和選擇性注意方面的能力較強。這也意味著,如果想獲得更好的成績,考生需要加強整體語境、文段大意、文意推理等方面的能力,而這些能力本身需要知識的積累、語感的培養和不斷的練習才能有所提升。
同時也發現,考生對聽力理解策略的使用與聽力水平高低密切相關,高水平組對各種策略的掌握率更高;而低水平組成功使用各種策略的概率較低,會更多地將精力集中于語音語調辨認、詞組及語法成分識別等低階的聽力屬性,應用高階認知屬性存在困難,因此建議醫學生的英語教學應關注學生聽力理解過程中的策略培養與使用,針對學生的薄弱環節有的放矢地練習。
為了向考生提供更有效的分數反饋,研究編制了考生分數報告,報告中的提示能夠幫助考生在后續學習中針對自身的薄弱環節有目的地進行改善。

圖2 考生分數報告模板
全國博士英語統一考試在大綱修訂后,考試內容結構有所調整,從內容上更側重交際能力的考查,題目的區分度更高,對聽力各認知屬性的考查頻次更高,尤其是聽力屬性中涉及的高階認知屬性,考查更多,體現了以能力為導向的要求,符合實際需求,與目前的教學評價改革的要求是一致的,這將對后續的學校教學、考生學習及考試改革等均起到積極的促進作用。