張 潔,李亞男
(1.中國人民大學國際文化交流學院,北京100872;2.北京語言大學語言科學院,北京100083;3.漢考國際教育科技(北京)有限公司,北京100088)
《國際漢語教師證書》考試是由孔子學院總部/國家漢辦主辦的一項標準化考試,包括筆試和面試。“考試主要面向海外孔子學院(課堂)從事漢語教學的教師、志愿者;同時面向有志于從事漢語國際教育工作的各類人員,包括海內外各類教育機構的教師及相關專業學習者。考試可以作為孔子學院(課堂)選拔和評價漢語教師、志愿者的重要參考標準,可以作為海內外學校、教育機構選聘和評價漢語教師的參考依據”。(孔子學院總部/國家漢辦,2016)從理論上講,一種測評工具是否可靠和有效,關鍵在于該測評工具的信度和效度,具備良好的信度和效度是一個有效的測評工具的必備條件,因此,有必要對《國際漢語教師證書》考試的信度、效度展開研究。
國際教育與心理測量界廣泛采用的《教育與心理測量標準》(Standards for Educational and Psychological Testing)(2014),對效度、效度驗證及效度證據進行了說明。效度是指所積累的證據對考試用于特定目的后所產出分數的解釋提供支持的程度,是教育測量的核心內容,是開發、運作和評估考試時應該考慮的一項最為基本的內容(劉慶思,2018a)。效度驗證則是收集相關證據為特定分數解釋提供科學依據的過程,是考試研究實踐中必須要面對的問題。效度證據包括:基于內容的證據(Evidence Based on Test Content);基于反應過程的證據 (Evidence Based on Response Processes);基于內部結構的證據(Evidence Based on Internal Structure);基于與其他變量關系的證據(Evidence Based on Relations to Other Variables);基于測驗結果的證據(Evidence For Validity and consequences of testing)。該標準細化了效度驗證所需的類似于檢查清單的標準條目以及效度驗證的基本模式,“證據”成為效度研究的核心概念。效度研究被視為一種通過積累“證據”對測驗的效度提供支持、對測驗分數做出合理解釋的過程(劉慶思,2018b)。
本研究基于《教育與心理測量標準》(2014版)中效度研究的基本流程,搜集《國際漢語教師證書》基于內容的證據、基于與其他變量關系的證據,為其效度提供支持。
從考試設計的步驟來說,在考試試卷編制之前,需要對考試的內容范圍進行界定,如考試考察的知識點、能力要素或任務等,并確定各部分的比例。通過系統比較一份試卷的實際內容與考試大綱中對考試內容范圍的界定,通過比較實際測試各個部分的內容比例與測試說明所確定的比例,可以得到重要的效度證據。基于內容的效度證據通常以專家評定的方式進行。專家可以對題目的覆蓋程度進行評價,也可以對各部分內容的相對比重或相對重要性進行評價;可以是對試卷對內容總體代表性的評價,也可以是試卷所包含的一組任務對一個任務總體代表性的評價。
基于國際漢語發展的需要,國家漢語國際推廣領導小組辦公室(簡稱國家漢辦),組織漢語教學領域的專家學者研發,于2007年發布了《國際漢語教師標準》(以下簡稱標準),并于2012年12月12日正式推出新標準①http://www.chineseteacher.org.cn/readyExamGuide.do。新標準更為凝練,突出漢語教學、中華文化傳播和跨文化交際三項基本技能,注重學科基礎、專業意識和職業修養,增強了實用性、操作性和有效性;構建了國際漢語教師的知識、能力和素質的基本框架,形成了較為完整、科學的教師標準體系。目前,這一標準不僅是國家漢辦選拔和培訓海外孔子學院漢語教師和志愿者的標準,也是漢語國際教育專業學位研究生培養以及國際漢語教師資格考試制定的依據,對國際漢語教學有重要指導意義。《國際漢語教師證書》考試正是基于該標準中漢語教學基礎、漢語教學方法、教學組織與課堂管理、中華文化與跨文化交際、職業道德與專業發展五個標準所包含的知識與能力的考查,評價考生是否能夠成為合格的國際漢語教師。
從考試性質上來說,《國際漢語教師證書》考試屬于標準參照考試。《國際漢語教師標準》明確了該考試所考察的“標準”,因此,需要評價該考試試題對“標準”內容的總體代表性或任務總體的代表性。試題考察的知識與能力既要在“標準”考察目標的范圍之內,也要對“標準”有較好的覆蓋率。這是基于內容的重要效度證據,通常由專家基于一定規則,對題目和“標準”的匹配程度進行經驗判斷。
《國際漢語教師證書》考試的筆試全部為客觀題,分為基礎知識、應用能力和綜合素質三部分。基礎知識和應用能力主要采取源于教學實際的案例導入式形式,重點考察應試者的漢語交際能力、語言分析能力、教學設計能力、教學資源應用能力、課堂活動組織能力、課堂管理能力、中華文化闡釋與傳播能力、職業發展能力、現代教育技術應用能力等,以及對相關理論知識和應用方法的掌握;綜合素質部分采用情境判斷測驗的形式,重點考查應試者的跨文化適應性及交際能力。筆試試卷結構如表1所示。
為了獲得《國際漢語教師證書》筆試基于內容的證據,我們對某次筆試客觀試題,共計100道題目逐一進行了考察(僅包括筆試第一、二部分,第三部分綜合素質不在分析范圍內)。在試題審定的過程中,每個案例及案例下的每道試題都由三到四位專家(主要為國內外長期從事漢語教學的一線教師,語言學、漢語教學及相關領域的研究者),根據《國際漢語教師標準》進行了標定,由專家共同判定,每道試題考察的知識或能力屬于哪一標準,隨后對該套試卷中針對各標準設計的題量進行統計。
在這次筆試試題中,考察較多的是“標準2漢語教學方法”(31題)與“標準3教學組織與課堂管理”(31題);其次是“標準1漢語教學基礎”(23題),“標準4中華文化與跨文化交際”(中國文化部分13題)②標準4中的跨文化交際能力重在第三部分考察,共50題。,考察最少的是“標準5職業道德與專業發展”(2題)。從題量來看,《國際漢語教師標準》中的五大標準在全卷中均有分布,在筆試前100題中,主要考察的是標準1、2、3中對教師知識與能力的要求,共有85題。第一部分共54題,第二部分共46題,基本符合筆試試卷結構中有關第一部分和第二部分的題量設計要求。

表1:《國際漢語教師證書》考試筆試試卷結構
考試結果的使用者或者根據考試結果所做的評價或評判,是一個與效度有關的問題。如果考試的用途已明確,那么就需要提供支持其用途的相關證據。《國際漢語教師證書》考試可以作為海內外學校、教育機構選聘和評價漢語教師的參考依據,也用于評價國際漢語教學機構師資和水平及教學實例的參考。試卷以及題目的質量會影響測試目的的實現。高質量的試卷及題目可以為效度提供支持,試卷信度、試題難度、區分度都是重要的效度證據。
如前所述,《國際漢語教師證書》考試屬于標準參照測驗,其目的在于考察被試所預測之目標的掌握程度,如果測驗目標所要求的知識與技能比較簡單,那么試題難度應該相對較小,反之亦如此。對于某些難度為1或0的試題,若其內容在測量目標范圍內,也不能認為其存在問題,同時,這些試題的區分度相應不高,甚至可能為0,也仍不能認為試題質量存在問題,由于標準參照測驗的題目分析關鍵在于題目與目標之間的一致性的分析,刪去此類看上去質量不佳的題目反而會影響效度。不過盡管如此,仍需要對測試進行一些定量的分析(趙世明、劉景軒,2001)。
本研究中的數據為某次《國際漢語教師證書》考試的實測數據,共有6540人參加考試,本次試卷的α信度為0.746。由于信度系數易受考生群體影響,當考生群體的同質性高時,信度會降低。從本次考生的基本信息來看,考生專業集中為漢語國際教育、語言學及應用語言學,多數為本科畢業,可以認為考生群體的同質性較高,這在一定程度上影響了本次考試的信度系數,可以認為該試卷的信度較好。
2.1.1 難度分析
考生成績分布的偏態系數為-0.488,高分者較多,本次考試相對簡單。本次考試試題的平均難度為0.632。從全卷難度分布統計來看,全卷難度在0.6以上,即中等難度到易的題目共有60題;難度小于0.3,即較難的題目有7題。從標準參照考試的考試性質出發,這一考試以《國際漢語教師標準》為衡量尺度,考察考生所具備的知識與能力水平。在這樣的情況下,難度有難、有易更為合理,難度差異大是可以接受的,但是對于過難或者過易的題目應引起重視,需要專家從內容上做進一步定性分析。
將試題按標準分類后,統計各標準的題目難度。標準1與標準5大致相同,較難,平均難度分別為0.56,0.57;標準2與標準3大致相同,平均難度分別為0.66,0.67;隨后是標準5,平均難度為0.62。
2.1.2 區分度分析
標準參照測驗的區分度計算并沒有公認的最佳方法。在這里,仍計算每題的題目得分與總分的相關作為區分度質量指標。經統計,全卷平均題總相關為0.199,平均點雙列相關為0.286。將試題按標準分類后,統計各標準題目區分度。標準1、2、3、4的平均區分度大約為0.19,0.20,0.21,0.19,大致相同。標準5為0.12,略低。
難度是影響區分度的重要因素。考生水平如果差異不大,題目會過難或是過易,也會在一定程度上影響區分度。根據實測數據,低于0.3的題目,對考生來說過難,高于0.9的題目對考生來說過于容易,區分度都低于0.2。在一般的證書和資格考試等標準參照考試中,題目區分度只需大于零并具有很好的內容代表性即可(劉曉瑜,1996)。對于《國際漢語教師證書考試》這一標準參照的考試來說也是如此。
面試是對筆試合格的考生進行的考官小組面試。與筆試這種間接測量考生能力的方式相比,面試更直接、真實、有效。三位考官均由資深漢語教師擔任,面試試題為教學中的教材,或是一個有關教學的真實案例。通過對考生反應情況的觀察,考官所做出的對于考生教學設計能力、教學實施能力和跨文化交際能力的評價更為真實有效。因此,對于《國際漢語教師證書考試》筆試來說,以面試為效度研究標準,也可以獲得關于筆試的效度證據。
2.2.1 面試基本情況
《國際漢語教師證書考試》的面試采用結構化面試和情景模擬相結合的方法,包括說課、試講、問答和外語能力考查。面試卷滿分150分,試題結構及評分維度如表2所示。
三位考官均需根據考生面試過程中的表現,進行綜合評分。面試題目按作答語言可分為漢語和外語兩個部分,其中漢語部分從5個方面進行評價,分別評價考生的教學設計能力、教學實施能力和跨文化交際能力,而外語部分從3個方面評價考生的外語跨文化交際能力,整體印象主要評估考生的心理素質、教姿教態等職業素養。
本研究采用了某次面試數據,共有2164位考生(缺考考生不計算在內,該批考生均已參加前文中的筆試且筆試合格)。按照面試流程,每個考場配置3位考官:主考官、考官及外語考官。每個考場每天可以容納15位考生考試。同時,為了避免考生之間互相提示,每一個考試日使用兩份不同的面試試卷,分別用于當天上午與下午。本次面試共進行了8天,使用了16套試卷,約有145考場,435名考官參與評分。由于缺乏考官信息,僅對主考官、考官及外語考官的總體評分一致性情況進行了評估,三考官評分的皮爾遜相關系數如表3所示,統計分析顯示,三考官的評分相關系數呈顯著性相關,一致性程度較高。三考官評分維度之間的相關如表4所示,統計分析顯示,三考官在各維度上的評分相關系數呈顯著性相關,一致性程度較高。

表3:三考官評分的皮爾遜相關系數
對面試成績進行初步因素分析,KMO值為0.873,分析顯示適合進行因素分析。檢查所得數據之后,對數據進行因子提取和因子旋轉。因子提取采用主成分分析法的初始分析,因子旋轉使用方差最大化正交旋轉,得出旋轉后的矩陣,抽取三個公共因子,特征值均大于0.5。旋轉在5次迭代中收斂,共解釋81.079%的總方差。表5反映的是各變量與公共因子之間的相關系數,也反映了各個變量與公共因子之間相關的重要性,因子載荷量的絕對值越大,表示該變量與公共因子的相關密切程度越高,由此可發現:

表4:三考官各評分維度之間的相關
(1)A、B、C評分維度在第一個因子上載荷的絕對值較大,三個變量之間有共同的因子,關系比較密切,構成第一個因子。因子1可命名為漢語教學設計與實施能力。
(2)F、G、H評分維度在第二個因子上載荷的絕對值較大,三個變量之間有共同的因子,關系比較密切,構成第二個因子。因子2可命名為基于外語的教學組織與管理能力及跨文化交流能力。
(3)D、E評分維度在第三個因子上載荷的絕對值較大,兩個變量之間有共同的因子,關系比較密切,構成第三個因子。因子3可命名為基于漢語的教學組織與管理能力及跨文化交流能力。
結合面試評分維度及因素分析的結果,以及《國際漢語教師標準》中對各標準的定義,可以看出筆試與面試所考察的能力存在相關性,兩者之間的相關性可以作為效度證據。
2.2.2 筆試成績與面試成績的相關
根據考試流程,筆試合格的考生才會參加面試,因此面試數據中,不包括筆試未合格的的考生,樣本數據的同質性提高,個別差異減小,計算出來的相關系數會變小,預測效度總是會低估測驗的效度,從而弱化效度證據(張敏強,1996:126)。經統計,筆試總成績(100題)與面試總成績的相關為0.21(在0.01水平(雙側)上顯著相關),表明筆試(100題)可以預測面試表現。

表5:旋轉以后的因子載荷矩陣
根據面試成績因子分析的結果,以因子1(漢語教學設計與實施能力,考生在面試A、B、C三個評分維度上的得分之和)為效標,計算與標準1、標準2、標準3(分別為考生在筆試中考察標準1、標準2和標準3試題得分)的相關。以因子3(基于漢語的教學組織與管理能力及跨文化交流能力,考生在面試D、E三個評分維度上的得分之和)為效標,計算標準3、標準4(分別為考生在筆試中考察標準3、標準4的試題得分)的相關。根據表6的分析結果,考生在筆試中標準1、標準2、標準3上的得分與因子1各維度成績之間存在相關關系,且達到顯著性相關。根據表7的分析結果,考生在筆試中標準3上的得分與因子3各維度成績之間存在相關關系,且達到顯著性相關。但在標準4上的得分與因子3各維度成績之間存在相關較小。

表6:因子1及其各維度與標準1、標準2、標準3的相關系數

表7:因子3及其各維度與標準3、4的相關系數
2.2.3 筆試的正命中率
若筆試及面試成績合格,則認為考生已達到《國際漢語教師標準》,考生將被授予《國際漢語教師證書》。考生在該考試上的成績是是否授予證書這一決策的重要依據,那么可以通過計算正確決定的比例來評價效度。比較依據筆試成績分數和面試分數做出的決策,即比較預測結果和實際結果,可以得到預測成功而且實際成功(正確授予),預測成功而事實上不成功(錯誤授予)、預測失敗而事實上成功(錯誤拒絕)、預測失敗而事實上失敗(正確拒絕)四個組。對于決策者來說,更關心的是正命中率,即預測成功而且實際成功(正確授予)所占的比率,可以此來評價測驗效度(張敏強,1996:132)。
對此,以考生筆試成績(100題)60為合格線(滿分100),面試成績90為合格線(滿分150),將考生按筆試與面試成績,分為合格與不合格兩類,對這一數據進行了卡方擬合度檢驗。檢驗結果顯示,根據學生筆試成績做出的判斷與根據學生面試成績做出的判斷之間存在顯著關聯(x2=15.422,df=1,p<0.05)。具體說來,如果學生在筆試(100題)上合格,面試也很有可能被判定為合格(1113/1961=56.8%);當學生筆試(100題)被判定為不合格,面試也很有可能被判定為不合格(117/203=57.6%);正中率為0.57。

表8:卡方獨立性檢驗變量列聯表
2.2.4 合格與不合格團體的差異性
考試分數是否可以區分以效標行為定義的不同群體,也可以用于評估效度。一般的標準參照測驗將要求掌握的最低知識或能力水平作為分界標準。根據《國際漢語教師證書》考試的筆試或面試的考試設計,考生分數若達到合格線,即達到了最低的效標水平。根據考生參加該考試成績將考生群體分為“合格”和“不合格”兩組,如果兩組之間在測驗分數上存在顯著差異,那么可以認為該考試是有效的,即考試可以對效標分數的高低進行區分,否則可認為考試是無效的。對此差異進行統計上的顯著性水平檢驗的結果,也可作為測驗效度的指標(張敏強,1996:132)。因此,可以考生筆試成績(100題)60為合格線(滿分100),粗略地將考生分為合格與不合格兩類,對面試成績進行獨立樣本t檢驗;以考生面試成績90為合格線(滿分150),粗略地將考生分為合格與不合格兩類,對筆試(100題)成績進行獨立樣本t檢驗。
統計結果顯示:筆試(100題)成績合格、不合格兩組考生的面試(ABC維度)成績有顯著性差異 (t=5.618,df=2162,p<0.05):筆試(100題)合格的考生面試(ABC維度)成績顯著高于筆試未達到合格的考生面試(ABC維度)成績。對面試得分(DE維度)進行了獨立樣本t檢驗,結果顯示:筆試(100題)成績合格,不合格兩組考生的面試(DE)成績有顯著性差異(t=3.365,df=2162,p<0.05):筆試合格的考生面試(DE維度)成績顯著高于筆試(100題)未達到合格的考生面試(DE維度)成績。同樣對面試得分(ABCDE維度)進行了獨立樣本t檢驗,結果顯示:筆試(100題)成績合格,不合格兩組考生的面試成績有顯著性差異 (t=5.388,df=2162,p<0.05),筆試 (100題)合格的考生面試得分(ABCDE維度)顯著高于筆試(100題)成績未合格的考生面試(ABCDE維度)得分。
以考生面試成績90為合格線(滿分150),粗略地將考生分為合格與不合格兩類,對筆試(100題)成績進行了獨立樣本t檢驗。結果顯示,面試成績合格,不合格兩組考生的筆試成績有顯著性差異(t=8.714,df=2162,p<0.05):面試達到合格標準的考生筆試成績顯著高于面試成績未達到合格標準的考生筆試成績。
基于《國際漢語教師證書》考試筆試的效度驗證過程,可以認為:
《國際漢語教師證書》考試筆試的考試內容合理,較好地滿足了《國際漢語教師標準》中對于教師應具備的知識與能力考查范圍。
從筆試試卷及試題質量分析上來看,在考生同質性較高的情況下,該套試卷的信度,試題的難度與區分度基本達到了試題質量的評價標準,可以認為該試卷的信度較高,試題質量較好。
以面試成績為效標,衡量筆試的效度,可以發現,筆試成績與面試成績之間有較高的相關性,筆試成績可以較好地預測面試成績。根據筆試成績所做的決策較為有效。