




[摘 要] 基于測試使用論證框架,對國際漢語水平考試進行效度驗證。研究發(fā)現(xiàn),其具備測試框架的真實性要素,同時存在評分員與考生的文化背景缺乏匹配、忽視初級漢語水平學(xué)習(xí)者與中華文化的互動、翻譯測評任務(wù)與考生的母語背景匹配不足等問題;據(jù)此提出評分員地區(qū)化匹配、加大文化要素考查、文本語種多樣化等建議。
[關(guān)鍵詞] AUA框架;HSK;效度;論證分析
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2025)01—073—007
一、引 言
近年來,人類命運共同體理念深入人心,中國在經(jīng)濟、科技領(lǐng)域的國際影響力不斷增強,國際中文人才需求大增?!爸形模玐”的培養(yǎng)和學(xué)習(xí)模式在國際中文教育領(lǐng)域發(fā)展勢頭迅猛,越來越多的中文二語學(xué)習(xí)者(以下簡稱為“學(xué)習(xí)者”)將學(xué)習(xí)目標設(shè)定為依托中文為載體,強化其在經(jīng)濟、貿(mào)易、臨床醫(yī)學(xué)等特定領(lǐng)域的學(xué)習(xí)。對這類學(xué)習(xí)者來說,中文有“目標語言”和“工具語言”兩大功用,其學(xué)習(xí)過程也是在中文語言環(huán)境下對某一具體領(lǐng)域的信息進行獲取、交換和加工的過程[1]。漢語水平考試(HSK)目前已成為繼雅思、托??荚嚭笕虻谌笳Z言考試品牌,“中文+”的發(fā)展態(tài)勢對其效度提出了更高要求。
2003年,Bachman從哲學(xué)方法論的角度出發(fā),首次提出構(gòu)建AUA(Assessment Use Argument,測試使用論證)框架對測試進行效度驗證的設(shè)想[2]。2007年在美國應(yīng)用語言學(xué)協(xié)會年會上,Bachman作了以“Language Assessment: Opportunities and Challenges”為題的報告,提出用AUA框架指導(dǎo)目前學(xué)界關(guān)注的各種問題,如測試語言能力的本質(zhì)、測評的公平性及其后果等[3],將測試的效度驗證范圍擴大到其社會需求和價值層面。2010年,Bachman和Palmer將AUA框架的各種主張和理據(jù)結(jié)合考試實踐進行細化,并提出一系列更具可操作性的語言測試開發(fā)指南問題[4],推動了語言測試開發(fā)、設(shè)計和實踐朝著更加科學(xué)化的方向發(fā)展。
本文采用AUA理論框架對HSK進行效度分析,論證其測試機制及是否與當下多元化的漢語學(xué)習(xí)需求和社會環(huán)境相適應(yīng),并指出HSK目前存在的不足,為HSK更好地服務(wù)于各類學(xué)習(xí)者提供建議。
二、測試使用論證(AUA)框架概述
1996年,Bachman認為對測試進行效度論證可以從多個方面入手,為此他提出了“測試有用性”模式,具體包括六個要素,即信度、構(gòu)念效度、真實性、互動性、影響和可行性[5],測試研究者可以把這六要素作為檢查語言測試質(zhì)量的指標,但其內(nèi)部之間缺乏邏輯連接,無法將其作為一個整體的理論框架與測試分析相結(jié)合。2005年,Bachman提出了測評論證的結(jié)構(gòu)(The Structure of an Assessment Argument)[6],該結(jié)構(gòu)指出從決策到測試表現(xiàn)可以雙向論證,且論證過程有理據(jù)支撐和反駁依據(jù),但其并未將測試效果納入論證過程。
基于以上理論基礎(chǔ),2007年,Bachman將“測試有用性”模式的六個要素與測評論證的結(jié)構(gòu)結(jié)合起來,并將測試結(jié)果納入框架結(jié)構(gòu)(見圖1)[3],雙箭頭表明測試開發(fā)、設(shè)計和使用過程中的各種主張(如效果、決策、解釋等)相互關(guān)聯(lián)。2010年,Bachman和Palmer闡述了AUA理論框架的各種主張用于指導(dǎo)語言測評實踐的具體行動指南(見圖2)【4】。
如圖1所示,在對測試進行效度驗證時,“測試有用性”模式的六個要素分別成為測評使用論證過程中不同主張的理據(jù)支撐。“信度”概念指根據(jù)考生的測評表現(xiàn)所作的測評記錄的穩(wěn)定性;測評任務(wù)的互動性是考生表現(xiàn)的前提;根據(jù)測評記錄所作的解釋是否是合理的、恰當?shù)?、有意義的是構(gòu)念效度的保證;解釋和決策之間的互動在于二者之間的關(guān)聯(lián)程度;決策的制定所產(chǎn)生的影響是考試使用效果的一部分;真實性貫穿測評使用論證的全過程,和其他五個要素相結(jié)合共同作用于語言測評的效度論證,其在語言測評的開發(fā)和使用過程中體現(xiàn)的維度是多方面的。
完整的語言測評過程包括需求分析/測評的預(yù)期目的、測評構(gòu)念/測評任務(wù)、施測、評閱、測評記錄、分數(shù)解釋、決策和效果分析這些環(huán)節(jié),真實性在這些環(huán)節(jié)中都有所體現(xiàn),例如關(guān)于實施測評的預(yù)期目標與相關(guān)利益群體的真實需求契合、測評任務(wù)的設(shè)置與目標語言使用域結(jié)合、施測過程中對于測評所需的客觀條件與受測者所處的環(huán)境條件的差異進行人性化處理、評閱過程中測評標準的設(shè)定與受測者的學(xué)習(xí)目標相吻合、測評記錄真實有效、分數(shù)解釋與真實的交際環(huán)境相匹配、測評的效果分析與受測者的個人成長發(fā)展及認知相結(jié)合等[7]。
如圖2所示,Bachman和Plamer提出了AUA框架下測評開發(fā)過程中關(guān)于效果、決策、解釋和測評記錄這四項主張的具體實踐指南,語言測評開發(fā)者通過對這15個問題的思考,促進語言測評朝著更加科學(xué)化的方向發(fā)展。
三、AUA框架下的HSK效度論證
(一)HSK信度論證
在不同等級水平測試中,HSK題型題量的分布設(shè)計具有差異性。如表1所示,聽力和閱讀這兩類題目在各個等級水平考試中均有所考查,考查形式多為選擇題,作答形式為填涂答題卡(紙筆考)或鼠標點擊選項(機網(wǎng)考),機器閱卷評分,此類客觀題完全避免了人工評分主觀因素的干擾,測評記錄和結(jié)果僅根據(jù)考生作答情況給出結(jié)論。HSK三級到七-九級測評任務(wù)增加了寫作、翻譯等主觀題,此類題型能較好地考查考生的中文運用和表達能力,但由于評分方式為人工閱卷,測評記錄易受到考生和評分員兩個主體的主觀因素影響。
從評分員這一主體角度出發(fā),以中文考試服務(wù)網(wǎng)提供的HSK七-九級樣卷寫作題目為例,考生關(guān)于中國城鄉(xiāng)地區(qū)互聯(lián)網(wǎng)普及率這一主題寫作,在分析城鄉(xiāng)差異背后原因時,不同評分員對該現(xiàn)象出現(xiàn)原因有不同見解,依據(jù)考生作答記錄,評分會出現(xiàn)差異性,此類情況下,依據(jù)考生的測評表現(xiàn)做出的測評記錄具有不穩(wěn)定性。因此,評分員的專業(yè)性在測評的信度高低方面具有關(guān)鍵作用。
評分員的遴選和培訓(xùn)是閱卷環(huán)節(jié)的基礎(chǔ)及核心,可有效控制主觀題評分誤差,履歷分析法是評分員遴選過程中行之有效的人才選拔理論[8]。對評分員工作以及生活背景進行分析,從而判斷其能否勝任評分工作,可以最大限度保證評分員和考試測評的適配性,提高測評記錄信度,HSK評分員大多在國內(nèi)外從事一線教學(xué)的國際中文教師隊伍中選拔,具備寫作、翻譯等專項的實際教學(xué)經(jīng)驗,能夠根據(jù)考生的作答較為準確地判斷其中文水平。
初步遴選出HSK評分員后,在培訓(xùn)過程中,要求其對樣卷進行試評并說明理由,若評分員內(nèi)部之間存在分歧,則進行討論,直至意見統(tǒng)一。在評分員討論、反思、修正評分的過程中,不同的個體逐漸達成一致的評分意見,測評記錄具有更高的信度和效度。最后進行實操考核,要求其在限定時間內(nèi),在兼顧質(zhì)量和效率的前提下,完成大規(guī)模評分任務(wù),通過與專家評分的差異分析,對其進行評分水平評定,確定考核是否合格[9]。這種“試評+考核”的培訓(xùn)方式將不同的個體置于統(tǒng)一的集體中,使個體形成監(jiān)控自身評分、與其他評分員評分達成一致的意識,最大限度降低個體差異性對評分帶來的主觀影響,并且最終考核對標專家評分,為測評提供了更多信度支撐。
從考生主體出發(fā),隨著影響力范圍不斷擴大,中文吸引了越來越多的來自不同政治經(jīng)濟制度和文化背景的國家和地區(qū)的學(xué)習(xí)者,受母語文化背景的影響,其對中國文化與國情的理解與認同度不盡相同。盡管大多數(shù)評分員都來自教學(xué)一線且閱卷前接受過統(tǒng)一培訓(xùn),但其執(zhí)教面對的學(xué)習(xí)者群體學(xué)情不同。以考生關(guān)于中國城鄉(xiāng)地區(qū)互聯(lián)網(wǎng)普及率這一主題寫作為例,來自發(fā)達國家(或地區(qū))的學(xué)生與來自欠發(fā)達國家(或地區(qū))的學(xué)生對這一問題具有不同看法,在閱卷過程中,評分員所做的測評記錄可能會受學(xué)情差異影響,進而影響測評的信度。
(二)HSK構(gòu)念效度論證
構(gòu)念效度是從認知視角出發(fā),說明測評結(jié)果的得出是否與測評目標的實現(xiàn)相關(guān)的重要參考依據(jù),根據(jù)測評表現(xiàn)所做的解釋與測評目標的一致性是保證二者相關(guān)的基礎(chǔ)。
2022年,依據(jù)《國際中文教育中文水平等級標準》(GF0025-2021)(以下簡稱“《標準》”),中外語言交流合作中心新設(shè)的HSK七-九級首次開考,一卷三級,根據(jù)考生表現(xiàn)做出相應(yīng)測評記錄,最終對標《標準》,對考生作出HSK是否達到七級、八級及九級的測評判斷?!稑藴省芬匝哉Z交際能力、話題任務(wù)內(nèi)容和語言量化指標形成三個評價維度,以中文聽、說、讀、寫、譯作為五項語言技能,體現(xiàn)了語言要素清單型標準與任務(wù)、技能型標準的統(tǒng)合[10],從而準確定位學(xué)習(xí)者的中文水平。
HSK重點考查中文作為第二語言的學(xué)習(xí)者在真實場景中將中文作為語言技能進行交際的能力,依據(jù)《標準》對考生的測評表現(xiàn)做出的解釋應(yīng)與實際情境下交際所需的語言水平一致。但文化與語言密不可分,在真實情景中進行交際所需的認知不能脫離文化背景,表2為HSK各等級考試考查的相應(yīng)內(nèi)容,一至三級考查內(nèi)容并未涉及到相關(guān)中華文化與國情層面。
(三)HSK真實性論證
1. 交際能力運用的真實性
語言測評對考生語言能力的闡釋能否推廣到非測試環(huán)境中是論證語言測評真實性的重要依據(jù)。目標語言使用域(Target Language Use, 簡稱TLU)是指除測試任務(wù)本身之外的需要考生完成語言使用任務(wù)的特定的情景語境,HSK考生出于某些現(xiàn)實需求,通過HSK相應(yīng)等級考試獲取證書證明自己的中文水平,對他們來說,將中文運用到真實交際情景滿足需求才是測評目的。
由于真題的保密性,目前只有一套官方出版的HSK七-九級樣題在中文考試服務(wù)網(wǎng)站中可見,對其測評試題的分析缺少樣本支撐。在2022年11月26日,HSK七-九級正式開考之前,HSK六級曾作為證明學(xué)習(xí)者中文水平最高等級的考試,對其測評試題的分析具有一定的研究意義。因此,本文以2018年官方出版的HSK六級考試真題集的5套試題為例,對書寫題進行論證,分析其與目標語言使用域,即中文交際環(huán)境的相關(guān)性。
官方給出的5套書寫題題目要求都是根據(jù)語篇內(nèi)容進行縮寫,要求考生在10分鐘內(nèi)了解語篇內(nèi)容,在不重復(fù)原文語篇內(nèi)容的前提下,對語篇的信息進行整合提取并完成縮寫。縮寫考查考生對語篇中關(guān)鍵信息進行選擇和轉(zhuǎn)述的能力,是對語碼的二次轉(zhuǎn)換,真題集收錄的語篇類型皆為敘事型語篇,敘事型語篇的主要語用功能在于通過對事情的敘述使聽話人理解事情的前因后果[11],從而達到交際的目的。HSK六級通過縮寫這一寫作形式考查考生對語碼的二次加工和輸出,完成信息的傳遞,交際的過程實際上就是個體之間信息傳遞的過程,完成相關(guān)測評任務(wù)的HSK考生具備一定的在中文語境中交際的能力。
2. 施測過程的真實性
在對測評進行真實性效度論證分析時,施測過程具有人性化也是論證語言測評真實性的參考依據(jù)[12]。如表3所示,在新冠疫情期間,為滿足學(xué)習(xí)者申請國際中文教師獎學(xué)金、畢業(yè)、求職等考試需求并兼顧其健康與安全,官方發(fā)布了HSK系列居家網(wǎng)考的通知,為考生提供便利。
表3統(tǒng)計的相關(guān)居家網(wǎng)考通知的時間范圍限定為疫情期間,結(jié)合其他國家的政策,2024年5月25日,官方發(fā)布面向美洲、歐洲、大洋洲、非洲國家考點開放的居家網(wǎng)考通知,最大限度保證考生的健康、安全,充分體現(xiàn)了測評過程實施的人性化。
(四)測評任務(wù)的互動性
1.知識的互動性
在語言測評具體實踐中,互動性是指考生接收到測評任務(wù)發(fā)出的指令后,個體特質(zhì)被該指令激發(fā),語言知識、話題知識等都是個體特質(zhì)的范疇[13]。HSK七-九級考試翻譯部分均為外文譯為中文,翻譯材料只提供英語、越南語、泰語、日語、韓語五種語言,但該測評機制的設(shè)置未充分體現(xiàn)AUA框架提出的互動性,聯(lián)合國六大官方語言為漢語、英語、阿拉伯語、俄語、法語、西班牙語,該六大官方語言設(shè)定的背后與一定政治經(jīng)濟因素有關(guān),但語言屬于文化范疇,HSK七-九級外譯中提供的翻譯材料語言與聯(lián)合國官方語言重合的只有英語。
對于母語非英語、越南語、泰語、日語、韓語這五種語言的學(xué)習(xí)者來說,要通過HSK七-九級考試還要掌握這五種語種中的一種才能完成該項測評任務(wù),對于此類學(xué)習(xí)者來說,還要研究參加考試語種的文學(xué)特色或相關(guān)語言學(xué)知識才能更好地達到翻譯目標,完成語言測評的任務(wù)。此類學(xué)習(xí)者在HSK七-九級測評中,對于翻譯這項測評任務(wù),要對語碼進行二次轉(zhuǎn)換,該測評任務(wù)語種的設(shè)置與AUA理論框架提倡的互動性有一定差異性,同時也不利于對學(xué)習(xí)者的漢語水平進行真實測評。
2.中華文化的互動性
如表2所示,HSK一至三級考查內(nèi)容未包含相關(guān)中華文化和中國國情,處于這三個HSK水平的學(xué)習(xí)者中文語言能力較為薄弱,不具備真實話題場景下的交際技能,但語言學(xué)習(xí)和能力的掌握是一個循序漸進的過程,《國際中文教育用中國文化和國情教學(xué)參考框架》(以下簡稱“《參考框架》”)從宏觀與微觀兩個層面結(jié)合,將文化教學(xué)目標劃分為文化知識、文化理解、跨文化意識、文化態(tài)度四個維度[14],文化教學(xué)與語言教學(xué)是齊頭并進的,國際中文教育中對學(xué)習(xí)者文化的四個維度的培養(yǎng)應(yīng)當貫穿語言學(xué)習(xí)的整個過程,HSK一至三級忽視對中華文化和國情的考查,測評任務(wù)的設(shè)置沒有體現(xiàn)初級水平的漢語學(xué)習(xí)者與文化的互動。
四、結(jié) 語
本文從“測試有用性”模型中的信度、構(gòu)念效度、真實性、互動性四個層面對現(xiàn)有的HSK進行了效度論證分析。研究發(fā)現(xiàn),從評判學(xué)習(xí)者的語言交際能力和施測過程兩方面來看,HSK具備AUA測試框架的真實性要素;從閱卷過程中依據(jù)考生作答情況做出的測評記錄來看,HSK 評分員與考生的文化背景匹配方面信度支撐不足;從評判學(xué)習(xí)者對中文和中國文化以及國情的掌握匹配程度來看,HSK缺乏一定的構(gòu)念效度支撐且忽視了初級漢語水平的學(xué)習(xí)者與中華文化的互動性這一要素;從測評任務(wù)與考生的互動性這一方面來看,HSK相關(guān)題型(翻譯)的語言設(shè)定忽視了二者之間的互動性要素。
據(jù)此,對HSK開發(fā)和使用的進一步完善提出以下建議。
(一)評分員地區(qū)化匹配
根據(jù)考生來自的國家和地區(qū)對其進行分組,并匹配具有相關(guān)國家和地區(qū)執(zhí)教經(jīng)驗的國際中文教師作為評分員。這既有利于教師及時把握執(zhí)教地區(qū)學(xué)習(xí)者的學(xué)情,及時調(diào)整教學(xué)策略與教學(xué)方法,又能有效提高HSK的信度,閱卷過程中,評分員可以結(jié)合實際教學(xué)學(xué)情,依據(jù)考生的測評表現(xiàn)得出真實有效的測評記錄與測評結(jié)果。
(二)加大文化要素考查
HSK一至三級測評任務(wù)的開發(fā)和設(shè)置應(yīng)增加對于文化要素的考查?!秴⒖伎蚣堋穼ξ幕虒W(xué)目標進行了分級,HSK各等級測評任務(wù)的開發(fā)與成績的評定應(yīng)參照《參考框架》并結(jié)合《標準》,判定其是否具備真實場景下中文交際的能力,以確保測評的構(gòu)念效度和測評后效的真實性。
(三)文本語種多樣化
在考生報名HSK時,可在系統(tǒng)上對考生的母語進行統(tǒng)計,測評團隊根據(jù)當次考生母語統(tǒng)計結(jié)果對翻譯原文文本的語種進行設(shè)定,此舉既可精準對接考生語言背景,減少命題工作量,又可最大限度地實現(xiàn)測評任務(wù)與考生之間的互動性,提高測評結(jié)果反映考生語言能力的真實性。
本文僅基于AUA框架的信度、構(gòu)念效度、真實性以及互動性這四個維度對HSK進行了論證,HSK相關(guān)測評任務(wù)的可行性與后續(xù)影響的研究有待進一步探討。
參考文獻:
[1] 李宇明,李艷華.“中文+X”的類型及“工具語言”問題[J].世界漢語教學(xué),2024,38(02):147-159.
[2] Bachman L F. Constructing an Assessment Use Argument and Supporting Claims about Test Taker-Assessment Task Interactions in Evidence-Centered Assessment Design [J]. Measurement: Interdisciplinary Research and Perspectives, 2003, (1): 63-65.
[3] Bachman L F. Justifying The Use Of Language Assessment [EB/OL]. http: //www.oxford.co.kr/ 2007_oxford_day/ppt/bach2.pps. 2007a, 2007.
[4] Bachman L F, A S Palmer. Language Assessment in Practice: Developing Language Assessments and Justifying their Use in the Real World [M]. Oxford: Oxford University Press, 2010.
[5] Bachman L F, A S Palmer. Language Testing in Practice: Designing and Developing Useful Language Test [M]. Oxford: Oxford University Press,1996.
[6] Bachman L F. Building and Supporting a Case for Test Use [J]. Language Assessment Quarterly,2005,(1).
[7] 徐啟龍.AUA框架——語言測評理論的新發(fā)展[J].外語電化教學(xué),2012,(01):37-41.
[8] 劉建華,馬睿,郜國民,等.主觀題網(wǎng)上閱卷員隊伍建設(shè)與誤差控制研究[J].中國考試,2012,(09):32-39.
[9] 肖媛,劉玉屏,李群鋒.漢語水平考試(HSK)評分員培訓(xùn)的實證研究[J].中國考試,2022,(09):69-75.
[10] 王祖嫘.《國際中文教育中文水平等級標準》與海外中文課程大綱的耦合與互動[J].貴州師范大學(xué)學(xué)報(社會科學(xué)版),2024,(03):84-95.
[11] 喬恒宇.敘事型語篇的信息結(jié)構(gòu)及其認知分析[J].雞西大學(xué)學(xué)報,2016,16(09):140-143.
[12] 胡范鑄,劉毓民,胡玉華.漢語國際教育的根本目標與核心理念——基于“情感地緣政治”和“國際理解教育”的重新分析[J].華東師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2014,46(02):145-150+156.
[13] 辜向東,彭康洲.從測試有用性到測試使用論證:Bachman語言測試理論的新發(fā)展[J].中國外語,2008,(06):37-41+46.
[14] 祖曉梅.新時期中國文化教學(xué)與傳播的新探索——以《國際中文教育用中國文化和國情教學(xué)參考框架》為例[J].寧波大學(xué)學(xué)報(教育科學(xué)版),2023,45(01):5-7+19.
A Review of the International Chinese Proficiency Test Under the AUA Testing Framework
Jin Jingwen1" Dai Chunqian1" Sun Zhiguang2
1 International Education Center, Nanjing University of Chinese Medicine,Nanjing, Jiangsu, 210046
2 First Clinical Medical College, Nanjing University of Chinese Medicine, Nanjing, Jiangsu, 210046
Abstract: Based on the Assessment Use Argumentation framework, the validity of the International Chinese Proficiency Test is verified. The study found that it has the authenticity elements of the test framework, but at the same time there are problems such as the lack of matching between the cultural backgrounds of the raters and the candidates, the neglect of the interaction between primary Chinese proficiency learners and Chinese culture, and the lack of matching between the translation assessment tasks and the candidates’ native language background. Accordingly, suggestions such as regional matching of raters, increasing examination of cultural factors, and diversification of text languages are put forward.
Key words: Assessment Use Argument Framework, the Chinese Proficiency Test, Validity, Argumentation Analysis
(責(zé)任編輯:吳茳、王瑋)