[摘要]" 混合方法研究是教育研究領域的“第三種研究范式”,它能整合質性和量化研究方法,更有效地解決復雜的研究問題,因而逐漸應用在語言測試研究領域??疾旎旌戏椒ㄑ芯吭O計類型后發現,語言測試混合方法研究可分為“無名有實”“半名半實”“名實兼備”三種類型,且當前語言測試混合方法研究仍有潛力需要挖掘。探究混合方法研究質量的評價標準、模型與指標,有助于找尋當前語言測試混合方法研究存在問題的根源,提升語言測試混合方法研究的質量?;旌戏椒ㄑ芯康膽每梢酝苿诱Z言測試學科的發展,也將助益我國全面建設外語能力測評體系。
[關鍵詞]" 混合方法研究;語言測試;混合研究設計;質量標準
[中圖分類號]" H319" [文獻標識碼]" A" [文獻編號]" 1002-2643(2024)04-0075-10
Design and Quality Criteria of Mixed Methods Research inLanguage Testing
HUANG Yongliang1" WANG Jiayu2
(1. Hebei Normal University, Shijiazhuang 050024, China;2. Beijing Foreign Studies University, Beijing 100089, China)
Abstract: As the third research paradigm in educational research, mixed methods research integrates qualitative and quantitative methodologies to effectively address complex research problems, and has gradually been applied in the field of language testing. After examining mixed methods research designs, it is found that the research designs in language testing can be categorized into three types: unlabelled but practical, semi-labelled and semi-practical, and labelled and practical, containing untapped research potential. Investigating the quality criteria, models, and indicators for the quality of mixed methods research can help identify the root causes of existing problems, thus enhancing the quality of mixed methods research in language testing. The application of mixed methods research not only contributes to the development of language testing but also aids in the construction of China’s foreign language assessment system.
Key words: mixed methods research; language testing; mixed research design; quality criteria
收稿日期:2022-03-02;修改稿,2024-05-28;本刊修訂,2024-06-24
基金項目:本文為教育部人文社會科學重點研究基地重大項目“新發展階段中國外語教育自主知識體系創新研究”(項目編號:22JJD740011)的階段性成果。
作者簡介:黃永亮,博士,教授。研究方向:語言測試、外語教育。電子郵箱:huang@bfsu.edu.cn。 王佳雨,博士研究生。研究方向:語言測試。電子郵箱:wangjiayu@bfsu.edu.cn。
引用信息:黃永亮,王佳雨.語言測試混合方法研究的設計類型與質量標準[J].山東外語教學,2024,(4):75-84.
DOI:10.16482/j.sdwy37-1026.2024-04-008
1.引言
混合方法研究是“一種研究取向,在社會科學、行為科學和健康科學等領域,研究者收集、整合量化(封閉式)數據和質性(開放式)數據,而后在整合兩類數據優勢合力的基礎上進行詮釋,以更好地理解研究問題” (Creswell, 2014:2)。混合方法研究中的“混合”既體現在研究方法上,又體現在研究設計上,還體現在哲學觀上。具體而言,研究者首先要依據研究問題和研究假設謹慎地收集、分析質性數據和量化數據,接著要整合兩類數據及其結果,繼而將上述步驟納入具體、明確的研究設計,并將研究設計置于相關理論和哲學觀的框架之內(Creswell amp; Clark, 2018)?;旌戏椒ㄑ芯磕軌蚧卮鹳|性研究或量化研究單一研究路徑無法回答的問題,能夠提供更多的證據并進行更有力的推論,能對研究問題提供更加多元的解答視角(Teddlie amp; Tashakkori, 2003),是繼量化研究和質性研究之后教育研究領域的“第三種研究范式”(Johnson amp; Onwuegbuzie, 2004:14)。近年來混合方法研究在教育研究領域愈發受到重視(侯家英等,2023),語言測試領域亦是如此(張培欣等,2021)。
然而,語言測試領域的混合方法研究的質量尚不夠理想(Jang et al., 2014; 袁雪寒、韓寶成, 2023)。本文通過考察混合方法研究的設計類型及其在語言測試研究中的應用現狀,探析混合方法研究質量的評價標準、模型與指標,反思語言測試領域混合方法研究質量提升的潛在空間,以助力語言測試學科的發展。
2.語言測試混合方法研究的設計類型
2.1 混合方法研究的設計類型
依據Creswell amp; Clark(2018)、Dawadi et al.(2021)、Riazi(2017)等學者的觀點,混合方法研究的設計包括基礎設計和高階設計兩種類型。
基礎設計包括會合式設計(convergent design)、解釋式序列設計(explanatory sequential design)和探索式次序設計(exploratory sequential design)三種類型?;A設計是混合方法研究方案設計的核心。其中,會合式設計意在融合量化數據與質性數據分析的結果。因為量化數據和質性數據兩種數據形式能夠提供不同的觀點,融合二者有助于從多元視角審視研究問題,所以這種融合可為具體研究問題提供整合式的解決方案。解釋性序列設計意在融合量化數據和質性數據進行分段研究,首先通過量化手段收集、分析數據,然后采用質性手段解釋上述量化結果。第一階段的量化研究能夠提供較為概括的結果,后一階段的質性研究能夠結合具體情境對前期量化結果進行更加深入的解讀。探索式次序設計意在使用質性手段收集、分析數據,并初步探索研究問題,然后運用上述質性結果開發量化研究所需的測量單元、新的測量工具或新的實驗介入活動,進而在下一階段加以應用探索式次序設計既需要投入較長的時間,又需要利用質性研究的結果并將其轉化為新的研究變量、新的測量工具或新的實驗介入活動,因此,在一定意義上講,它在三種基礎設計中的難度最大?;旌戏椒ㄑ芯康母唠A設計包括介入設計(intervention design)、個案研究設計(case study design)、參與式社會正義設計(participatory-social justice design)和多階段評估設計(evaluation design)四種類型。相較基礎設計,高階設計更為復雜,整體難度也更大。
2.2 語言測試中的混合方法研究設計
如同其他社會科學和行為科學領域,混合方法研究設計在語言測試領域愈發受到重視,研究成果不斷涌現,而且有著不斷增長的趨勢(Jang et al., 2014)。2013—2022年僅在Language Testing、Language Assessment Quarterly和Assessing Writing三種語言測試期刊共計發表83篇采用混合方法研究設計的文章(袁雪寒、韓寶成, 2023)。縱觀三十余年來語言測試領域涉及混合方法研究設計的研究成果,依據其研究特點,大致可分為“無名有實”型混合方法研究設計、“半名半實”型混合方法研究設計和“名實兼備”型混合方法研究設計三類。
2.2.1 “無名有實”型混合方法研究設計
該類研究的共同特征是其研究方法部分未明確提及、討論或直接使用“混合方法研究設計”這一名稱,卻在研究的其他部分觸及了混合方法研究設計的實質,故稱為“無名有實”型混合方法研究設計。該類混合方法研究設計包括三種情況:
(1)研究方法部分未明確提及或討論混合方法研究設計,卻融合了不同研究取向,在研究結果部分同時報告了質性和量化數據,并對數據進行了相應的解讀。如Brown(2003)研究口語測試考官對考生口語能力認知的個體差異及其對考生口語作答表現評價的影響;Clapham(1996)考察背景知識對閱讀理解測試作答表現的影響。
(2)研究方法部分未直接使用“混合方法研究設計”的名稱,取而代之的是“同時采用不同研究類型”或“同時使用質性和量化數據或進行質性和量化數據分析”等表述(Lynch, 1992;Phakiti, 2003;Uiterwijk amp; Vallen, 2005)。
(3)研究方法部分未提及使用“混合方法研究設計”,卻在通讀研究結果討論部分后能夠推斷出該研究確實采用了“混合方法研究設計”。如Ekkens amp; Winke(2009)在研究結果討論部分同時使用標準化測試和學習日志兩類數據來考察為工作場所開發的語言項目;Kiddle amp; Kormos(2011)則同時使用測試成績和調查問卷兩類數據來考察口語測試中半直接型和面對面型回應方式的不同影響。
2.2.2 “半名半實”型混合方法研究設計
該類研究雖未明確提及、討論或直接使用“混合方法研究設計”這一名稱,但其研究方法部分明確提及“混合方法研究設計”的部分要素,故稱為“半名半實”型混合方法研究設計。例如,Barkaoui(2010)的研究采用研究參與者作答分數和評分員對相應評分的書面解釋等數據,分析英語作為第二語言作文寫作題目整體評分及評分員的評價標準與其評閱經驗之間的關系;Kim(2008)采用問卷調查、訪談、內容分析、焦點小組訪談、描述性數據統計分析等方式收集數據,依據效應驅動原則,結合以證據為中心的測試設計框架(ECD),開發讀寫結合的綜合型ESL診斷測試任務,并進行相應的效度論證; Plakans amp; Gebril(2012)采用調查問卷、有聲思維、個人訪談、對研究參與者作答分數進行描述性統計分析和卡方檢驗等方式收集數據,分析讀寫結合型測試任務中所用測試材料的來源特征對研究參與者作答的影響。
2.2.3 “名實兼備”型混合方法研究設計
該類研究的研究方法部分明確說明使用了“混合方法研究”,并對其研究設計的具體類型及步驟進行了詳細的說明,故稱為“名實兼備”型混合方法研究設計?;旌戏椒ㄑ芯吭O計流程示意圖可有效揭示各設計要素之間的關系,因而是否提供混合方法研究設計流程示意圖可視作一個簡單的分類標準。據此標準,該類混合方法研究設計包括兩種情況:
(1)研究中未提供混合方法研究設計流程示意圖。
Baker(2012)的混合方法研究設計采用評分員書面有聲報告(write-aloud protocols)和研究參與者的測試分數兩類數據,分析評分員決策認知過程中的個體差異。Grabowski(2009)的混合方法研究設計采用概化理論、多面Rasch模型、話語分析等方式收集數據,考察擬測語法知識和語用知識的口語測試的構念效度。Kim(2009)的混合方法研究設計采用研究參與者的測試分數和教師評分員書面評價兩類數據,比較半直接英語口語測試中本族語教師和非本族語教師在考生口語作答評分中的不同特征。Lee amp; Greene(2007)的混合方法研究設計采用相關數據庫、問卷調查、訪談、描述性統計分析等方式收集數據,分析英語作為第二語言的研究生分班測試分數與學習成績平均基點、教師評價、學生自評等三種學術表現評價手段之間的關系。Neumann(2011)的混合方法研究設計采用研究參與者作答分數和教師評分員對評閱分數的書面解釋兩類數據,比較教師評分員對二語學術寫作測試的語法能力評分中表現出來的異同點。
(2)研究中明確提供了清晰的混合研究設計流程示意圖。
Galaczi amp; Khabbazbashi(2016)采用多階段探索式次序設計開發高利害二語口語測試評分量表。該研究分三階段進行。第一階段采用話語分析和主題分析等手段收集、分析質性數據;第二階段同時采用有聲思維和多層面Rasch模型等手段分析評分量表描述語,收集質性數據和量化數據,該階段自身屬于會合式次序設計;第三階段采用多層面Rasch模型分析評分員評分一致性以驗證評分量表和測試的效度。該研究能夠讓質性研究和量化研究的互補優勢得以發揮,能夠整合上述研究結果進行元推理,努力平衡上述研究方法的不足之處,通過有力的論證讓評分量表的效度得到保障。
Elliott amp; Lim(2016)采用多階段會合設計開發劍橋高級證書(CAE)新測試任務。該研究分三階段進行。第一階段通過文獻回顧論證新測試任務研發的必要性,進而初步確定測試任務說明和新的測試任務樣例;第二階段同時采用Rasch模型和專家判斷收集、分析量化和質性數據,前者通過Rasch模型分析試測過程中研究參與者作答成績,以論證測試任務的評分效度,后者依據社會認知框架(SCF)通過專家判斷,分析測試任務的認知效度和情境效度;第三階段通過Rasch模型收集、分析測試任務的情境效度和評分效度相關證據。該研究運用會合研究設計研發新的閱讀測試任務的同時,也在社會認知框架下對其預期使用進行效度論證,展現該測試任務良好的效度。
Vidakovic' amp; Robinson(2016)采用探索式次序設計研發法律英語測試任務。該研究分三個階段進行。第一階段采用焦點小組討論、開放式書面評論、開放式調查問卷和專家判斷等手段收集、分析質性數據進行需求分析;第二、三階段統計分析上述數據中關鍵信息的出現的頻率和所占的百分比,以確保測試內容的真實性和適切性,繼而使用經典測量理論(CTT)和項目反應理論(IRT)分析該測試的效度。該研究同時采用語言測試領域較為新穎的“以社團為基礎的參與研究路徑(CBPR)”進行法律英語測試的研發,其創新點在于測試開發中所涉及的法律專家兼具研究對象和研究伙伴的雙重身份。這與混合設計一起實現了研究中不同聲音的交匯,使得研究呈現畫面更加豐富、可信度更高。
Khalifa amp; Docherty(2016)采用會合式平行設計探討某一國際測試的后效影響。該研究分三步進行。第一步同時采用問卷調查和測試等手段和開放式評論、半結構式訪談以及焦點小組討論等手段分別收集、分析量化數據和質性數據;第二步同時采用描述性統計分析和小組比較等手段和主題分析分別對上一步中的研究參與者作答分數和轉寫出的文本資料進行分析,以確定各項相關參數和主要關注點;第三步整合上述數據,進行深入分析,以確定該測試對利益相關群體的后效影響。該研究發現表明,采用會合式平行設計進行測試后效研究要優于單一的量化研究或質性研究。
Youn(2013)采用探索式次序設計論證學術英語情境下基于任務的二語互動語用課程測試任務效度。該研究的主體部分分兩個階段進行。第一階段,通過會話分析手段收集質性數據;第二階段,通過描述性數據統計、多面Rasch模型和相關分析收集量化數據。該研究有力的論證了新開發的測試任務的效度。該研究的另一新穎之處在于,主體研究完成之后,研究者還對主體研究的混合方法研究設計方案的質量進行論證。Youn(2015)的研究聚焦上述研究中評分量表的效度論證,亦采用探索式次序設計,分兩個階段進行。第一階段,通過會話分析收集質性數據;第二階段,通過多面Rasch模型收集量化數據。該研究采用的混合方法研究設計為測試任務評分量表的效度論證提供有力的支撐。同時,Youn(2013;2015)的研究為測試任務設計,特別是評價推理環節中測試任務評分量表效度論證的混合方法研究設計提供了參照樣例。
黃永亮(2020)采用探索式次序設計驗證研發中的“英語教師證書考試”批判性思維能力測試任務的效度。在質性研究階段,依據受邀專家對測試任務內容和評分標準的反饋意見,判斷測試任務內容的相關性、取樣的充分性和評分標準的可靠性;通過研究參與者的有聲思維和訪談數據,揭示其作答過程能在何種程度上反映擬測的英語教師批判性思維能力;通過研究參與者的文本分析,考察其作答的主題能在何種程度上反映評分量表的各個維度,其作答的內容能在何種程度上反映評分量表各維度的相關特征。在量化研究階段,采用FACETS(3.81.2)軟件,就評分量表的維度設置、分數檔劃分、評分員一致性等方面,對五位評分員評閱的69位研究參與者有效作答分數進行多面Rasch模型分析。研究結果表明,該測試任務具有較高的效度。
上述混合方法研究設計成果,尤其是“名實兼備”型研究成果明確采用探索式次序設計、會合式次序設計等基礎混合方法研究設計方案,依據清晰的混合方法研究設計流程進行數據的收集、分析與整合,可謂名至實歸。當然,也有混合方法研究設計成果似乎不在上述三類范圍之內(潘鳴威、吳金杰, 2023)。
3.語言測試混合方法研究的質量評價
3.1 混合方法研究質量評價的標準、模型與指標
評價混合方法研究的質量涉及對傳統研究路徑的熟悉程度、研究數據的效度和信度、混合研究獨有的數據分析技巧與傳統研究路徑中數據分析策略的結合程度等不同方面(Tashakkori amp; Teddlie, 1998)。具體而言,采用混合方法研究設計,研究者應同時熟悉質性研究和量化研究兩種方法,能夠在二者之間自如轉換。在此基礎上,研究者既要評估質性研究和量化研究所收集的研究數據的質量,又要評估據此做出的推斷和結論的質量,也就是確保過程效度和設計效度。研究者還要將質性研究和量化研究路徑中的數據分析技巧與混合方法研究自身的分析策略有效地結合起來。不難看出,這屬于宏觀的原則性的混合方法研究的質量評價標準。
Teddlie amp; Tashakkori(2003)提出推理質量(inference quality)這一混合方法研究質量的評價標準。推理質量是設計質量和解釋嚴密度(interpretive rigor)的結合體,設計質量是指研究設計能否得到最佳的實施,解釋嚴密度是指研究結果的可信度。他們設定了內在設計(within-design)一致性、概念一致性、樣本解釋一致性(interpretive agreement or consistency)和解釋可區分性(interpretive distinctiveness)等一套完備的推理質量評價標準。由此可見,推理質量兼顧混合方法研究設計方法論的評價標準和研究結果效度的評價標準,覆蓋研究設計、研究過程和研究結果的全過程,具有一定的可操作性。他們還提出表示研究結果所具有的概化能力的推理遷移性(inference transferability)概念,包括樣本遷移性、生態遷移性、時間遷移性和操作遷移性。這有助于研究者恰當地區分數據質量(data quality)和推理質量(Onwuegbuzie amp; Johnson, 2006)。
在推理質量和推理遷移性等理論分析的基礎上,Tashakkori amp; Teddlie(2006)進一步提出評價混合方法研究質量的綜合質量模型。該模型由設計質量和解釋嚴密度兩部分構成。具體而言,設計質量的評價指標包括內在設計一致性、設計適宜度、設計忠實性和分析充分性;解釋嚴密度的評價指標則包括樣本解釋一致性(interpretive agreement)、解釋可區分性、結果解釋一致性(interpretive consistency)、理論一致性和綜合效力(integrative efficacy)。綜合質量模型沿用先前的設計質量和解釋嚴密度兩個核心術語的同時,部分調整半數以上二者所涵蓋的關鍵指標的表述方式,細化個別評價指標,并增加新的評價指標。相較先前的理論分析,綜合質量模型的評價指標顯得更為全面、細致、系統,更具操作性。而Onwuegbuzie amp; Johnson(2006)則認為,評價混合方法研究質量的綜合質量模型仍需進一步完善與拓展,因為該模型僅將推理視作最終的結果,而忽視了推理作為過程的存在。實際上,混合方法研究中的推理既是結果又是過程。同時,綜合質量模型亦未明確各類效度在混合方法研究評價過程中所發揮的作用。為此,他們提出正當性(legitimation)這一較為中性,沒有明顯的量化研究或質性研究傾向性的概念,作為混合方法研究的質量評價指標。正當性是指得出的研究發現和(或)做出的推理的可接受性、可信性、可靠性、可遷移性和(或)可證實性。正當性涵蓋樣本綜合正當性、內在參與者—外在參與者正當性、弱點最小化正當性、序列正當性、推理轉換正當性、范式混合正當性、等量正當性、多重效度(multiple validities)正當性和政治正當性等九種子類型。
正當性是評價混合方法研究質量的關鍵指標,是Tashakkori amp; Teddlie(2006)綜合質量模型的有益補充。為保證正當性概念的可操作性,Onwuegbuzie amp; Johnson(2006)構建出可分別用于評價混合方法研究中的量化研究部分和質性研究部分所具有的正當性的相應模型。他們特別強調,對混合方法研究正當性的考察是一個過程,是一個兼跨邏輯分析、社會學、美學、主位、客位、政治學、倫理學等學科的多維考察過程。盡管如此,質性研究正當性模型雖相對全面,但絕非十全十美(Onwuegbuzie amp; Leech, 2007)。
3.2 混合方法研究的統一效度驗證框架
Dellinger amp; Leech(2007)積極評價上述綜合質量模型和正當性概念及其理論解釋,認為它們為混合方法研究的質量評估與推理提供了重要的評價標準,但它們仍然依循當下傳統的效度評價標準,將混合方法研究中的量化研究和質性研究各自孤立地進行評價。因此,混合方法研究的效度問題需進一步深入的探討。于是,依據Messick(1995)統一效度觀下的構念效度理論,緊扣混合方法研究過程中各類研究數據之間的張力,提出混合方法研究的統一效度驗證框架。
統一效度驗證框架由基礎要素、推理一致性、應用/歷史要素和后果要素等四部分構成。其中,基礎要素反映出研究者對當下的研究構念和(或)研究的現象的先前的理解;推理一致性是指研究中所做的推理是否與特定的已知先前的理解、后續研究及相關理論相一致;應用/歷史要素指應用和使用的證據,是構念效度證據的來源;后果要素取決于對最終研究發現、研究措施或研究推理所引發后果的社會接受度的判斷。不難看出,統一效度驗證框架四要素中既使用了先前評價標準中的推理一致性,又借用了應用/歷史要素和后果要素,還創造了基礎要素這一新術語。因此,混合方法研究的統一效度驗證框架猶如一個大熔爐,緊扣統一效度觀,試圖囊括先前一切有益的研究成果。不僅如此,該框架也適用于量化研究和質性研究的效度驗證,還有助于研究者整理研究思路,整理構念效度驗證所需的證據,審視并評定所收集的構念效度證據,提高研究者自身使用研究發現的興趣。統一效度驗證框架試圖囊括萬象,包打一切,試圖完美地解決混合研究、量化研究和質性研究的效度問題,其實際操作效果或許不言自明。套用Teddlie amp; Tashakkori(2003)對效度概念的評價,當效度概念試圖包羅萬象時,其最本質的意義便不復存在。統一效度驗證框架也不例外。
此外,近兩年Hirose amp; Creswell(2023)提出了評價混合方法研究質量六項核心標準,而Riazi amp; Farsani(2023)提出的混合方法研究質量和透明度的六端評價標準跟前者關系密切,袁雪寒和韓寶成(2023)則在上述兩項研究的基礎上提出了混合方法研究質量評價的六項關鍵指標,采用啟發式提問的方式來釋義。這些研究成果都是混合方法研究質量評價標準研究的有益嘗試。
4.結語
本文在簡要考察混合方法研究設計類型的基礎上,將語言測試領域中的混合方法研究成果分為“無名有實”“半名半實”“名實兼備”三種類型,亦發現當前語言測試的混合方法研究仍有相當大的潛力需要挖掘。探析混合方法研究質量的評價標準、模型與指標,有助于找尋當前語言測試混合方法研究存在問題的根源,進而助益提升語言測試混合方法研究的質量。未來語言測試混合方法研究質量評價標準的深入探討,一旦達成共識,則語言測試混合方法研究的質量監控便有據可依,有助于進一步增強研究結論的說服力?;旌戏椒ㄑ芯康膽迷谕苿诱Z言測試學科發展的同時,也將助益我國全面建設外語能力測評體系。
參考文獻
[1]Baker, B. A. Individual differences in rater decision-making style: A mixed-methods study[J]. Language Assessment Quarterly, 2012, 9 (3): 225-248.
[2]Barkaoui, K. Do ESL essay raters’ evaluation criteria change with experience? A mixed-methods, cross-sectional study[J]. TESOL Quarterly, 2010, 44 (1): 31-57.
[3]Brown, A. Interviewer variation and the co-construction of speaking proficiency[J]. Language Testing, 2003, 20 (1): 1-25.
[4]Clapham, C. The Development of IELTS: A Study of the Effect of Background Knowledge on Reading Comprehension[M]. New York: Cambridge University Press, 1996.
[5]Creswell, J. W. A Concise Introduction to Mixed Methods Research[M]. Thousand Oaks: Sage Publications, Inc, 2014.
[6]Creswell, J. W. amp; V. L. P. Clark. Designing and Conducting Mixed Methods Research[M]. Thousand Oaks: Sage Publications, Inc, 2018.
[7]Dawadi, S., S. Shrestha amp; A. Giri. Mixed-Methods research: A discussion on its types, challenges, and criticisms[J]. Journal of Practical Studies in Education, 2021, 2(2): 25-36.
[8]Dellinger, A. B. amp; N. L. Leech. Toward a unified validation framework in mixed methods research[J]. Journal of Mixed Methods Research, 2007, (1): 309-332.
[9]Ekkens, K. amp; P. Winke. Evaluating workplace English language programs[J]. Language Assessment Quarterly, 2009, 6 (4): 265-287.
[10]Elliott, M. amp; G. S. Lim. The development of a new reading task: A mixed methods approach[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 233-268.
[11]Galaczi, E. amp; N. Khabbazbashi. Rating scale development: A multistage exploratory sequential design[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 208-232.
[12]Grabowski, K. C. Investigating the Construct Validity of a Test Designed to Measure Grammatical and Pragmatic Knowledge in the Context of Speaking[D]. Columbia University, 2009.
[13]Hirose, M. amp; J. Creswell. Applying core quality criteria of mixed methods research to an empirical study[J]. Journal of Mixed Methods Research, 2023, (17): 12-28.
[14]Jang, E., M. Wagner amp; G. Park. Mixed methods research in language testing and assessment[J]. Annual Review of Applied Linguistics, 2014, (34): 123-153.
[15]Johnson, R. B. amp; A. J. Onwuegbuzie. Mixed methods research: A research paradigm whose time has come[J]. Educational Researcher, 2004, 22 (7): 14-26.
[16]Khalifa, H. amp; C. Docherty. Investigating the impact of international assessment: A convergent parallel mixed methods approach[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 269-295.
[17]Kiddle, T. amp; J. Kormos. The effect of mode of response on a semidirect test of oral proficiency[J]. Language Assessment Quarterly, 2011, 8 (4): 342-360.
[18]Kim, J. Y. Development and Validation of An ESL Diagnostic Reading-to-write Test: An Effect-driven Approach[D]. University of Illinois at Urbana-Champaign, 2008.
[19]Kim, Y. H. An investigation into native and non-native teachers’ judgments of oral English performance: A mixed methods approach[J]. Language Testing, 2009, 26 (2): 187-217.
[20]Lee, Y. J. amp; J. Greene. The predictive validity of an ESL placement test: A mixed methods approach[J]. Journal of Mixed Methods Research, 2007, 1 (4): 366-389.
[21]Lynch, B. K. Evaluating a program inside and out[A]. In J. C. Alderson amp; A. Beretta(eds.). Evaluating Second Language Education[C]. Cambridge: Cambridge University Press, 1992. 61-99.
[22]Messick, S. Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning[J]. American Psychologist, 1995, 50 (9): 741-749.
[23]Neumann, H. What’s in A Grade? A Mixed Methods Investigation of Teacher Assessment of Grammatical Ability in L2 Academic Writing[D]. Mcgill University, 2011.
[24]Onwuegbuzie, A. J. amp; N. L. Leech. Validity and qualitative research: An oxymoron?[J]. Quality amp; Quantity, 2007, 41 (2): 233-249.
[25]Onwuegbuzie, A. J. amp; R. B. Johnson. The validity issue in mixed research[J]. Research in the Schools, 2006, 13 (1): 48-63.
[26]Phakiti, A. A closer look at the relationship of cognitive and metacognitive strategy use of EFL reading achievement test performance[J]. Language Testing, 2003, 20 (1): 26-56.
[27]Plakans, L. amp; A. Gebril. A close investigation into source use in integrated second language writing tasks[J]. Assessing Writing, 2012, 17 (1): 18-34.
[28]Riazi, A. Mixed Methods Research in Language Teaching and Learning[M]. Sheffield: Equinox, 2017.
[29]Riazi, A. amp; M. Farsani. Mixed-Methods research in Applied Linguistics: Charting the progress through the second decade of the Twenty-First Century[J/OL]. Language Teaching. 2023. Http:// doi: 10. 1017/S0261444823000332.[2023-08-16]
[30]Tashakkori. A. amp; C. Teddlie. Applied Social Research Methods Series, Vol. 46. Mixed Methodology: Combining Qualitative and Quantitative Approaches[M]. Thousand Oaks, CA: Sage Publications, Inc, 1998.
[31]Tashakkori, A. amp; C. Teddlie. Validity Issues in Mixed Methods Research: Calling for an Integrative Framework[R]. Paper Presented at the Annual Meeting of the American Educational Research Association, San Francisco, CA, 2006.
[32]Teddlie, C. amp; A. Tashakkori. Major issues and controversies in the use of mixed methods in the social and behavioral sciences[A]. In A. Tashakkori amp; C. Teddlie (eds.). Handbook of Mixed Methods in Social and Behavioral Research[C]. Thousand Oaks, CA: Sage Publications, Inc, 2003. 3-50.
[33]Uiterwijk, H. amp; T. Vallen. Linguistic sources of item bias for second generation immigrants in Dutch tests[J]. Language Testing, 2005, 22 (2): 211-234.
[34]Vidakovic', I. amp; M. Robinson. A community-based participatory approach to test development: The international legal English certificate[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 177-207.
[35]Youn, S. J. Validating Task-based Assessment of L2 Pragmatics in Interaction Using Mixed Methods[D]. University of Hawai’ i at Manoa, 2013.
[36]Youn, S. J. Validity argument for assessing L2 pragmatics in interaction using mixed methods[J]. Language Testing, 2015, 32 (1): 199-225.
[37]侯家英,白倩,李藝. 現象學視野中質性與量化研究方法論討論——以教育混合方法研究為例[J]. 電化教育研究, 2023,(2):22-27.
[38]黃永亮. 英語教師證書考試批判性思維能力測試任務效度研究[D]. 北京外國語大學,2020.
[39]潘鳴威,吳金杰.診斷測試視角下的間接與直接寫作測試互補性研究[J].山東外語教學, 2023,(3):13-25.
[40]袁雪寒, 韓寶成. 語言測試的混合方法研究:原則、應用與問題[J]. 外語與外語教學,2023, (6): 40-49.
[41]張培欣, 范勁松, 賈文峰.國際語言測試研究熱點與趨勢分析(2008-2018)[J]. 外語教學與研究, 2021,(4):618-627.(責任編輯:孫炬)