高考英語測試滿意度與改革支持度關系研究
——基于高中英語教師視角的結構方程模型分析*①

2022-07-21 14:02:30張浩

山東師范大學學報(社會科學版) 2022年3期

張浩

(北京師范大學外國語言文學學院，北京，100875 )

自1977年恢復高考以來，高考英語測試在考查內容、測試形式及標準化程度等諸多方面發生了深刻變化，為促進學生發展、科學選拔人才、提高教育質量、服務國家現代化建設作出了重要貢獻。(1)姜鋼：《〈實施意見〉：我國新一輪高考改革的綱領性文件》，《中國考試》2017年第2期。與其他大規模高風險考試相同，高考英語測試具有涉及范圍廣、社會權重大的特點，其高利害性、權威性和測試結果的不可逆性決定了高考英語測試必須對利益相關者負責并對社會產生積極有益的影響。(2)Shohamy, E, “Using language tests for upgrading knowledge: The phenomenon, source and consequences”, Hong Kong Journal of Applied Linguistics, No. 5, 2000, pp. 1-18.④Bachman, L. F., “Foreword”, In L. Cheng & A. Curtis eds.,English Language Assessment and Chinese Learner, New York: Routledge, 2010, pp. x-xii.國務院于2014年9月印發的《關于深化考試招生制度改革的實施意見》明確提出進一步深化高考考試內容改革，加強我國外語能力測評體系建設，以更好地服務科學選才、助力外語教學改革、提升外語教育質量。(3)林蕙青：《深化考試招生制度改革加強國家外語能力測評體系建設》，《中國考試》2015年第1期。《教育部考試中心事業發展“十四五”規劃》(4)孫海波：《擘畫高質量事業發展新藍圖開啟現代化機構建設新征程》，《中國考試》2022年第1期。、“一核四層四翼”高考評價體系的構建(5)教育部考試中心：《中國高考評價體系》，北京：人民教育出版社，2019年。及以該體系為基礎的高考英語科考試內容改革實施路徑的確立(6)陳康、吳泓霖、李新煜等：《基于高考評價體系的英語科考試內容改革實施路徑》，《中國考試》2019年第12期。則為新時代高考英語測試內容改革奠定了堅實的基礎。

高考不僅是為高校選拔人才的手段，更是教書育人全局中的關鍵環節。作為基礎教育和高等教育的銜接機制，社會利益和公眾情緒的聚合點，高考的每一項改革都牽動著整個社會的神經。(7)謝維和：《高考改革：定位、形態與變量》，《中國考試》2014年第10期。高考英語測試改革要取得成功，要辦好人民滿意的考試，社會對改革舉措的支持至關重要。高中英語教師是高中英語教學活動的組織實施者，也是高考英語測試改革的重要推動者。因此，關注高中英語教師對高考英語測試改革的看法尤為重要。有研究人員從教師個人背景因素的角度探究了高中英語教師對高考英語測試相關改革措施的態度。(8)張浩、郭茜、張文霞：《高考英語科成績報告改革的態度調查研究——基于一項大規模全國性調查》，《外語學刊》2018年第1期；張浩、張文霞、吳莎等：《高考英語一年兩考改革的態度調查》，《中國考試》2018年第1期；張浩、吳莎、郭茜等：《高考英語計算機化改革的態度調查研究》，《基礎教育》2019年第3期。但除個人背景因素外，影響高中英語教師在高考英語測試改革這一問題上所持觀點的因素還有很多，從中抽絲剝繭，發現關鍵問題，對推動改革的動態發展具有重要意義。本研究在參考既往顧客滿意度指數模型的基礎上構建高考英語測試滿意度—改革支持度關系模型，從滿意度視角分析和探討高中英語教師對高考英語測試改革的看法、影響因素和路徑關系，以期為進一步推進高考英語測試改革提供參考和借鑒。

一、理論基礎

源自市場營銷領域的顧客滿意度研究，從用戶和消費者的角度綜合評估消費結果相對于期望的實現程度。(9)Hempel, D., Laric, M. V., and Mandell, L., “Vertical performance management: Strategic implications for financial service”, Journal of Economics and Business, Vol. 34, No. 1, 1982, pp. 13-19.顧客滿意度由Cardozo(1965)提出(10)Cardozo, R. N., “An experimental study of customer effort, expectation, and satisfaction”, Journal of Marketing Research, Vol. 2, No. 3, 1965, pp. 244-249.，后續發展為“顧客對產品和服務質量與其原有期望進行對比后產生的滿意或失望的心理感受”(11)Churchill, G. A. and Surprenant, C., “An investigation into the determinants of customer satisfaction”, Journal of Marketing Research, Vol. 19, No. 4, 1982, pp. 491-504.。經濟學及管理學研究中通常用顧客滿意度指數(Customer Satisfaction Index, CSI)衡量顧客滿意度，而結構方程模型則是計算CSI最常用的方法。瑞典是首個在全國范圍內進行顧客滿意度調查的國家，其瑞典顧客滿意度指數(Sweden Customer Satisfaction Barometer, SCSB)模型包括五個潛在變量：預期質量、感知價值、顧客滿意度、顧客抱怨及顧客忠誠。隨后的美國顧客滿意度指數(American Customer Satisfaction Index, ACSI)模型和歐洲顧客滿意度指數(European Customer Satisfaction Index, ECSI)模型繼承并發展了SCSB模型。我國于2002年由中國標準化研究院與清華大學聯合開發的中國顧客滿意度指數(China Customer Satisfaction Index, CCSI)模型則包含了品牌形象、預期質量、感知質量、感知價值、顧客滿意度和顧客忠誠共六個潛在變量。

近年來，顧客滿意度研究也逐漸受到招生考試領域的關注，例如厲浩等(2015)以江蘇省數據為基礎，構建了招生考試滿意度指數模型。(12)厲浩、何建敏、佘明：《高校招生考試滿意度的測度模型與實證分析》，《統計與決策》2015年第18期。申永豐、張筱燕(2016)則以ACSI為參考，建立了包含五個一級指標的高校招考工作考生滿意度測評指標體系。(13)申永豐、張筱艷：《基于ACSI的高校招考工作考生滿意度測評指標體系研究》，《湖北招生考試》2016年第20期。然而，針對高利害外語考試的滿意度的研究較少，僅有少數研究者構建了相關考試的滿意度模型。吳莎、鄭宏山(2020)在全國14個省(市)的104所高校中開展了關于大學英語四六級考試的滿意度調查，基于本科四年級學生和高校英語教師兩個群體的數據，建立了由師生期望、質量感知、感知價值(公信力與科學性)和總體滿意度構成的大學英語四六級考試滿意度模型。(14)吳莎、鄭宏山：《大學英語四六級考試滿意度調查——基于結構方程模型的實證分析》，《中國考試》2020年第4期。

綜上所述，目前關于我國外語考試滿意度的大規模全國性調查相對較為缺乏，且在當前新一輪高考改革已全面啟動的背景下，有必要從滿意度視角對高考英語測試改革措施的支持度進行深入探究。由此，本文在參考既往顧客滿意度指數模型的基礎上構建高考英語測試滿意度—改革支持度關系模型，以一線高中英語教師為受試群體，采用規范的問卷設計，通過結構方程模型方法對所構建模型進行驗證分析，探討模型設定的變量間的結構關系。本文的具體研究問題為：

1.高中英語教師對高考英語測試的滿意度與其對改革支持度間的關系如何？對這一關系產生影響的因素有哪些？各因素之間有著怎樣的路徑關系？

2. 所構建的結構方程模型是否具有多組不變性？參數限制不同的模型中，哪一個為最優多組模型？

二、研究方法

(一)模型構建及研究工具

首先，本研究在借鑒以往顧客滿意度指數模型的基礎上選擇了考試形象、預期質量、感知質量和總體滿意度四個模型組成部分并初步確定了它們之間的結構關系。其次，由于顧客滿意度指數模型中常用的“顧客抱怨”和“顧客忠誠”這兩個顧客滿意度的結果變量不適用于高考英語測試的實際情況，因而本研究使用“改革支持度”進行替換，作為高考英語測試總體滿意度的結果變量納入模型中。此外，本研究將以往顧客滿意度指數模型中的“預期質量”和“感知質量”按高考英語測試整體工作流程分別細化為試題設計、考試組織管理和閱卷及成績報告三部分加入模型中，進而初步確定了高考英語測試滿意度—改革支持度關系模型的結構模型部分(見圖1，箭頭起始端為自變量，結尾端為因變量)。

圖1 高考英語測試滿意度—改革支持度關系模型(結構模型部分)

模型具體結構關系假設為(“→”表示存在顯著影響力)：考試形象→試題設計預期質量(H1)、考試形象→考試組織管理預期質量(H2)、考試形象→閱卷及成績報告預期質量(H3)、考試形象→試題設計感知質量(H4)、考試形象→考試組織管理感知質量(H5)、考試形象→閱卷及成績報告感知質量(H6)、試題設計預期質量→試題設計感知質量(H7)、考試組織管理預期質量→考試組織管理感知質量(H8)、閱卷及成績報告預期質量→閱卷及成績報告感知質量(H9)、試題設計預期質量→總體滿意度(H10)、考試組織管理預期質量→總體滿意度(H11)、閱卷及成績報告預期質量→總體滿意度(H12)、試題設計感知質量→總體滿意度(H13)、考試組織管理感知質量→總體滿意度(H14)、閱卷及成績報告感知質量→總體滿意度(H15)和總體滿意度→改革支持度(H16)。其中，H10-H12及H16設定為負向相關關系，其他結構關系假設設定為正向相關關系。

在此結構模型的指導下，本研究結合相關文獻及前期調研結果建立了各潛在變量的測量模型。首先，本研究以Bachman和Palmer(2010)提出的測試使用論證框架中的要素(15)Bachman, L. F. and Palmer, A. S., Language Assessment in Practice: Developing Language Assessments and Justifying their Use in the Real World, Oxford: Oxford University Press, 2010.為基本出發點，梳理了高考英語測試考試大綱、考試改革方案及其他相關文件和材料，并充分考慮高考英語測試利益相關群體可能的感知要素及關切，初步確定了八個潛在變量的觀測變量指標。隨后，通過專家組討論及教師座談的方式對各觀測變量進行了篩選和修改，最終確定了本研究所建構模型中八個潛在變量各自的測量模型指標體系，所有測量模型均為一階驗證因子模型(見表1)。根據所確定的模型指標體系，本研究編制了包含三部分總計57道題目的調查問卷。第一部分(9道單選題)用于調查受訪對象的個人信息；第二部分(47道李克特五點量表題，1為最低分，5為最高分)旨在收集本研究所建測量模型和結構模型中各觀測變量的相關數據；第三部分(1道開放式問答題)方便受試對其觀點及看法進行具體說明或補充，為本研究討論量化分析結果提供質性數據支撐。

表1 測量模型指標體系

(二)數據收集

本研究以國家統計局及教育部公布的經濟和教育發展相關數據為依據，采用多階段抽樣、分層抽樣結合概率比例規模抽樣的方法抽選安徽、北京、甘肅、河北、河南、湖北、江蘇、遼寧、山東、陜西、上海、云南、浙江和重慶共14個省(市)作為樣本來源地。本研究在抽選省(市)所轄范圍內的各地市(區)中抽取了示范性高中2所、城區非示范性高中3-5所、縣鎮非示范性高中2-3所進行了數據收集工作，并確保所選學校能較好地代表本省(市)各層次學校的實際情況。若被抽選省(市)中有國家級貧困縣，則從相應縣區中加抽2-3所高中參與調查。由于學校間英語教師數量差異較大、教師所教年級不固定且年級間流動性較大，因此被抽選學校的所有英語教師均參加了本次調查。

(三)數據整理及分析

本研究共回收了總計12916份問卷。數據整理過程中首先對259份包含缺失數據的樣本進行了成列刪除，隨后使用Amos 22進行馬氏距離分析，發現剩余樣本中有56份存在數據異常情況。在對包含異常值的樣本進行成列刪除后，確定本研究的有效問卷為12601份。

在所有提供有效樣本的高中英語教師中，男教師占比22.8%，女教師占比77.2%；教齡12年以上的教師占比51.8%，9-12年的占比22.6%，5-8年的占比12.2%，5年以下的占比13.4%；職稱為中學高級教師的占比22.7%，中學一級教師占比38.6%，中學二級教師占比33.5%，中學三級教師占比1.2%，另有4.0%的教師尚未進行職稱認定；最高學歷為博士的教師占比0.1%，碩士占比14.3%，本科占比81.7%，專科或專科以下占比3.9%；來自山東的教師最多，占比24.3%，其次為河南(19.11%)和江蘇(12.22%)。

問卷實測整體內部一致性指標(Cronbach α系數)為.97，各潛在變量分量表的內部一致性指標也均高于.90，表明問卷具有很高的信度。(16)Nunnally, J. C. and Bernstein, I. H.,Psychometric Theory (Third Edition), New York: McGraw-Hill, 1994.各潛在變量所含觀測變量間的多重共線性檢驗結果顯示，所驗各方差膨脹系數(variance inflation factor, VIF)均小于7，符合VIF值需不大于10的標準(17)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 71., 意味著各潛在變量下的觀測變量間不具有多重共線性，因此本研究所構建模型中的觀測變量及相應的問卷題目均予以保留。

本研究使用Amos 22中的最大似然法進行結構方程模型分析。首先使用總體樣本對各潛在變量的測量模型進行驗證性因子分析，隨后檢驗涉及潛在變量間結構關系的結構模型。最后，將總體樣本的最佳擬合模型作為基準模型，使用校正樣本和效度樣本對該模型進行多組不變性檢驗并進行競爭模型優選。(21)Byrne, B. M.,Structural Equation Modeling with Amos (Third Edition), New York/London: Routledge,2016, pp. 293-307.

(四)統計評價指標

根據Ockey和Choi(2015)倡導的語言測試領域結構方程模型研究報告規范(22)Ockey, G. J. and Choi, I.,“Structural Equation Modeling reporting practices for language assessment”,Language Assessment Quarterly, Vol. 12, No. 3, 2015, pp. 305-319.，本文在匯報模型擬合效果時將報告卡方值(CMIN或χ2)及其自由度(DF)和p值、標準化殘差均方根(SRMR)、比較擬合指數(CFI)和近似誤差均方根(RMSEA)及其置信區間。模型接受標準為：SRMR≤.10，CFI≥.90，RMSEA≤.10且以RMSEA≤.05為佳。(23)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 274.但以上各指標均不能單獨作為模型擬合程度的評價依據，而須結合各指標進行綜合判斷。此外，CMIN較小且其p值不顯著(如p>.05)時也可在一定程度上說明模型擬合程度良好，但由于CMIN受樣本規模等因素的影響較大，因此在諸如本文的大樣本研究中，CMIN及其p值的顯著性可不作為判斷數據與模型擬合程度的主要依據。(24)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 271.另外，參數限制不同的模型之間的卡方值差異(ΔCMIN或Δχ2)是否顯著(p<.05)和比較擬合指數差異(ΔCFI)是否小于.01是衡量模型是否具有多組不變性的重要指標，但由于ΔCMIN極易受樣本規模的影響，因而應更多依據ΔCFI進行判斷。(25)Cheung, G. W. and Rensvold, R. B.,“Evaluating goodness-of-fit indexes for testing measurement invariance”,Structural Equation Modeling: A Multidisciplinary Journal, Vol. 9, No. 2, 2002, pp.233-255.而競爭模型優選則需查看AIC、BCC、 ECVI及MECVI等簡約性指標，以上指標越小，意味著模型的簡約性和適配性越好。(26)Byrne, B. M.,Structural Equation Modeling with Amos (Third Edition), New York/London: Routledge,2016, pp. 293-307.

三、研究結果

(一)描述性統計

本研究首先對47個觀測變量進行了總體樣本描述性統計。一方面，結構模型中受訪教師對高考英語測試的總體滿意度均值為3.86，標準差為.96。測量模型部分的結果顯示(見表2，N=12601)，在考試形象這一測量模型下的觀測變量中，均值最高的一項為“考試公平性”，最低的一項為“考試科學性”，即測試能否科學考查學生能力。另一方面，受訪教師對高考英語測試各方面的預期質量普遍高于對其現狀的感知質量。在試題設計預期質量這一測量模型所涉及的觀測變量中，均值最高的為“試題選材多樣性”，最低的為“試題難度穩定性”，而這兩項也同樣是試題設計感知質量下各觀測變量中均值最高及最低的題項。在考試組織管理預期質量中，均值最高的為“考試紀律嚴明”，最低的為“信息發布及時性”，同時，這兩項也是考試組織管理感知質量下均值最高和最低的一項。在閱卷及成績報告預期質量中，“使用最新現代信息技術手段保證閱卷質量”的重要性最高，而“向學校提供學生詳細成績數據”的重要性最低。這兩項也分別是閱卷及成績報告感知質量中的均值最高和最低項。而在改革支持度下的三個觀測變量中，受訪教師對將聽力納入必考范圍的支持度最高，對全國統一命題的支持度次之，對實行一年兩考的支持度則相對較低。

(二)模型驗證

1.模型擬合效果評價及修正

在對結構模型進行驗證之前，首先需要對各測量模型進行驗證性因子分析，并根據模型識別情況和擬合效果對模型予以評價及合理修正。檢驗結果顯示，各測量模型均可識別，其中，分別包含三個觀測變量的考試形象和改革支持度測量模型為恰好識別。從其他六個測量模型的初步擬合結果來看(見表3)，各模型的CMIN值均達到顯著水平(p<.001), SRMR值、CFI值及RMSEA值均達到標準范圍，數據與模型的擬合效果較好。為進一步改善測量模型擬合效果，本研究在綜合考慮Amos輸出的模型修正信息和相關理論及實證研究結果的基礎上，對相應測量模型進行了局部性調整。

表2 測量模型觀測變量描述性統計

表3 各測量模型初步擬合結果

在各測量模型取得良好的擬合效果后，本研究進行了數據與結構模型的擬合檢驗。擬合效果顯示，結構模型的CMIN值達到顯著水平(CMIN=18567.420, DF=982,p<.001)，SRMR值為.033，CFI值為.974，RMSEA值為.038(顯著性為.90的置信區間最低值為.037，最高值為.038)。因此，從模型擬合效果指標的角度來看，總體樣本與本研究初步構建的高考英語測試滿意度—改革支持度關系模型的整體擬合效果良好。但路徑系數顯著性檢驗結果顯示，在本研究的16個結構關系假設中，H10(試題設計預期質量→總體滿意度,p=.194)、H11(考試組織管理預期質量→總體滿意度,p=.085)、H12(閱卷及成績報告預期質量→總體滿意度,p=.242)和H15(閱卷及成績報告感知質量→總體滿意度,p=.229)的回歸系數未達到統計學意義上的顯著，因此本研究將這4條路徑從結構模型中刪除。同時，根據Amos提供的模型結構關系修正信息，本研究在模型中增加了5條路徑關系：試題設計預期質量→改革支持度(H17)、考試組織管理預期質量→改革支持度(H18)、試題設計感知質量→改革支持度(H19)、考試組織管理感知質量→改革支持度(H20)和閱卷及成績報告感知質量→改革支持度(H21)。其中，設定H17和H18為正向相關關系，H19-H21為負向相關關系。

圖2 修正后的高考英語測試滿意度—改革支持度關系模型(結構模型部分)

本研究對修正后的模型重新進行了擬合檢驗。結果顯示，總體樣本與修正后模型的擬合程度依然良好(CMIN=18501.085, DF=981,p<.001, SRMR=.031, CFI=.974, RMSEA=.038(LO 90=.037, HI 90=.038))。因此，本研究將該修正后的高考英語測試滿意度—改革支持度關系模型視為總體樣本的最佳擬合模型(見圖2)。

2.模型解釋

測量模型中的因子載荷代表潛在變量對觀測變量的負載擬合情況，即潛在變量對觀測變量的解釋程度。從參數擬合結果來看，一方面，標準化因子載荷最高的為“考試組織管理預期質量→考試組織規范有序”(Estimate=.946,p<.001)，最低的為“閱卷及成績報告感知質量→向學校提供學生詳細成績數據”(Estimate=.779,p<.001)，且所有負載均在.001水平上顯著不等于0，說明各測量模型中的潛在變量對其所屬觀測變量均具備較強的解釋力。另一方面，各觀測變量的多元平方系數(squared multiple correlation, SMC)最低值為.607，說明以本研究設定的觀測變量來代表各維度的潛在變量均達到了較高的信度水平。

結構模型中的路徑系數反映變量間的線性關系，即變量間的直接影響程度。從參數擬合結果來看(見表4)，在修正后的模型所保留的17對變量間結構關系中，除H20(考試組織管理感知質量→改革支持度)的標準化系數在.01水平上顯著不等于0外(p=.008)，其他結構關系標準化路徑系數均在.001水平上顯著不等于0，說明各自變量對相應因變量有著顯著的預測力。其中，H8的影響系數最高，標準化路徑系數為.835。從模型的多元平方系數來看，考試形象和考試組織管理預期質量對考試組織管理感知質量的解釋力最高(SMC=.706)，而相關自變量對改革支持度的解釋力則相對較低，SMC值為.382。

此外，參數擬合結果還顯示，H16和H19所涉及的自變量與因變量間的相關關系方向與初始假設不符。原假設為負相關關系的H16實則為正相關關系，即受訪教師對高考英語測試的總體滿意度越高，其對改革的支持度也越高；原假設為負相關關系的H19實則也為正相關關系，即受訪教師對高考英語測試試題設計的感知質量越高，其對改革的支持度也越高。聚焦對改革支持度產生直接影響的自變量，本研究發現，對高考英語測試改革支持度高的受訪教師具有以下特點：對高考英語測試試題設計和考試組織管理的預期質量高，對考試組織管理和閱卷及成績報告的感知質量低，但對試題設計的感知質量和對高考英語測試的總體滿意度高。

表4 結構模型標準化路徑系數

(三)模型多組不變性檢驗及競爭模型優選

在以總體樣本確定了最佳擬合模型后，本研究隨之使用校正樣本和效度樣本對模型進行了多組不變性檢驗。Amos共構建了五個參數限制不同的模型(見表5)。分析結果顯示，以無參數限制模型為基準模型，假設該模型為正確的模型，測量系數相等模型和結構系數相等模型的卡方值增加量(ΔCMIN)顯著性檢驗的p值分別為.357和.137，均未達到統計學意義上的顯著(p<.05)，因而接受虛無假設。由于無參數限制模型是正確的，因而另外兩個模型可視為相等模型，這證明所施加的參數等同限制對這三個模型的擬合效果沒有顯著影響。但結構殘差相等模型和測量殘差相等模型的ΔCMIN值分別為109.903(p<.001)和339.636(p<.001)，說明從ΔCMIN值顯著性的角度來看，結構殘差相等模型和測量殘差相等模型與無參數限制模型的模型擬合效果顯著不同。另一方面，不同模型間比較擬合指數的差異(ΔCFI)則顯示，五個模型間的ΔCFI值均小于.01，表明校正樣本和效度樣本與所構建模型的整體擬合效果間沒有顯著差異。綜合兩方面檢驗結果并考慮到ΔCMIN值易受樣本規模影響的特點，本研究認為所構建的高考英語測試滿意度—改革支持度關系模型具有多組不變性，意味著該模型在多組樣本下的適用性良好、預測效度高。

就模型優選而言，由于本研究所構建的模型具有多組不變性，因而樣本與五個參數限制不同的模型均適配。但從簡約性指標的檢驗結果來看(見表6)，結構系數相等模型的AIC值、BCC值、ECVI值和MECVI值均最小，意味著該模型的簡約性最好、適配度最高、模型擬合度波動性最小。因此，結構系數相等模型是最佳且最穩定的多組模型。

表5 多組不變性檢驗結果

表6 競爭模型簡約性指標

四、討論

本研究在借鑒既往顧客滿意度指數模型的基礎上，構建了高考英語測試滿意度—改革支持度關系模型。從數據與模型的擬合結果來看，模型整體擬合效果良好，各關鍵指標均達到了理想狀態。測量關系的信度和效度均達到較高水平，模型設定的變量間的結構關系也均達到顯著水平，并通過擬合得到了理論上成立且具有實際意義的參數估計值。模型多組不變性檢驗結果證明所構建模型在不同樣本下的適用性強、復制程度高，復核效度和預測效度均較為理想，且結構系數相等模型為最佳、最穩定的多組模型。這些研究發現表明本文所構建的高考英語測試滿意度—改革支持度關系模型具有良好的內在效度、內部結構顯著性和外在效度，對高考英語測試滿意度的概念內涵及維度進行了具體化建構，并能夠有效反映高中英語教師群體對高考英語測試的滿意度與他們對改革措施支持度間的影響路徑和線性關系。

與考試形象相比，高中英語教師對高考英語測試的預期質量與其對測試的感知質量間的結構關系路徑系數更高，且他們對試題設計和考試組織管理質量的感知與其對高考英語測試的滿意度間具有顯著的正向相關關系，這說明關注并盡可能達到利益相關者的期望對提升高考英語測試滿意度具有重要意義。從受訪教師的期待和現狀質量感知的對比情況來看，高考英語測試考試組織管理事宜的重要性更高，受訪教師對該方面的質量感知也最高，且期望值與實際質量感知的差值較小。相較之下，受訪教師對試題設計的質量期待及感知質量評價均低于考試組織管理，但期望值與感知質量的差值較大，這一結果與Zhang(2019)對本科一年級學生群體對高考英語測試的滿意度(27)Zhang, H, A Washback Study of the National Matriculation English Test in China: Test Takers’ Perspective, Unpublished Ph. D. dissertation,Tsinghua University, Beijing, China, 2019.以及吳莎、鄭宏山(2020)對大學英語四六級考試滿意度調查(28)吳莎、鄭宏山：《大學英語四六級考試滿意度調查——基于結構方程模型的實證分析》，《中國考試》2020年第4期。的研究發現一致，表明從目前國內大規模高利害英語測試的整體情況來看，考試組織管理均為利益相關者關注度高且滿意度也高的部分，而進一步提升試題設計質量應被視為高考英語測試改革乃至我國外語能力測評體系建設的重點環節。

整體而言，高中英語教師群體對高考英語測試的總體滿意度較高，對新一輪高考英語測試改革的具體措施也持積極態度。而從具體來看，變量間的結構關系檢驗結果則進一步凸顯了改進高考英語測試試題設計質量對提高高考英語測試滿意度和推進新一輪高考英語測試改革的關鍵作用。本研究初始假設H16為對高考英語測試總體滿意度低的教師對改革的支持度高，而H19則假設對高考英語測試試題設計質量評價低的高中英語教師對改革的支持度高，即這兩個假設均設定變量間為負相關關系。但參數擬合結果顯示，受訪教師對試題設計的感知質量越高，其對改革的支持度越高；對高考英語測試總體滿意度越高的受訪教師對改革舉措的支持度也越高，且試題設計感知質量是模型中直接影響總體滿意度的因素中路徑系數最大的潛在變量。從本研究質性數據提供的信息來看，對高考英語測試總體滿意度高和對試題設計質量評價高的教師對于目前高考英語測試在試題設計方面存在的不足和需要改進的方面有著更加深刻的認識，他們對于改革措施和方向的積極效果有著更加強烈的期待。由此可以看出，教師對新一輪高考英語測試改革的態度受其過往經驗和對改革預期結果判斷的影響較大，對于改革方向的肯定和改革舉措的期望成為其支持進行高考英語測試改革的突顯行為信念(behavioral beliefs)。(29)Ajzen, I.,Attitudes, Personality and Behavior(Second Edition), Berkshire: Open University Press, 2005.同時，這也印證了一項改革與現實需要的契合度(compatibility)越高，利益相關者對該改革的整體支持度便越高。(30)Rogers, E. M., Diffusion of Innovations (Fifth Edition), New York: Free Press, 2003.(31)Henrichsen, L. E.,Diffusion of Innovations in English Language Teaching: The ELEC Effort in Japan, 1956-1968,New York: Greenwood Press, 1989.與高中英語教師的期望相符，高考英語測試內容改革正是新一輪高考綜合改革的重要組成部分。高考英語科考試內容改革實施路徑以高考評價體系為理論基礎，以高考選拔人才的要求和新課標為基本依據，以主題情景為考查載體，確立了由核心價值、學科素養、關鍵能力和必備知識構成的立體化四維內容體系(32)陳康、吳泓霖、李新煜等：《基于高考評價體系的英語科考試內容改革實施路徑》，《中國考試》2019年第12期。，將有效指導高考英語科考試內容改革在全國范圍內的推廣，不斷提升高考英語測試的試題設計質量。

需要指出的是，雖然本研究所建模型中設定的自變量對高考英語測試改革支持度有著較高且顯著的預測力，但其解釋力相對有限，意味著改革支持度還受其他因素的影響。這一問題從高中英語教師所反饋的質性數據中可見一斑。有的教師在詳述自己不支持高考英語測試改革的原因時表示，雖然相關改革措施符合新時代高考的定位和現實需要，但自己所教學生的英語基礎薄弱，能力水平與現行高考英語測試考試要求已是差距甚遠，如果進一步加強對學生綜合語言運用能力的考查，學生的備考壓力和心理負擔會成倍增加。此外，對高考英語測試成績報告改革(33)張浩、郭茜、張文霞：《高考英語科成績報告改革的態度調查研究——基于一項大規模全國性調查》，《外語學刊》2018年第1期。、一年兩考(34)張浩、張文霞、吳莎等：《高考英語一年兩考改革的態度調查》，《中國考試》2018年第1期。和計算機化改革(35)張浩、吳莎、郭茜等：《高考英語計算機化改革的態度調查研究》，《基礎教育》2019年第3期。等改革方向的態度調查結果也顯示，不同教師群體對改革的支持度不盡相同，而群體內部對于改革方案的態度又受相關個人背景因素的顯著影響，且同一因素對不同改革舉措支持度的作用效果亦有差別。由此可見，測試滿意度只是探討改革支持度影響因素的諸多視角之一。因此，為能更加準確、真實、完整地反映高考英語測試改革支持度這一復雜多維概念的全貌，還需要對改革支持度的影響機制進行更為全面、深入、科學的實證探究。

結語

本研究所提出的高考英語測試滿意度—改革支持度關系模型具體化地建構了高考英語測試滿意度的概念內涵及維度，數據與模型的擬合效果良好且能夠較好地從滿意度視角反映高中英語教師對高考英語測試改革的看法、影響因素和路徑關系，研究結果為新一輪高考英語測試改革提供了有益的借鑒和參考。高考英語測試改革是一個長期、復雜、艱巨的系統工程，必須在“一核四層四翼”高考評價體系和高考英語科考試內容改革實施路徑的指引下統籌推進、協調發展，才能有效促進高考英語測試更加充分地發揮其立德樹人、服務選才、引導教學的核心功能，履行其公平科學評價人才、推進實現德才兼備全面發展的育人成才目標、助力完成學生學業減負增效及教育教學提質達標的歷史新使命。

高考英語測試滿意度與改革支持度關系研究——基于高中英語教師視角的結構方程模型分析*①