高風險語言測試的公平性檢驗框架研究*
——以高考英語為例

2018-09-10 12:11:22肖云南

外語學刊 2018年1期

關鍵詞：測量

羅娟肖云南

(湖南大學, 長沙 410082/中南林業科技大學, 長沙 410004；湖南大學, 長沙 410082)

提要：大規模高風險測試對社會及利益相關者的影響極大，測試公平性檢驗成為教育測量領域的研究重點。本文梳理語言測試界對公平性的定義及理論框架，從計量學與社會學兩個層面界定公平性的定義，并從測量公平與社會公平兩個維度構建測試公平性的檢驗框架。結合我國高考英語，從實證角度明確從兩個維度進行公平性檢驗的具體內容及步驟，并論證兩者間的關系，探討該檢驗框架對我國大規模測試走向公平化的指導意義。

1 引言

近年來, 語言測試工作者的研究重點逐步從提高語言測試信度與進行效度驗證轉向對語言測試公平性問題的關注(何蓮珍呂洲洋 2013:164)，目前探討的熱點主要圍繞測試公平性的定義及檢驗框架。雖然語言測試界認識到測試公平對大規模測試的重要意義，但在很多方面未達成共識。本研究從測量公平與社會公平兩個維度構建測試公平性檢驗框架，明確兩者的關系，并以高考英語為例探討測試公平性檢驗實踐。

2 語言測試公平性定義及檢驗框架

對測試公平的定義隨不同的社會與政治環境而變化, 近年來研究重點逐步轉向語言測試對社會的影響，諸多學者開始從社會視角判斷測試公平性，探討其概念并嘗試構建檢驗框架。Kunnan(2000:1, 2004:27)基于考試心理測量學屬性, 對測試公平性定義從考試效度、機會均等、無偏差、施考條件與社會后果5個部分進行拓展；并強調考試應促進社會公平, 減少測試帶來的負面影響。該框架提出迄今最為全面的公平性檢驗框架，但操作性不強，無法給研究人員的公平性檢驗提供切實、有效的指導(Xi 2010:147)。將效度驗證與公平性驗證相互統一，并將公平性檢驗的各個部分形成連貫的論證鏈，有助于深入理解測試分數的使用情況及產生的社會后果。但該操作框架中，公平性檢驗與效度驗證存在明顯交叉(李清華 2016:549)，讓研究者在實踐操作中無所適從。Walters(2012:469)提出從微觀分析與宏觀分析兩個方面檢驗公平性。前者基于計量分析，依靠技術質量檢測；后者使用質性方法，從社會視角來判斷。該模式提出的微觀和宏觀之分看似較為全面又具體，但實際上兩方面之間交叉較多，對實踐的指導意義有限。參照“語言測評使用論證”，李清華(2016:549)構建的公平性檢驗理論框架將公平性劃分為“測量公平性”與“社會公平性”兩部分，認為公平性檢驗既有技術屬性，又有社會屬性，并明確公平性檢驗的具體步驟及研究問題，具有理論突破意義。

綜上所述，近年來語言測試界以更廣闊的視角從計量學與社會學兩個層面來界定測試公平性,逐漸將測試公平性研究從測試命題、施測、評分擴展到分數解釋、測試決策及產生的社會后果，著眼于整個測試始終。借鑒以上學者的觀點，本文將測試公平定義為在測試命題、施測、分數評定及進行分數解釋、作出測試決策、使用測試結果的一系列過程中，所有受試群體及個人得到相同的待遇，不存在有利/不利某受試個體/群體的現象。基于以上定義，本文嘗試從測量公平性與社會公平性兩個維度提出語言測試公平性檢驗框架：

其中，測量公平性維度側重從測量學范疇檢驗測試公平性的計量指標，體現為測試命題、施測、評分階段所有受試個體/群體接受無偏頗的評估內容及形式、同等的評估條件及評分方式，不存在有利/不利某受試個體/群體的現象; 社會公正性維度注重從社會、政治視角對公平性進行質性檢驗，體現為測試的分數解釋及測試決策使所有受試者得到同等待遇, 不存在有利/不利某受試個體/群體的現象，并且測試結果的使用對教育體系、社會環境產生系統、顯著的積極影響。

表1 語言測試公平性檢驗框架

3 研究設計

3.1 研究問題

測試公平性是一個較為主觀、相對的概念，必須置于特定社會、文化環境中進行研究(McNamara, Roever 2006:197)。我國人口眾多, 教育發展不平衡，考生群體復雜，其他社會環境下建立的測試公平性理論并不一定完全適用于我國國情。基于我們已經構建的測試公平檢驗框架，下文將以中國高風險測試——高考英語為例，結合我國國情從測量公平與社會公平兩個維度檢驗分省命題下的測試公平，探討以下問題：(1)如何從測量公平與社會公平兩個維度檢驗語言測試公平性；(2)如何看待兩者間的關系；(3)以上結論對改革我國測試現狀有何指導意義。

3.2 實驗設計

自2000年，在分省命題政策下，各省根據教育部《全日制普通高級中學教學大綱》(以下簡稱《教學大綱》)制定出十幾套高考試卷，試題內容、題型各不相同，各省錄取分數線也不相同。鑒于各年與各省的高考試卷與考生相互獨立，且高考實測數據的保密性，本文利用等值研究中的共同組設計(common-group design)，通過高考模擬測試收集實驗數據進行計量分析回答研究問題(1)，并基于分析結論對研究問題(2)及(3)展開探討①。

3.3 試卷結構

經過比較各省試卷，筆者發現上海卷與江西卷在試卷結構與測試微技能等方面很相似，因而選取2008年上海卷(簡稱卷A)、2009年上海卷(簡稱卷B)、2009年江西卷(簡稱卷C)用于實驗。選擇2009年上海卷與2009年江西卷旨在檢驗同年各省間高考英語的測試公平性，選擇2008年與2009年上海卷旨在探究同省歷年高考英語的測試公平性。

3.4 測試對象

依據高中統考成績，本研究以高、中、低3個水平抽取湖南省3所高中1157名高三學生參加測試，3套試卷相隔1周施測1卷, 以保證考生能力的同質性。該批考生處于高考備考階段，且模擬成績計入月考成績，因此與高考測試群體在能力分布與測試動機上有很高的同質性。

4 測量公平性檢驗

測試的公平性首先體現在測量公平上，貫穿測試命題、施測與評分3個階段，本節側重從測試命題方面進行試卷的計量分析。測量公平主要體現為測量有效、測量誤差小、分數具有可比性和可解釋性等(楊惠中 2015:2) , 這樣測試才能為考生提供充分發揮能力的平等機會。測量有效是指測試不涉及與構念效度無關的因素，誤差小要求測量信度高，可比性是指不同考次的測試分數可直接比較，可解釋性是分數表示的意義可以解釋，為用戶決策者提供依據。下文將從試卷效度、信度、分數可比性方面對高考試卷進行測量公平維度的計量分析。

4.1 構念效度驗證

在參詳《教學大綱》后，實驗組3位語言測試專家以經驗判斷，卷A，B，C基本以此為準編制試題，總體覆蓋考綱技能，測試內容及結構符合標準。經Bartlett球度檢測，3套試卷適合進行因子分析(P<.01)；然后采用主成分分析法顯示，卷A，B，C因子分析抽取的因子1的值較高，均能解釋該卷絕大部分方差(卷A:66%; 卷B:56%; 卷C:75%)，按照《教學大綱》要求，高考英語應強調英語綜合應用能力，因此可認定因子1即綜合英語應用能力(分析表略)。

4.2 試卷信度

本文采用項目反應理論(Item Response Theory，簡稱IRT)首先對試題進行參數估計，同時估計試卷信息函數(test information function，簡稱TIF)，參數估計軟件為IRTPRO (Cai, Thissen, du Toit 2011)。在IRT理論中，采用TIF，也就是測驗對受試能力估計所提供的信息量多少來表示測量的精度，并能估計不同能力受試的測量精度，代替傳統的信度概念。

在高風險測試中，劃界分數處的考生能力估計精度對測試決策的誤差大小產生關鍵影響，在此處測試應具有較高的測量精度, 將劃界分數附近的受試準確區分，決定是否錄取, 將誤判率降到最低。筆者參考當年全國高考錄取率(2008年57%，2009年62%)，假設高考分數呈正態分布, 對照正態分布表可見劃界分數點的能力估計值在[-0.4,0]之間。在此區間，雖然3套試卷的TIF值均達到最高值，測量標準誤差為最低(見表2)，但顯然存在差異：卷C的TIF值在該區間最高，在劃界分數處的測量精度最高，而卷B則為最低。

表2 卷A、卷B、卷C測驗信息值分布

4.3 試卷難度

基于IRT理論，我們對試卷的兩級計分選擇題用雙參數模型進行項目參數估計，除寫作題外的主觀題用等級評分模型分析，然后對全卷項目參數進行描述性統計，以比較3套試卷難度。

表3 卷A、卷B、卷C試題難度參數b描述性統計

表4 卷A、卷B、卷C試題區分度a描述性統計

由表3和表4可見，卷C的試題難度b及試題區分度a的均值在3卷中均為最高(bmean=.98；amean=1.17)，在3套試卷中難度最大，區分度最好；卷B試題難度b及區分度a的均值(bmean=.37；amean=.24)均為最低, 難度最小，區分度欠佳; 而卷A的兩個指標均值處于兩卷之間。由此可見，無論是同省跨年試卷, 還是同年跨省試卷，均出現試題難度、區分度不穩定的現象。

4.4 測試分數可比性

試卷間因難度差異對分數可比性產生的影響, 一般通過等值將分數轉換到統一量表后驗證, 本文采用共同組設計的分數等值，向參加實驗的所有考生先后施測3套試卷后將卷面分進行等值。高考為常模參照考試，依據考生成績在各省考生群體中的相對排名而非絕對的考試分數擇優錄取, 因而采用等百分位法(equipcentile me-thod)將分數進行等值。其等值原理為：兩個不同測驗形式的分數，如它們的百分等級相同，即被認為是等值的，實質是基于在考生群體中的相對排名的等值方法。在3套試卷中，卷A的難度、區分度及信度都居中等，現將卷A定為基準卷，采用經過平滑處理的等百分位法進行等值，將卷B、卷C分數轉化到卷A上來。

圖1 3套試卷卷面分—百分位曲線對照表

圖1顯示，經等值處理后，3套試卷的相同卷面分在考生群體中對應的百分位差異顯著，卷C的卷面分對應的百分位最高，卷B則最低。換言之，因試卷難度差異較大，3套試卷的相同卷面分表面上看似分值相等，但實質反映考生的不同能力，因此，在考生中的相對排名截然不同。例如, 依據等值結果, 卷A的100分處于考生群體的百分位為58，而卷B與卷C的100分對應的百分位分別為47與70。由此可見，各省、各年的高考分數本身不具有直接可比性，并且各省考生的常模團體不同, 如不經等值依據各省考生排名制定錄取決策, 顯然對試卷偏易的考生群體有利，而對試卷偏難的考生群體不利。

由此可見, 在大規模測試的分數解釋階段應實現對不同測試群組間分數的可比性，基于這一前提, 對各受試群組作出的測試決策才具有合理性(Kane 2010:177)。未經過等值，測試成績間不具備可比性，評價標準也會因試卷難度差異的影響而對測試公平造成威脅(He, Qi 2010:359, Kobayashi, Negishi 2008:244)。

5 社會公平性檢驗

測試公平的另一維度是社會公平, 檢驗在特定社會環境下，測試分數的解釋、決策是否存在有利/不利某受試個體/群體的情況，測試結果的使用是否對教育系統產生系統、顯著的正面反撥(washback)，是否發揮積極的社會性功能，對社會環境是否有正面后效。該維度涉及社會層面較廣，主要為測試用戶及利益相關群體，如政府機關、教育機構、公司、考生、教師等，檢驗方法以質性研究為主。目前國內外對于測試的社會公平性研究不多，相關研究以教學反撥為主探討其對教育體系的影響，對社會環境的影響關注不足。

5.1 分數解釋及決策

雖然高考各省、各年試卷在計量指標上存在明顯差異，且各省考生團體常模存在差異，在分省命題政策下, 高考采用常模參照性評價，根據考生原始分在各省常模中的相對位置轉化成標準分進行分數解釋。考生的相對等級隨著用來比較的常模團體的不同而變化，對高考分數的解釋也會產生顯著、系統性的影響，所以處于教育欠發達地區的考生群體因此會受益，而對教育相對發達地區的考生群體不利。

在錄取政策上, 高考實際未經各省試卷分數等值, 采取地區配額制度實行全國招生，即高校擁有招生自主權，獨立分配各省招生人數，按照考生分數在各省相對排名的先后擇優錄取。地區配額招生制度表面上照顧到各省教育資源差異及教育發展不平衡的國情，但導致一系列負面社會影響：各大高校招生指標分配明顯偏向于本地考生，嚴重歧視外地考生接受高等教育的平等權力。各省試題不一，分數沒有可比性，高考就喪失統一衡量、平等選拔的功能, 因而掩蓋了全國高校錄取指標分配不公的現實，惡化了招生地域歧視，限制了廣大考生接受高等教育的平等權利。

5.2 教學反撥

縱觀近年來高考英語反撥效應研究(董連忠 2014；朱明瑛 2012；陳麗珍 2009；洪小祥 2008；亓魯霞 2004，2007)，高考英語對高中課程設置、教學內容、教學方法、教學評估、師生教學態度等產生不同程度的影響，總體上呈現出對高中英語教學正面反撥作用增大、負面反撥效應相對縮小的趨勢。盡管國內高中的總體教學目標向新課標中“培養學生的綜合語言應用能力”靠攏，但“應試教育”現狀依然嚴重，尤其是畢業班。高考分數被誤用作評估學校、師生的唯一量化指標，師生壓力較大。總而言之，高考的反撥效應在大體上有利于我國高中英語教學，但負面反撥在畢業班的教學中較為明顯。

5.3 社會后效

高考是我國最有影響的高風險大規模考試，是教育教學和高等人才選拔的基本制度, 對于促進教育發展與穩定社會發揮著重要作用，但我們應全面、客觀、公正地看待高考的社會性作用。

顯然, 高考改革歷程中的分省命題及地區配額招生制度引起一系列負面社會影響。首先，它造成大學生源的地方化和錄取標準的嚴重不公；然后，經濟、文化發達地區形成高度集中的教育資源優勢，以低標準錄取當地考生，增強發達地區對人才與資源的吸引力，催生“高考移民”現象，導致該地區人才、物質、財富更加集中，進一步加劇資源配置失衡；其次，資源相對集中不利于全國范圍內的人才流動，教育發達地區的畢業人才就業壓力過大，而欠發達地區則人才日益匱乏。如此惡性循環，高校招生地方化只能進一步擴大城鄉差別，人才與資源不斷從農村流向城市的形式日益嚴重。最后，高考招生制度飽受社會各階層詬病，成為社會不和諧的重要因素。據中國青年報調查顯示，89.3%的民眾認為全國重點大學招生指標分配不公平。高考招生歧視侵犯全國大多數地區考試的利益，引起公眾普遍不滿，容易激化地區矛盾，影響共建和諧社會。

6 討論

基于本文構建的測試公平性檢驗框架，筆者對分省命題的3套高考英語試卷從測量公平與社會公平兩個維度進行檢驗。

首先，對高考命題的計量分析顯示，3套試卷在難度、區分度及信度方面存在較大差異，試卷難度的起伏無疑對考生的測試表現會造成系統性的影響, 并直接導致試卷分數的不可比，試卷信度的差異也意味著測試對考生能力評估的準確性存在差異。顯而易見，計量分析揭示出的命題缺陷，致使高考試題無法為考生提供發揮能力的平等機會, 也直接影響測試決策的公平性。其次，高考的分數解釋及地區配額招生決策違背所有受試享有接受高等教育平等權利的原則；高考結果的使用對教育反撥的負面影響雖然呈減少趨勢，但引發一系列負面社會影響，妨礙社會公平的實現。

總而言之，分省命題下的高考英語在測量公平性與社會公平性兩個維度上有所欠缺，真正實現測試公平有待進一步改革。

6.1 兩個維度的關系

本文圍繞大規模測試的公平性定義展開探討，從測量公平與社會公平兩個維度構建測試公平性檢驗框架。基于該框架對高考英語試卷的實證分析可見，兩個維度的公平性檢驗貫穿測試的全過程, 兩者既有獨立要求, 又緊密聯系, 缺一不可。

首先，測量公平僅是測試公平性研究的一部分，是決定測試公平的前提與基礎。該維度主要由測試機構及測試工作者負責，涉及心理測量、教育學、心理學等多學科的交叉應用，以技術性手段保證學術行為決定。測量公平先于社會公平, 只有實現測量公平才能談社會公平，才能保障社會公平(楊惠中 2015:2)。

然后，社會公平維度是測試公平性研究的重要方面，是體現測試社會功能的關鍵因素。該維度超出測試工作者能控制的范圍，主要由我國某些政府職能部門負責，涉及政治、經濟、道德及價值觀等多種復雜因素，公平性檢驗多以質性研究方法為主。有悖社會公平，將削弱測量公平的作用，最終阻礙測試公平的實現。

只有清晰地界定測試公平性研究的維度、明確各方在維護測試公平性中應承擔的責任，才能最后形成連貫的、系統的測試公平性框架。要實現測試的公平性，不僅要確保測試開發機構在考試過程中的專業行為，也要確保相關行政機構對測試結果的解釋合理、決策得當，確保將促進教學、促進社會公平作為測試改革的基本價值取向。

6.2 對測試實踐的指導意義

測量有效、測量可信、分數具有可比性與可解釋性是測量公平的基礎。我國諸多考試為超大規模考試, 參考人數眾多，考生群體復雜, 出于試題保密性和可操作性等原因，采用平行卷是常見做法。但眾多大規模測試未實現等值，如高考、高中會考、公務員考試等。為使考生間的分數具有可比性，必須對平行卷進行等值處理，并逐漸建立試題庫系統，以克服命題的片面性、隨意性，從而實現命題標準化、施測標準化、評分標準化、分數解釋標準化，為實現測試的測量公平性提供前提。

國內大規模測試均由各級教育或考試主管部門實施，基于分數進行決策是行政行為多于學術行為，與測試開發者的預想存在一定脫節，由此產生社會公平性問題是國內語言測試公平性最突出的問題(李清華 2016:549)。由于其權威性，測試決策的公平性很少受到公開質疑，相關行為無法得到有效監督與約束。因此，一方面研究者關于測試使用的后效，如對教育體制、社會各層面影響的研究亟待加強；另一方面，單靠測試機構無法確保測試的社會公平性，應委托獨立研究機構進行社會公平性檢驗，其研究報告應向公眾公開。權威機構也應自覺將相關工作置于社會監督之下，積極促進考后分數解釋的科學化、錄取政策的公開化、測試使用的科學化。

7 結束語

大規模高風險測試對考生、教育及社會的影響極大，其公平性檢驗不容忽視。本文構建的公平性檢驗框架將促使語言測試界的研究重點從心理計量學范疇向社會學范疇延伸, 對兩者間關系的探討具有重要理論價值及現實意義：幫助測試機構及測試工作者進一步理解公平性的內涵, 同時促使相關行政部門提高測試公平性意識, 從政策上保障測試公平性, 減少測試結果的誤用及濫用。雙方的共同協作對于推動我國語言測試的公平性及專業化進程極為重要。

分省命題已成為高考改革歷程中的一個背影，但其弊端對促進我國大規模測試的公平性提供諸多借鑒。2016年我國高考逐漸實現全國統考，是我國高風險測試走向公平化的一項重要舉措，標志著新一輪考試招生改革的全面推進。

注釋

①本文實驗數據來自國家社科規劃項目“全國高考分省命題的英語分數等值模型研究”。

高風險語言測試的公平性檢驗框架研究*——以高考英語為例