國內(nèi)語言測試構(gòu)念效度驗證研究近十年來的發(fā)展

2014-04-26 17:15:48張春青

校園英語·中旬 2014年1期

張春青

摘要：近十年來，構(gòu)念效度驗證理論和實踐在我國有較大發(fā)展，如量化構(gòu)念效化驗證和質(zhì)性構(gòu)念效化驗證研究等。就語言測試領(lǐng)域最新發(fā)展情況看，國內(nèi)研究在構(gòu)念效度驗證方面還存在很多不足，有待測試研究人員進(jìn)一步論證和發(fā)展。

關(guān)鍵詞：構(gòu)念效度驗證；因子分析；口陳報告

一、構(gòu)念效度驗證理論

在語言測試中，專業(yè)化和效度研究是現(xiàn)在和未來研究的兩個重點領(lǐng)域（Bachman， 2000）。構(gòu)念效度研究又處于效度研究的核心地位。構(gòu)念是測驗所要測量的概念或特性。構(gòu)念效度是測驗代表語言學(xué)習(xí)基本理論程度的指標(biāo)。構(gòu)念效度驗證研究測試所測量的能力，為測試提供理論基礎(chǔ)。構(gòu)念效度證據(jù)的來源包括考試內(nèi)容、反應(yīng)過程、內(nèi)部結(jié)構(gòu)、與其他變量之間關(guān)系和測驗影響，這反映了從多種渠道積累效度證據(jù)的重要性。效度證據(jù)的不斷積累有益于使用和解釋分?jǐn)?shù)、完善測驗構(gòu)念和測驗本身、提出新的研究問題。精心編制的測驗、命題的理論框架、測驗的實施和計分過程、分?jǐn)?shù)等值、及時糾正測驗過程中的不公平因素等是構(gòu)念效度得以實現(xiàn)的根本保證。

但是，作為構(gòu)念效度驗證基礎(chǔ)的構(gòu)念難以確定（Chapelle et al.， 2010），收集的各種證據(jù)也沒有連續(xù)性，基于論證的效度驗證模式（Bachman， 2010）應(yīng)運而生。在該模式中，測試的發(fā)展形成了一個推論鏈，每一個論證會形成下一個論證的出發(fā)點，第二個論點會成為第三個論點的出發(fā)點，每個論點都要有條件支撐，最后效度驗證研究人員得出效度驗證的結(jié)論。在這個連續(xù)統(tǒng)一體中，每一部分都需要收集多種證據(jù)，而每一種證據(jù)，都會對構(gòu)念效度產(chǎn)生影響，各種證據(jù)成為了一個整體中的部分。

二、國內(nèi)的構(gòu)念效度驗證實踐

1.量化的構(gòu)念效度驗證研究

量化的構(gòu)念效度研究主要運用結(jié)構(gòu)方程模型、因子分析、多質(zhì)多法分析、問卷等工具進(jìn)行。其中因子分析包括探索性因子分析和驗證性因子分析。

結(jié)構(gòu)方程模型能夠幫助測量構(gòu)念的解釋力。例如，為計算機(jī)自動評分的前期人工評分提供較為精確的“作文內(nèi)容”分項指標(biāo)及其評定標(biāo)準(zhǔn)，文秋芳（2007）運用結(jié)構(gòu)方程模型檢驗了限時英語議論文“內(nèi)容”的構(gòu)念效度。她發(fā)現(xiàn)，代表“內(nèi)容”構(gòu)念的四個觀測變量：文章切題性、觀點明確性、說理透徹性與篇章連貫性能夠解釋作文質(zhì)量56%的差異。運用同樣的過程，高霄（2009）發(fā)現(xiàn)，由同樣四項指標(biāo)反映的“寫作內(nèi)容”能夠直接解釋“寫作質(zhì)量”成績變異的46.2%；由流利性、準(zhǔn)確性與復(fù)雜性反映的“寫作形式”能夠直接解釋“寫作質(zhì)量”成績變異的39.7%，總和為85.9%，說明“寫作內(nèi)容”與“寫作形式”能夠有效預(yù)測“寫作質(zhì)量”，這證實了該研究所提出的“寫作質(zhì)量”構(gòu)念效度比較好。研究結(jié)果對二語寫作評估標(biāo)準(zhǔn)的改進(jìn)具有一定的啟發(fā)意義。

驗證性因子分析是在已知測試的理論假設(shè)的因子構(gòu)成的情況下，來分析數(shù)據(jù)是否與理論假設(shè)的因子結(jié)構(gòu)擬合。例如，鄒申等研究者（2009）發(fā)現(xiàn)，英語專業(yè)八級試題中二階單因子模型的擬合數(shù)據(jù)可以用于解釋人文知識項目的構(gòu)念以及內(nèi)部各因子間關(guān)系：社會文化知識、文學(xué)知識和語言學(xué)知識反映了人文知識構(gòu)念；同時，三個因子之間的關(guān)聯(lián)也較緊密。因子負(fù)荷值也說明這些題目對其相應(yīng)的因子都有顯著貢獻(xiàn)。也就是說，題目成功測試了考試規(guī)定的知識結(jié)構(gòu)。

多質(zhì)多法分析旨在確定在多大程度上測試結(jié)果是考生的能力所致還是測試方法所致。陳慧麟（2009）通過英語國家概況測試的案例研究，使用多質(zhì)多法驗證了基于紙筆的測試和基于計算機(jī)的測試所考查的構(gòu)念的對等性。結(jié)果表明，純文字的紙筆測試和相應(yīng)的純文字的基于計算機(jī)的測試具有幾乎相同的能力結(jié)構(gòu)。

探索性因子分析一般在未知所測構(gòu)念因子結(jié)構(gòu)的情況下探索實際數(shù)據(jù)的因子結(jié)構(gòu)。劉國忠和秦曉晴（2010）隨機(jī)抽取的英語專業(yè)四個年級320名學(xué)生的240篇限時作文，按15個指標(biāo)評分后，將15個判斷寫作準(zhǔn)確性的指標(biāo)通過探索性因子分析縮減為12個，然后提取了三個主因子，這三個主因子初始特征值都超過了1.0的可接受值，累計方差解釋率達(dá)到了71.36%。因此，這12個變量有較好的結(jié)構(gòu)效度。他們得出結(jié)論：二語寫作的準(zhǔn)確性是可測的。賀莉（2012）結(jié)合語言測試的構(gòu)念效度對測試結(jié)果所體現(xiàn)出的性別差異現(xiàn)象進(jìn)行研究，作者運用了探索性因子分析發(fā)現(xiàn)，該測試對于男生概念效度較好，而對女生來說構(gòu)念效度較差，作者從“構(gòu)念體現(xiàn)不足”和“構(gòu)念無關(guān)因素”兩個方面對原因進(jìn)行了解釋。

采用多種問卷調(diào)查的方式可以調(diào)查在何種程度上考試考查了欲測的構(gòu)念。基于構(gòu)念整體觀和建構(gòu)主義對讀寫構(gòu)念的描述，張新玲和曾用強(qiáng)（2009）從構(gòu)念效度入手對讀寫結(jié)合寫作任務(wù)在廣東省高考英語考試中所得分?jǐn)?shù)進(jìn)行效度驗證，運用專家預(yù)測、教師備考過程調(diào)查和考生應(yīng)考過程調(diào)查，分析考生對考試過程應(yīng)答數(shù)據(jù)。發(fā)現(xiàn)所取樣本考生的讀寫結(jié)合寫作測試應(yīng)答數(shù)據(jù)和構(gòu)念理論擬合，相關(guān)證據(jù)能夠較充分、適當(dāng)?shù)刂С只谠摽荚嚪謹(jǐn)?shù)的大學(xué)錄取決策。

2.質(zhì)性構(gòu)念效度驗證研究

針對構(gòu)念效度研究的質(zhì)性研究方法主要集中在專家判斷、口陳報告和語料庫研究。

鄒申等研究者（2009）在研究大學(xué)英語專業(yè)八級考試人文知識測試的構(gòu)念效度時，首先參照《高校英語專業(yè)八級考試大綱》分析了2005年考試中的人文知識題部分的關(guān)聯(lián)性和代表性。分析結(jié)果表明，該題涉及了社會文化、文學(xué)和語言學(xué)三個方面。考查內(nèi)容與大綱有較強(qiáng)的關(guān)聯(lián)性。張新玲和曾用強(qiáng)（2009）請25位寫作教育專家做了讀寫任務(wù)質(zhì)量判斷，結(jié)果顯示，絕大多數(shù)專家都認(rèn)為該試題能夠考查學(xué)生完成任務(wù)所需的元認(rèn)知和認(rèn)知能力。

口陳報告是當(dāng)前構(gòu)念效度驗證中使用的最廣泛的質(zhì)性研究方法。高懷勇等研究者（2011）使用口陳法檢驗了PETS的口語評分，研究者讓評分員聽口試現(xiàn)場錄音，聽完錄音后盡可能地說出評分時的真實想法和心理活動，回憶當(dāng)前考生在內(nèi)容、語法與詞匯上的表現(xiàn)，加以口頭評論。研究者對口頭報告進(jìn)行錄音，之后進(jìn)行文字整理和定性分析，看給考生口語的評分是基于構(gòu)念有關(guān)因素還是基于構(gòu)念無關(guān)因素。李紹山和陳曉扣（2006）從考生答題過程的角度對TEM—4完型填空測試進(jìn)行結(jié)構(gòu)效度研究。學(xué)生每做完一題后，立即口頭陳述選擇某一選項的理由。然后研究者分析考生是否通過正確理解短文和四個選項正確地回答了題目，而不是靠猜測正確地回答了題目，從而判斷試題是否考查了打算考查的能力。

潘鳴威和徐欣幸（2010）運用語料庫的分析手段，借助語言測試構(gòu)念效度的驗證模式，從考生所反映出的問題中研究了上海高考英語測試漢英單句翻譯的構(gòu)念效度。翻譯測試的構(gòu)念應(yīng)包含對語言本身的掌握以及對于源語和目標(biāo)語之間存在不對應(yīng)處的切換意識。對于第一點，研究者觀察語言錯誤類型；第二點觀察漢英切換中的漢語冗余信息和漢英不對等性的處理。然后研究者列出了符合高考實際情況的各項驗證指標(biāo)。據(jù)此研究者提出了三個問題，漢英單句測試考察了什么內(nèi)容？這些內(nèi)容與構(gòu)念的擬合度如何？漢英單句測試的總體構(gòu)念如何？研究者為此建立了漢英句子翻譯語料庫，通過分析發(fā)現(xiàn)，考生在每句話中的出錯點都可以分門別類地劃歸到漢英單句翻譯測試構(gòu)念的操作定義中去。換言之，高考中漢英單句翻譯測試能較好地擬合衡量翻譯任務(wù)所應(yīng)具備的語言能力和翻譯能力，因此具有較好的構(gòu)念效度。但是，研究者只注意了一個方面，這類主觀試題最致命的地方在于評分員，如果評分員信度低，那么其效度無論如何也不會高。

三、結(jié)束語

本文僅綜述了國內(nèi)外語核心期刊上發(fā)表的關(guān)于構(gòu)念效度驗證的文章，沒有涉及已出版的博士論文，所以還很不全面。但是，從現(xiàn)有的文獻(xiàn)來看，我國語言測試學(xué)者還和國際語言測試領(lǐng)域構(gòu)念效度驗證的理論和實踐有一定差距，例如，未見到利用語篇分析來進(jìn)行構(gòu)念效度驗證的文章；現(xiàn)有的積累起來的針對某一測試構(gòu)念效度的證據(jù)太單薄；未見到系統(tǒng)運用“以論證為基礎(chǔ)的效度驗證”理論的文章。在這些方面，國內(nèi)的測試研究者可以做出自己的貢獻(xiàn)。

參考文獻(xiàn)：

[1] Bachman （2000）. Modern language testing at the turn of the century： assuring that what we count counts. Language Testing 17.1： 1- 42.

[2] Bachman （2010）. Language Assessment in Practice. Oxford： Oxford University Press.

[3]Chapelle， Enright， Jamieson （2010） Does an Argument-Based Approach to Validity Make a Difference？ Educational Measurement： Issues and Practice Spring， 29. 1： 3–13

[4]陳慧麟. 基于紙筆的語言測試和基于計算機(jī)的語言測試之間效度對等性驗證模式初探[J].外語界，2009（3）.

[5]陳曉扣，李紹山. TEM-4完型填空測試結(jié)構(gòu)效度研究—答題過程分析法[J].現(xiàn)代外語，2006 （1）.

[6]高懷勇，戢煥奇，劉鋒，汪定明.基于試題內(nèi)部結(jié)構(gòu)和評分過程的口試構(gòu)念效度研究——以PETS四級為例[J]. 山東外語教學(xué)， 2011（4）.

[7]高霄. 二語寫作質(zhì)量構(gòu)念效度的結(jié)構(gòu)方程模型分析[J] . 山東外語教學(xué)， 2009（6）.

[8]賀莉. 語言測試構(gòu)念效度的性別差異研究[J] .解放軍外國語學(xué)院學(xué)報，2012（9）.

[9]劉國忠，秦曉晴. 二語寫作準(zhǔn)確性結(jié)構(gòu)效度研究[J] . 外語與外語教學(xué)， 2010（2）.

[10]潘鳴威，徐欣幸. 基于語料庫漢英單句翻譯測試的構(gòu)念效度探究——以全國高考（上海卷）翻譯題為例 [J] . 中小學(xué)英語教學(xué)與研究， 2010（4）.

[11]文秋芳.“作文內(nèi)容”的構(gòu)念效度研究——運用結(jié)構(gòu)方程模型軟件AMOS 5的嘗試[J] .外語研究，2007（3）.

[12]張新玲，曾用強(qiáng). 讀寫結(jié)合寫作測試任務(wù)在大型考試中的構(gòu)念效度驗證[J].解放軍外國語學(xué)院學(xué)報，2009（1）.

[13]鄒申，彭康洲，孔文. 應(yīng)用EQS和BILOG分析TEM8人文知識項目的構(gòu)念效度[J].中國外語， 2009（1）.

校園英語·中旬2014年1期

校園英語·中旬的其它文章: 訪美學(xué)校見聞; Reflection from a Class in the States; “外教社杯”第五屆全國中學(xué)生英語閱讀競賽河北賽區(qū)決賽大賽綜述; 論高中英語詞匯教學(xué)之熟詞生義; 如何突破新課標(biāo)閱讀理解七選五; 淺議高中英語有效教學(xué)過程中提高寫作能力的策略