基于結(jié)構(gòu)方程模型的普通話水平測試構(gòu)想效度研究

2024-01-01 00:00:00原鑫

考試研究 2024年6期

[摘要] 構(gòu)想效度是效度論證的核心問題，也是檢驗(yàn)測試質(zhì)量的關(guān)鍵指標(biāo)。以普通話水平測試實(shí)測數(shù)據(jù)為研究材料，考察普通話水平測試的構(gòu)想效度。使用結(jié)構(gòu)方程驗(yàn)證性因子分析檢驗(yàn)測試的構(gòu)想效度，使用跨組別驗(yàn)證性因子分析測試構(gòu)想在男女考生組別的跨組別一致性。驗(yàn)證性因子分析結(jié)果顯示：“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型與實(shí)測數(shù)據(jù)擬合最佳；參數(shù)估計(jì)結(jié)果顯示測試聚斂效度良好，判別效度較低。跨組別分析結(jié)果顯示：兩因子模型各項(xiàng)參數(shù)在男女考生群體中表現(xiàn)一致，測試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。從實(shí)證角度論證了普通話水平測試的構(gòu)想效度，并對(duì)命題說話題目提出設(shè)置情境、更新題庫、提高被試表達(dá)真實(shí)性等改進(jìn)建議。

[關(guān)鍵詞] 普通話水平測試；構(gòu)想效度；結(jié)構(gòu)方程模型；因子結(jié)構(gòu)

[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A

[文章編號(hào)] 1673—1654（2024）06—031—011

普通話水平測試（Putonghua Shuiping Ceshi，PSC）是專門測試漢語母語者標(biāo)準(zhǔn)語水平的大規(guī)模口試，是促進(jìn)國家通用語言高質(zhì)量推廣普及的重要舉措。該測試對(duì)象范圍廣、測試數(shù)量龐大，是相關(guān)職業(yè)及專業(yè)資格認(rèn)證、學(xué)生學(xué)業(yè)成就認(rèn)證的重要依據(jù)。效度是衡量測試質(zhì)量的核心標(biāo)準(zhǔn)，“任何嚴(yán)肅的測試都必須提供令人滿意的效度證據(jù)”[1]，測試最重要的效度證據(jù)就是測試的構(gòu)想效度，即被試的考試成績與考試開發(fā)者所設(shè)想的語言能力理論相符的程度[2]。PSC測評(píng)質(zhì)量的研究一直受到學(xué)界重視，相關(guān)研究也從不同角度論證了測試的質(zhì)量，但幾乎沒有觸及構(gòu)想效度這一測試質(zhì)量的核心問題。關(guān)于PSC的構(gòu)想及效度等諸多關(guān)鍵問題，需要深入研究和探索。

一、研究背景和提出問題

（一）口語測試的構(gòu)想效度研究

測試的構(gòu)想效度研究一直是語言測驗(yàn)領(lǐng)域的一個(gè)核心課題。構(gòu)想是一種語言能力理論在測驗(yàn)中的體現(xiàn)。語言測驗(yàn)涉及的一個(gè)重要假設(shè)就是測驗(yàn)的構(gòu)想與所測內(nèi)容有著同樣的結(jié)構(gòu)關(guān)系。研究構(gòu)想效度是為了檢驗(yàn)試卷結(jié)構(gòu)與所測語言能力之間的相符程度，以回答“測試到底在多大程度上測到了其想測的能力”這一反映測試質(zhì)量的關(guān)鍵問題。盡管研究者們對(duì)效度的分類法存在差異，但構(gòu)想效度一直居于效度研究的中心地位，Cronbach將效度研究比作對(duì)以構(gòu)想效度為特征的科學(xué)理論的評(píng)估，指出大多數(shù)教育測量都需要構(gòu)想效度[2]。Messick認(rèn)為構(gòu)想效度也許不能代表效度的全部，但它是效度的核心[3]。Bachman引用Messick的論述[4-5]，指出盡管研究者們將效度證據(jù)分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度、結(jié)構(gòu)效度等不同種類，但效度具有一元性，內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度都是支持構(gòu)想效度的輔助性證據(jù)[6]。可見，構(gòu)想效度的論證是語言測驗(yàn)的開發(fā)與使用無法回避的問題。

Messick的一元化效度觀認(rèn)為，效度是一個(gè)綜合性的評(píng)價(jià)，效度證據(jù)來自多個(gè)方面[7]。效度是一種程度，有高低之分，不是非有即無。效度驗(yàn)證是動(dòng)態(tài)的、持續(xù)的過程，研究者可以通過多種渠道、從多個(gè)方面收集構(gòu)想效度證據(jù)，以說明測試分?jǐn)?shù)解釋和使用的合理性。

目前國內(nèi)外直接研究PSC構(gòu)想效度的文章相對(duì)較少。張國華通過面向應(yīng)試人員的問卷調(diào)查和面向測試員的座談收集對(duì)PSC各類效度的評(píng)價(jià)數(shù)據(jù)，包括PSC的構(gòu)念效度、內(nèi)容效度、表面效度等；調(diào)查結(jié)果顯示應(yīng)試人和測試員普遍認(rèn)為PSC構(gòu)念效度較高，但多數(shù)被試認(rèn)為第一項(xiàng)“讀單音節(jié)字詞”內(nèi)容效度較低；同時(shí)相當(dāng)比重的應(yīng)試人認(rèn)為試卷表面效度較好，但仍需做很多改進(jìn)[8]。常曉宇對(duì)PSC“朗讀短文”測試項(xiàng)進(jìn)行效度研究，使用層次分析法確定了PSC朗讀短文測試項(xiàng)各評(píng)分要素的比重，使用多重線性回歸的方法構(gòu)建了普通話朗讀能力要素的回歸方程[9]。張寵以華裔學(xué)生PSC實(shí)測數(shù)據(jù)為研究材料，從內(nèi)容效度、校標(biāo)關(guān)聯(lián)效度、構(gòu)想效度、測試后效等效度的不同方面探討PSC對(duì)華裔學(xué)生的適用性[10]。總體上看，PSC的構(gòu)想效度研究領(lǐng)域?qū)y試效度的研究經(jīng)驗(yàn)探討多，實(shí)證研究少。

（二）口語測試因子結(jié)構(gòu)的跨組別一致性研究

測試的公平性是影響測試效度的一個(gè)重要方面，只有公平的測試才可能是有效的測試，任何削弱公平性的行為都會(huì)損害測試分?jǐn)?shù)解釋和使用的有效性[11]。進(jìn)行因子結(jié)構(gòu)跨組別的比較研究是為了檢驗(yàn)測試構(gòu)想在不同應(yīng)試群體中是否存在偏差，即測試構(gòu)想對(duì)不同群體是否公平。如果測試因子結(jié)構(gòu)與不同考生群體測試數(shù)據(jù)的擬合具有跨組別不變性，那么可以認(rèn)為測試構(gòu)想對(duì)不同考生群體是一致且有效的。否則，測試可能會(huì)顯示出對(duì)特定考生群體的偏見。《教育與心理測量標(biāo)準(zhǔn)》（Standards for Educational and Psychological Testing）一書認(rèn)為，當(dāng)測試涉及不同的亞群體受試時(shí)，應(yīng)該實(shí)施效度的跨群體一致性驗(yàn)證[12]。已有研究涉及的亞群體類別包括社會(huì)地位、性別、語言和文化背景、專業(yè)背景等[13-16]。但已有研究多是針對(duì)紙筆考試的試卷結(jié)構(gòu)，對(duì)口語能力結(jié)構(gòu)模型的公平性研究較少。

在語言測試領(lǐng)域，性別對(duì)口語能力的影響是比較受關(guān)注的話題。有研究認(rèn)為，男女在會(huì)話風(fēng)格、語言互動(dòng)方面存在較大差異，口語交際能力的構(gòu)想在男女性別上并沒有做到公平一致[17]；也有研究發(fā)現(xiàn)性別對(duì)口語水平并無明顯的影響[18]。可見，對(duì)于口語能力與性別的關(guān)系，研究者們觀點(diǎn)并不一致。PSC作為一項(xiàng)大規(guī)模的母語口語水平考試，測試構(gòu)想對(duì)男女考生群體是否存在偏差是值得研究的課題。

（三）結(jié)構(gòu)方程模型在測試效度研究中的應(yīng)用

結(jié)構(gòu)方程模型（Structure Equation Model，SEM）也稱為協(xié)方差結(jié)構(gòu)分析或結(jié)構(gòu)方程建模，是基于變量的協(xié)方差矩陣分析變量間關(guān)系的一種統(tǒng)計(jì)方法。SEM可分為測量方程（Measurement Equation）和結(jié)構(gòu)方程（Structural Equation）兩部分。測量方程描述潛變量與指標(biāo)之間的關(guān)系。結(jié)構(gòu)方程則描述潛變量之間的關(guān)系。SEM通過假設(shè)模型與實(shí)測數(shù)據(jù)的擬合，估計(jì)觀測變量、潛在變量之間的關(guān)系，確定理論構(gòu)想與實(shí)際數(shù)據(jù)表現(xiàn)的相符程度。20世紀(jì)80年代以來，SEM廣泛應(yīng)用于語言能力結(jié)構(gòu)、測試構(gòu)想效度、測試公平性的研究[19-22]。SEM的最大優(yōu)點(diǎn)之一就是能夠評(píng)估理論模型的構(gòu)想效度[23]，是一種“理論檢驗(yàn)”的活動(dòng)[24]。

PSC作為一項(xiàng)服務(wù)國家語言文字事業(yè)，對(duì)國家通用語言高質(zhì)量普及提升起到重要助推作用的測試，其構(gòu)想效度研究是重要的研究課題，也是推動(dòng)國家通用語言高質(zhì)量發(fā)展的應(yīng)有之義。本研究將使用結(jié)構(gòu)方程模型，在論證考試因子結(jié)構(gòu)的基礎(chǔ)上，進(jìn)一步探討測試結(jié)構(gòu)在不同考生群體上的穩(wěn)定性，為PSC的效度論證提供實(shí)證依據(jù)。具體研究問題有兩個(gè)：一是PSC的構(gòu)想效度如何？二是PSC對(duì)男女性別的被試是否具有跨組別一致性？

二、研究方法與過程

（一）樣本數(shù)量的確定及樣本情況

目前學(xué)界對(duì)結(jié)構(gòu)方程模型研究的最低樣本量并沒有確定且統(tǒng)一的標(biāo)準(zhǔn)，經(jīng)常被引用的一種確定樣本量的方法是考慮樣本量與觀測變量個(gè)數(shù)的關(guān)系。Bentler和Chou認(rèn)為對(duì)于呈正態(tài)分布和橢圓分布的數(shù)據(jù)，樣本量應(yīng)該是觀測變量個(gè)數(shù)的5倍；而對(duì)于其他分布情況的數(shù)據(jù)，樣本量應(yīng)該是觀測變量個(gè)數(shù)的10倍[25]。Muthen L和Muthen B認(rèn)為，對(duì)于一個(gè)有10個(gè)觀測變量的模型，如果數(shù)據(jù)分布接近正態(tài)且無缺失值，則最低樣本量為150[26]。一般來說，觀測變量個(gè)數(shù)越少、數(shù)據(jù)越接近正態(tài)、缺失值越少，則需要的樣本數(shù)量越少。本研究的PSC包含4個(gè)觀測變量，在數(shù)據(jù)呈正態(tài)分布、無缺失值的情況下，100至200名被試可以保證研究的信度。此外，結(jié)構(gòu)方程模型多組比較時(shí)，如不同組別的樣本量差異較大，估計(jì)值會(huì)盡量遷就人數(shù)較多的組，使總χ2最小，為保證模型估計(jì)的準(zhǔn)確性，應(yīng)保證各組人數(shù)等同或接近。

從某次普通話測試中抽取180名被試的語音樣本，其中男性90名，女性90名。180名被試的語音樣本均包含讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文、命題說話4項(xiàng)。聘請(qǐng)兩名省級(jí)評(píng)分員對(duì)180名被試在4個(gè)題型上的表現(xiàn)進(jìn)行分項(xiàng)評(píng)分，取兩名評(píng)分員評(píng)分結(jié)果的平均數(shù)作為測試最終得分。被試分項(xiàng)得分情況見表1。

（二）競爭模型的建立及指標(biāo)的設(shè)定

《普通話水平測試大綱》（以下簡稱“《大綱》”）對(duì)PSC的試卷結(jié)構(gòu)進(jìn)行了描述。如表2所示，普通話水平測試包括“讀單音節(jié)字詞”“讀多音節(jié)詞語”“朗讀短文”和“命題說話”。“讀單音節(jié)字詞”“讀多音節(jié)詞語”“朗讀短文”屬于有文字憑借測試項(xiàng)，測查被試讀字詞的語音標(biāo)準(zhǔn)程度和朗讀書面作品的水平；命題說話測試項(xiàng)為無文字憑借測試項(xiàng)，測查被試在沒有文字憑借的情況下使用普通話所達(dá)到的規(guī)范程度[27]。

根據(jù)《大綱》對(duì)PSC試卷結(jié)構(gòu)的闡述，本研究構(gòu)擬了2個(gè)競爭模型。模型A包含普通話能力1個(gè)潛變量，將其命名為PT；4個(gè)觀測變量分別為讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文和命題說話，分別命名為DZ、DC、DW和MS。模型B包含“有文字憑借模式下的普通話表達(dá)”和“無文字憑借模式下的普通話表達(dá)”兩個(gè)潛變量，分別命名為YWZ和WWZ；YWZ因子包含讀單音節(jié)字詞（DZ）、讀多音節(jié)詞語（DC）、朗讀短文（DW）3個(gè)觀測變量；WWZ因子的觀測變量為命題說話（MS）。結(jié)構(gòu)方程模型進(jìn)行指標(biāo)設(shè)定時(shí)，每個(gè)因子至少有2個(gè)指標(biāo)模型才可被識(shí)別。使用兩位評(píng)分員的評(píng)分結(jié)果作為WWZ因子的2個(gè)測量指標(biāo)，分別命名為MS1、MS2。對(duì)于含有2個(gè)指標(biāo)的多因子模型，侯杰泰等提出兩指標(biāo)法則[28]，即對(duì)于一個(gè)多因子模型，如果有因子只含兩個(gè)指標(biāo)，模型可識(shí)別的充分條件如下：一是每個(gè)因子有兩個(gè)或兩個(gè)以上的指標(biāo)；二是每個(gè)指標(biāo)只測量一個(gè)潛變量；三是對(duì)每個(gè)潛變量，至少有另一個(gè)潛變量與之相關(guān)；四是誤差之間不相關(guān)。根據(jù)此法則對(duì)本研究各理論模型進(jìn)行檢視，結(jié)果均符合法則要求，因此本研究模型的建立是可行的。

模型A和模型B的結(jié)構(gòu)關(guān)系圖分別見圖1和圖2。

（三）數(shù)據(jù)分析步驟

對(duì)所有模型的擬合、參數(shù)估計(jì)均使用結(jié)構(gòu)方程模型分析軟件Lisrel（8.80）。數(shù)據(jù)研究分為三步：一是數(shù)據(jù)一元正態(tài)和多元正態(tài)性檢驗(yàn)，二是確立基準(zhǔn)模型，三是跨組別分析。

一元正態(tài)及多元正態(tài)檢驗(yàn)參考數(shù)據(jù)偏度、峰度顯著性檢驗(yàn)以及總體顯著性檢驗(yàn)，檢驗(yàn)的零假設(shè)是數(shù)據(jù)符合正態(tài)分布，我們希望接受這個(gè)零假設(shè)，即希望p值大于0.01。使用極大似然估計(jì)（Maximum Likelihood，ML）進(jìn)行數(shù)據(jù)擬合。模型與數(shù)據(jù)的擬合程度主要參考兩個(gè)標(biāo)準(zhǔn)：一是模型擬合指數(shù)，二是參數(shù)估計(jì)結(jié)果的合理性。基準(zhǔn)模型的建立和跨組別分析參考一系列擬合指數(shù)。目前普遍認(rèn)為評(píng)價(jià)模型擬合程度時(shí)應(yīng)參考多個(gè)不同類型的評(píng)價(jià)指標(biāo)。參考已有研究常用且普遍認(rèn)為較穩(wěn)定的擬合指數(shù)[29-30]，擬選擇以下幾個(gè)擬合指數(shù)作為模型擬合的檢驗(yàn)標(biāo)準(zhǔn)：χ2（越小越好）、χ2/df（＜3）、χ2檢驗(yàn)p值（＞0.01）、GFI（＞0.9）、AGFI（＞0.9）、NFI（＞0.9）、NNFI（＞0.9）、CFI（＞0.9）、RMSEA（＜0.08）。

三、研究結(jié)果

（一）數(shù)據(jù)正態(tài)檢驗(yàn)結(jié)果

對(duì)各項(xiàng)數(shù)據(jù)的正態(tài)檢驗(yàn)結(jié)果顯示，只有命題說話項(xiàng)分?jǐn)?shù)符合正態(tài)分布，其它數(shù)據(jù)正態(tài)顯著性檢驗(yàn)均不符合正態(tài)分布（P＜0.01）。其中DZ、DC呈負(fù)偏態(tài)，DW呈負(fù)峰度。根據(jù)Hair，Black amp; Babin針對(duì)不同偏態(tài)提出的轉(zhuǎn)換法則[23]，對(duì)以上3個(gè)變量進(jìn)行了處理1。處理結(jié)果顯示，變量均符合正態(tài)分布（P＞0.01）。使用處理后的數(shù)據(jù)計(jì)算單因子模型和兩因子模型的協(xié)方差矩陣，作為模型驗(yàn)證時(shí)參數(shù)估計(jì)的基礎(chǔ)。

（二）基準(zhǔn)模型的確立

在結(jié)構(gòu)方程模型中，要確定哪個(gè)模型與實(shí)測數(shù)據(jù)的擬合結(jié)果最佳，主要從兩個(gè)方面進(jìn)行評(píng)估：一是用擬合指數(shù)對(duì)模型做整體評(píng)價(jià)，二是檢驗(yàn)參數(shù)估計(jì)值的顯著性及參數(shù)的意義和合理性。

1.模型擬合指數(shù)比較

如表3所示，單因子模型（模型A）、兩因子模型（模型B）的各項(xiàng)擬合指數(shù)均符合評(píng)價(jià)標(biāo)準(zhǔn)。通過對(duì)比發(fā)現(xiàn)，除GFI值均為0.99，模型B的各項(xiàng)擬合指數(shù)表現(xiàn)均明顯優(yōu)于模型A；模型B χ2檢驗(yàn)的顯著性p值也明顯高于模型A。根據(jù)擬合指數(shù)的總體表現(xiàn)，模型 B兩因子模型擬合數(shù)據(jù)最佳。

2.參數(shù)估計(jì)結(jié)果檢驗(yàn)

進(jìn)而考察模型 B的參數(shù)估計(jì)合理性，參數(shù)估計(jì)值見表4。經(jīng)過檢視，模型B所估計(jì)的誤差方差、標(biāo)準(zhǔn)誤等均未出現(xiàn)負(fù)值；標(biāo)準(zhǔn)化估計(jì)值都小于1；參數(shù)估計(jì)顯著性檢驗(yàn)t值也都大于2，表明所有參數(shù)估計(jì)值都顯著地不等于0。從表4可以看出，標(biāo)準(zhǔn)化因子負(fù)荷均介于0.5～0.95，R2的值都介于0.5～0.9，表明觀測變量很好地解釋了潛在變量，模型擬合結(jié)果良好。因此，模型B作為基準(zhǔn)模型是成立的。根據(jù)計(jì)算，PSC因素結(jié)構(gòu)圖見圖3。

3.構(gòu)想效度的考察

通過參數(shù)估計(jì)值考察測試構(gòu)想效度。聚斂效度和判別效度是衡量構(gòu)想效度的兩個(gè)主要指標(biāo)：聚斂效度指測量指標(biāo)多大程度上測到了所附屬的潛在變量；判別效度指各潛在變量之間的區(qū)別程度。根據(jù)Hair等的研究，聚斂效度的考察標(biāo)準(zhǔn)主要包括因子負(fù)荷、方差析出量（Variance Extracted）1和構(gòu)想信度（Construct Reliability）2。Hair等對(duì)3個(gè)指數(shù)提出了具體的評(píng)價(jià)標(biāo)準(zhǔn)：一是每個(gè)指標(biāo)在相應(yīng)因子上的負(fù)荷越高，表明聚斂效度越好，一般標(biāo)準(zhǔn)化的因子負(fù)荷應(yīng)至少達(dá)到0.5，0.7以上則較為理想；二是方差析出量達(dá)到0.5以上表明收斂性較好；三是構(gòu)想信度達(dá)到0.7以上表示各指標(biāo)具有內(nèi)部一致性，說明指標(biāo)測量了同一個(gè)潛在構(gòu)想[23]。判別效度的考察方法為，將兩個(gè)因子間相關(guān)（標(biāo)準(zhǔn)化）的平方同這兩個(gè)因子各自的方差析出量進(jìn)行比較，兩個(gè)方差析出量都大于相關(guān)的平方時(shí)，說明測量模型具有較好的判別效度。

根據(jù)表5，本研究所有5個(gè)指標(biāo)在相應(yīng)因子上的負(fù)荷均超過0.7，其中DW、MS1指標(biāo)的標(biāo)準(zhǔn)化因子負(fù)荷達(dá)到0.9以上，每個(gè)因子的方差析出量都在0.7以上，構(gòu)想信度也都達(dá)到0.9，表明測量模型具有非常好的聚斂效度。表6中判別效度檢驗(yàn)結(jié)果顯示，兩個(gè)因子的方差析出量均略小于因子間相關(guān)的平方，因子間區(qū)別程度不明顯。綜合聚斂效度和判別效度的檢驗(yàn)結(jié)果，本研究認(rèn)為PSC具有較好的聚斂效度，判別效度有待提高。

（三）跨組別檢驗(yàn)結(jié)果

多組驗(yàn)證性因子分析的目的在于檢驗(yàn)測試結(jié)構(gòu)在男女考生群體上的一致性。根據(jù)侯杰泰等的建議[28]，結(jié)合本研究具體情況，對(duì)基準(zhǔn)模型在男女考生群體上的估計(jì)值進(jìn)行逐層的等值限制，具體步驟如下：一是完形模型（Configural Model），模型形態(tài)等同，對(duì)兩組數(shù)據(jù)在模型上的參數(shù)估計(jì)不做限制；二是因子負(fù)荷等同，限定模型形態(tài)等同的基礎(chǔ)上，追加限定兩組對(duì)應(yīng)的因子負(fù)荷相同；三是協(xié)方差等同，在前兩步基礎(chǔ)上繼續(xù)限定男女組別因子協(xié)方差等同，即限定各組因子的相關(guān)系數(shù)等同；四是在前3種限定的基礎(chǔ)上，繼續(xù)限定兩組指標(biāo)截距等同；五是在前四步限制的基礎(chǔ)上，限定因子均值等同。五層限制分別產(chǎn)生了5個(gè)模型，5個(gè)模型的擬合指標(biāo)見表7。

對(duì)比5個(gè)模型發(fā)現(xiàn)，整體上隨著限制條件的增加，GFI、NFI、NNFI、CFI幾個(gè)擬合指標(biāo)并未發(fā)生顯著變化。RMSEA存在變好的趨勢。χ2/df結(jié)果越來越小。χ2顯著性檢驗(yàn)p值也越來越大。每一步追加等同條件后模型擬合指數(shù)都在評(píng)價(jià)標(biāo)準(zhǔn)范圍內(nèi)，模型擬合均比較理想。整體上模型擬合的結(jié)果越來越好。

一個(gè)經(jīng)驗(yàn)性法則是，觀察增加等同限制條件前后χ2和自由度的變化，如Δχ2/Δdf小于5，則認(rèn)為增加同等條件后，擬合優(yōu)度沒有顯著變壞，等同條件成立[28]。本研究將Model 2-5與基準(zhǔn)模型Model 1進(jìn)行比較，發(fā)現(xiàn)追加限制后的模型Δχ2/Δdf值均小于5。此外，基準(zhǔn)模型與其它模型的卡方差異檢驗(yàn)結(jié)果表明，每一層追加限制后的模型（Model 2-Model 5）與基準(zhǔn)模型（Model 1）相比，在與實(shí)測數(shù)據(jù)的擬合程度上并不存在統(tǒng)計(jì)學(xué)意義上的顯著差異（p值均大于0.05）。這些分析說明，經(jīng)過逐層等值限制以后的模型與基準(zhǔn)模型在擬合上不存在顯著的差異，測試構(gòu)想在男女考生群體中均可以保持較好的穩(wěn)定性。

四、討論與建議

本研究使用結(jié)構(gòu)方程模型驗(yàn)證性因子分析檢驗(yàn)PSC因子結(jié)構(gòu)以及測試在男女考生群體中的穩(wěn)定性，以考察測試的構(gòu)想效度。研究對(duì)兩個(gè)競爭模型的驗(yàn)證性因子分析顯示，“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型數(shù)據(jù)擬合結(jié)果最佳，兩因子模型的聚斂效度良好，判別效度偏低。跨組別分析結(jié)果顯示，兩因子模型各項(xiàng)參數(shù)在男女考生群體中表現(xiàn)一致，測試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。

（一）關(guān)于PSC因子結(jié)構(gòu)的討論

研究結(jié)果顯示，PSC試卷結(jié)構(gòu)包含“有文字憑借模式下的普通話表達(dá)”和“無文字憑借下的普通話表達(dá)”兩個(gè)因子。從標(biāo)準(zhǔn)化因子負(fù)荷估計(jì)結(jié)果看，讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文3個(gè)測量指標(biāo)在“有文字憑借”因子上的負(fù)荷都比較高（分別為0.78、0.83、0.96），有文字憑借因子的方差析出量達(dá)到0.74，說明3個(gè)觀測變量較好地解釋了有文字憑借因子。從讀單音節(jié)字詞、讀多音節(jié)詞語再到讀語篇，3個(gè)觀測變量對(duì)有文字憑借因子的解釋能力逐漸增強(qiáng)。這也符合單音節(jié)字詞、多音節(jié)詞語、語篇對(duì)普通話應(yīng)用的實(shí)際影響程度。命題說話題目在無文字憑借因子上的負(fù)荷也比較高。說明測試各項(xiàng)觀測指標(biāo)都對(duì)相應(yīng)的潛變量具有很好的解釋效力，PSC測試結(jié)構(gòu)具備良好的聚斂效度。

有文字憑借和無文字憑借兩個(gè)因子達(dá)到0.93的較高相關(guān)。對(duì)參數(shù)估計(jì)值的考察也發(fā)現(xiàn)，兩因子模型中兩個(gè)因子各自的方差析出量均略小于因子間相關(guān)的平方，說明兩個(gè)因子間區(qū)別程度較低，測試判別效度不太理想。

（二）關(guān)于測試判別效度的討論和改進(jìn)建議

一般來說我們希望兩個(gè)因子間具有一定的區(qū)別性，即希望測試結(jié)構(gòu)中的兩個(gè)因子分別代表普通話表達(dá)能力下的兩種不同的微技能。“有文字憑借”是借助文字材料說普通話，由于文字材料已給定，應(yīng)試人只需要朗讀出試卷內(nèi)容，那么測試主要測查的就是語音標(biāo)準(zhǔn)程度和流暢程度。“無文字憑借”是在沒有文字輔助的情況下進(jìn)行普通話表達(dá)，除了語音標(biāo)準(zhǔn)程度和流暢程度，也考查語法規(guī)范以及遣詞造句、修辭等語用能力。從理論上來說兩個(gè)因子間應(yīng)當(dāng)具有一定的區(qū)別性，為何兩個(gè)因子卻達(dá)到0.93的高相關(guān)呢？

從測評(píng)維度看，我國幅員遼闊，方言復(fù)雜，方言間差異最大的是語音，其次是詞匯和語法。PSC從設(shè)計(jì)之初就是為了推廣普通話，促進(jìn)各民族各地區(qū)人民的交流。因而PSC題型設(shè)計(jì)和分值權(quán)重主要側(cè)重語言本身的語碼操作能力（即語音、詞匯、語法等語言結(jié)構(gòu)系統(tǒng)中各要素的操作能力），尤其是語音標(biāo)準(zhǔn)程度。即便是應(yīng)該體現(xiàn)交際能力的“命題說話”也主要側(cè)重語音標(biāo)準(zhǔn)程度的測評(píng)，較少涉及語用能力，交際策略能力則幾乎沒有涉及。有文字憑借測試項(xiàng)和無文字憑借測試項(xiàng)在測評(píng)維度上較為一致，因而相關(guān)程度較高。

從測試形式來看，PSC屬于獨(dú)白式口試，被試依據(jù)試卷上的文字引導(dǎo)語進(jìn)行口語產(chǎn)出。無論是有文字憑借還是無文字憑借測試項(xiàng)，都不涉及交際情境，考官不參與對(duì)話交流[31]。PSC“命題說話”缺乏語境、情境等因素，交際性不明顯[32-33]，因而無文字憑借的“命題說話”與有文字憑借的測試項(xiàng)間沒有形成明顯的區(qū)別。

從測試流程看，為達(dá)到以測促訓(xùn)的目的，PSC說話題目的范圍是事先給定的，被試在考前充分培訓(xùn)、準(zhǔn)備的情況下，單向說話的表現(xiàn)由即興口頭表達(dá)變成機(jī)械背稿，“命題說話”并未在真實(shí)、即興的情境下表達(dá)，沒有實(shí)現(xiàn)口語測試真實(shí)性的目的。因而，有文字憑借與無文字憑借測試在測查表現(xiàn)上區(qū)別度較低。

總體上，PSC測試構(gòu)想較好地反映了測試目的，無文字憑借與有文字憑借測試項(xiàng)相關(guān)度較高也有其客觀原因。但不可否認(rèn)的是，為了達(dá)到以測促訓(xùn)的目的，測試在一定程度上犧牲了真實(shí)性，進(jìn)而影響了測試的構(gòu)想效度。如何在確保被試充分訓(xùn)練、以考促學(xué)的同時(shí)，提高測試的構(gòu)想效度是測試需要解決的問題。

在測試中應(yīng)保證命題說話測試的真實(shí)性，最大程度獲得被試日常普通話表達(dá)原汁原味的樣本，以確保分?jǐn)?shù)推論的有效性。為此可以從以下4個(gè)方面對(duì)測試進(jìn)行改進(jìn)：一是在題型設(shè)置上，將命題說話題目改為貼近日常工作生活且具有一定語境情境的話題，引導(dǎo)貼近生活的真實(shí)口語表達(dá)；二是在考試命題方面，組織人員進(jìn)行命題說話項(xiàng)的命題，定期更新題庫；三是在測試流程方面，命題說話的試題在考試時(shí)臨場給出，避免提前準(zhǔn)備、背稿的問題，保證考生語言表現(xiàn)的真實(shí)性；四是在測試培訓(xùn)和準(zhǔn)備方面，在《普通話水平測試實(shí)施綱要》中只公開第一、二、三項(xiàng)測試的字表、詞表和朗讀篇目，并給出一部分命題說話項(xiàng)例題作為考前練習(xí)，但命題說話正式施測題目不在《綱要》中出現(xiàn)。這樣既達(dá)到通過訓(xùn)練提高普通話水平的目的，也保證了測試的效度。

根據(jù)構(gòu)想效度的研究結(jié)果，PSC測試結(jié)構(gòu)包含“有文字憑借模式下”和“無文字憑借模式下”兩種普通話表達(dá)模式，且包含單音節(jié)字詞、多音節(jié)詞語、語篇、命題說話等測量指標(biāo)。可見口語表達(dá)不是簡單的語言能力要素的組合，而是表達(dá)模式和表達(dá)內(nèi)容相互作用的結(jié)果。

（三）關(guān)于PSC測試構(gòu)想跨組別一致性的討論

測試結(jié)構(gòu)在不同亞群體中的穩(wěn)定性是效度的重要證據(jù)，測試構(gòu)想的一致性關(guān)系到考試是否對(duì)所有考生一視同仁，這對(duì)考試的公平使用和決策至關(guān)重要。關(guān)于性別與口語能力的關(guān)系，研究者的觀點(diǎn)并不一致。一些研究認(rèn)為男女在會(huì)話風(fēng)格上存在明顯差異[34-35]，在英語口語表現(xiàn)方面，女性的口試成績明顯高于男性[36]。但也有研究發(fā)現(xiàn)，不同性別的考生口語能力幾乎沒有差異[37]。O’ Loughlin、范勁松等分別考察了語言測試對(duì)男女考生群體的公平性，研究結(jié)果顯示，測試因子結(jié)構(gòu)和評(píng)分在男女考生中具有較好的一致性[38-39]。已有研究得出不同的結(jié)論，可能與被試樣本選擇及測試內(nèi)容存在一定關(guān)系。本研究效度的跨組別一致性檢驗(yàn)結(jié)果表明，PSC測試結(jié)構(gòu)在男女組別表現(xiàn)相同，具有較好的穩(wěn)定性，說明測試構(gòu)想在男女生被試群體中是充分且合適的，并不存在偏差。

五、結(jié)束語

本研究使用SEM驗(yàn)證性因子分析檢驗(yàn)PSC的構(gòu)想效度，以及構(gòu)想效度的跨群體穩(wěn)定性。理論模型與實(shí)測數(shù)據(jù)擬合及參數(shù)估計(jì)結(jié)果顯示“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型較好地代表了被試的實(shí)際語言能力結(jié)構(gòu)，且測試結(jié)構(gòu)在男女考生組別上具有良好的穩(wěn)定性，測試構(gòu)想效度良好，但兩個(gè)因子區(qū)別度較低。構(gòu)想效度的研究本質(zhì)上是證明測試背后的理論有效[40]。研究論證了測試的理論構(gòu)想的有效性，為PSC提供了實(shí)證性的效度證據(jù)，并為未來開展PSC的效度研究提供了一些方法和路徑上的參考。

本研究還存在以下尚待補(bǔ)充之處。首先，研究僅從測試因子結(jié)構(gòu)的角度考察測試效度。隨著效度理論的發(fā)展，在新的效度理論框架下，效度是一個(gè)多層面的整體概念，效度驗(yàn)證需要多方面收集不同類型的證據(jù)，使這些證據(jù)構(gòu)成一個(gè)相互補(bǔ)充的效度論證鏈[41]。PSC的效度研究還有很多尚待探索的領(lǐng)域。測試的效標(biāo)關(guān)聯(lián)效度、評(píng)分效度，以及測試效度的質(zhì)性研究都是PSC效度研究值得關(guān)注的課題。在以后的研究中，可以考察測試分?jǐn)?shù)與外部語言量表的校標(biāo)關(guān)系，檢驗(yàn)評(píng)分量表的效度；也可使用話語分析、有聲思維、專家判斷等質(zhì)性研究方法考察PSC的構(gòu)想效度，為PSC的效度驗(yàn)證提供多方面的效度證據(jù)。其次，由于篇幅所限，跨組別研究只檢驗(yàn)了構(gòu)想效度在男女考生群體中的公平性。在普通話水平的測量中，文化背景、學(xué)歷背景、方言背景、語言水平、認(rèn)知特點(diǎn)、年齡等因素都可能使測試構(gòu)想效度存在偏差。未來可以使用DIF、多面Rasch分析、SEM多組驗(yàn)證分析等方法全面考察PSC構(gòu)想效度和評(píng)分在不同背景考生群體中的公平性。

參考文獻(xiàn)：

[1] HUGHES A，PORTER D，WEIR C J. Validating the ELTS Test：A Critical Review [M]. Cambridge：The British Council and the University of Cambridge Local Examination Syndicate，1988：4.

[2] CRONBACH L J. Test Validation [C]. // R L Thorndike（ed.）. Educational Measurement（2nd edition）. Washington DC：American Council on Education，1971：443-507.

[3] MESSICK S. Evidence and Ethics in the Evaluation of Tests [J]. Educational Researcher，1981，10（9）：9-20.

[4] MESSICK S. Test Validity and the Ethics of Assessment [J]. American Psychologist，1980，35（11）：1012-1027.

[5] MESSICK S. The Once and Future Issues of Validity：Assessing the Meaning and Consequences of Measurement [C]. // H Wainer，H I Braun（eds.）. Test Validity. Hillsdale，NJ：Lawrence Erlbaum，1988：33-45.

[6] BACHMAN L F. Fundamental Considerations in Language Testing [M]. Oxford：Oxford University Press，1990：241-242，255.

[7] MESSICK S. Validity of Psychological Assessment：Validation of Inferences from Pearson’s Responses and Performances as Scientific Inquiry into Score Meaning [J]. American Psychologist，1995，50（9）：741-749.

[8] 張國華.對(duì)PSC測試有效度的驗(yàn)察[C].//第四屆全國語言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集，2005.

[9] 常曉宇.口語測試中朗讀類題型的效度研究——以普通話水平測試“朗讀短文”測試項(xiàng)為例[D].中國社會(huì)科學(xué)院研究生院博士學(xué)位論文，2017.

[10] 張寵.普通話水平測試對(duì)留學(xué)生的適用性研究[D].中國社會(huì)科學(xué)院研究生院碩士學(xué)位論文，2019.

[11] XI，X. How Do We Go About Investigating Test Fairness？ [J]. Language Testing，2010，27（2）：147-170.

[12] American Educational Research Association，American Psychological Association，National Council on MEASUREMENT in Education. Standards for Educational and Psychological Testing [M]. Washington，D C：Author，1999.

[13] STRICKER L J，ROCK D A，LEE Y W. Factor Structure of the LanguEdge Test across Language Groups [J].Ets Research Report，2005，（1）：i-43.

[14] SHIN，S-K. Did They Take The Same Test？ Examinee Language Proficiency And The Structure Of Language Tests [J]. Language Testing，2005，22（1）：31-57.

[15] YOO H，Manna V F. Measuring English Language Workplace Proficiency across Subgroups：Using Cfa Models to Validate Test Score Interpretation [J]. Language Testing，2017，34（1）：101-126.

[16] YAN X，CHENG L，GINTHER A. Factor Analysis for Fairness：Examining the Impact of Task Type and Examinee L1 Background on Scores of an ITA Speaking Test [J]. Language Testing，2019，36（2）：207-234.

[17] COATES J. Women，Men and Language（2nd edition）[M]. London：Longman，1993.

[18] LUMLEY T，O' SULLIVAN B. The Effect of Test-taker Gender，Audience and Topic on Task Performance in Tape-mediated Assessment of Speaking [J]. Language Testing，2005，（4）：415-437.

[19] MUTH?N B O，SATORRA A. Multilevel Aspects of Varying Parameter in Structural Models [C]. // Bock H（ed.）. Multilevel Analysis of Educational Data. San Diego：Academic Press，1989：87-99.

[20] KUNNAN A J. Test Taker Characteristics and Test Performance：A Structural Modelling Approach [M]. Cambridge：Cambridge University Press，1995.

[21] PURPURA J E. Modeling the Relationships between Test Takers’ Reported Cognitive and Metacognitive Strategy Use and Performance on Language Tests [D]. Unpublished Ph.D. Dissertation，University of California，Los Angeles，1996.

[22] GINTHER A，STEVENS J. Language Background，Ethnicity，and the Internal Construct Validity of the Advanced Placement Spanish Language Examination [M]. // A. J. Kunnan（ed）. Validation in Language Assessment. Mahwah，NJ：Lawrence Erlbaum，1998：169-194.

[23] HAIR F J，BLACK C W，BABIN J B，ANDERSON F R，TATHAM L R. Multivariate Data Analysis [M]. NJ：Pearson Education，Inc，1987：471-472.

[24] HUCK S. Reading Statistics and Research [M]. Boston：Pearson Education Inc，2012.

[25] Bentler P M，Chou C-P. Practical Issues in SEM [J]. Sociological Methods and Research，1987，16：78-117.

[26] Muthe'n L K，Muthe'n B O. Mplus User's Guide（Sixth Edition）[M].Los Angeles，CA：Muthe'n amp;Muthe'n，2007.

[27] 國家語委普通話培訓(xùn)測試中心.普通話水平測試實(shí)施綱要[M].北京：商務(wù)印書館，2017：2-5.

[28] 侯杰泰，溫忠麟，成子娟.結(jié)構(gòu)方程模型及其應(yīng)用[M].北京：教育科學(xué)出版社，2004：114-115，190-192.

[29] RAYKOV T，TOMER A，NESSELROADE J R. Reporting Structural Equation Modeling Results in Psychology and Aging：Some Proposed Guidelines [J]. Psychology and Aging，1991，6（4）：499-503.

[30] BOOMSMA A. Reporting Analyses of Covariance Structures [J]. Structural Equation Modeling：A Multidisciplinary Journal，2000，7（3）：461-483.

[31] 聶丹.普通話水平測試研究概說[M].北京：語文出版社，2012：193-195.

[32] 朱麗紅. PSC中“說話”項(xiàng)的題型分析和改進(jìn)建議[C].//第二屆全國普通話水平測試學(xué)術(shù)研討會(huì)論文集.北京：商務(wù)印書館，2004：152-165.

[33] 王暉.普通話水平測試依據(jù)研究[D].中國社會(huì)科學(xué)院研究生院博士學(xué)位論文，2016.

[34] MALTZ D，BORKER R. A Cultural Approach to Male–female Mis-communication [C]. // Gumperz J（ed）. Language and Social Identity. Cambridge：Cambridge University Press，1982：196-216.

[35] TANNEN D. You Just Don’t Understand：Women And Men In Conversation [M]. New York：William Morrow，1990.

[36] 肖德法，向平.性別與PETS口試成績研究[J].山東外語教學(xué)，2005，（1）：54-56.

[37] HYDE J S，LINN M C. Gender Difference in Verbal Ability：A Meta-analysis [J]. Psychological Bulletin，1988，104（1）：53-69 .

[38] O'LOUGHLIN K. The Impact of Gender in Oral Proficiency Testing [J]. Language Testing，2002，19（2）：169-192.

[39] 范勁松，季佩英，俞明理.語言測試效度研究的另一視角：考試的因子結(jié)構(gòu)研究[J].外語教學(xué)理論與實(shí)踐，2014，（4）：34-40.

[40] American Psychological Association（APA）. Technical Recommendations for Psychological Test and Diagnostic Techniques [M]. Washington，D C：APA，1954.

[41] WEIR C J. Language Testing and Validation：An Evidence-based Approach [M]. New York：Palgrave Macmillan，2005.

A Study on the Construct Validity of Putonghua Proficiency Test Based on Structural Equation Model

Yuan Xin

Beijing Chinese Language and Culture College，Beijing，102206

Abstract：Construct validity is the core issue of test validation and a key criterion for test quality. This study examines the construct validity of the Putonghua Proficiency Test by using the testing data. Through confirmatory factor analysis and multi-group confirmatory factor analysis，the construct validity of the test and the consistency of the test construct among male and female candidates are examined. The results of confirmatory factor analysis show that the two factor model of \"Mandarin speaking under the mode with text support + Mandarin speak under the mode without text support\" fits the measured data better. The parameter estimation results show that the convergent validity of the test is good，while the discriminant validity is low. The results of multi-group analysis shows that the parameters of the two factor model performs consistently among male and female candidates，and the test structure shows good stability. The study empirically demonstrates the construct validity of the Putonghua proficiency test. Based on the research findings，some suggestion，such as setting situation，renewing item bank，enhancing the authenticity of the subjects’ expressions，are proposed for test improvement.

Key words：Putonghua Proficiency Test，Construct Validity，Structural Equation Model，F(xiàn)actor Structure

（責(zé)任編輯：吳茳）

作者簡介原鑫，講師，北京華文學(xué)院。北京，102206。

基金項(xiàng)目北京華文學(xué)院2023年度科研課題“普通話水平測試的效度研究”（HW-23-B08）。

1對(duì)負(fù)偏態(tài)的變量求平方，負(fù)峰度的變量取倒數(shù)。

1方差析出量的算法是：每個(gè)因子各指標(biāo)因子負(fù)荷（標(biāo)準(zhǔn)化）平方的平均數(shù)。一般方差析出量達(dá)到0.5以上表明收斂性較好。

2構(gòu)想信度的計(jì)算方法為，每個(gè)因子各指標(biāo)因子負(fù)荷（標(biāo)準(zhǔn)化）之和的平方，比上各指標(biāo)因子負(fù)荷之和的平方與該因子各指標(biāo)誤差方差之和的和。

考試研究2024年6期

考試研究的其它文章: 基于需求分析、課程標(biāo)準(zhǔn)與量表的高職護(hù)理英語教學(xué)目標(biāo)設(shè)定; “僅為舉業(yè)而作？”：明代科舉化經(jīng)學(xué)價(jià)值的再認(rèn)識(shí); 從弘治十二年春闈案看科場押題; “首違不罰”在考試作弊執(zhí)法中的探討; 省級(jí)教育考試機(jī)構(gòu)專業(yè)化現(xiàn)代化發(fā)展現(xiàn)狀調(diào)查與分析; 恢復(fù)高考以來我國依法治考研究述評(píng)與展望