漢語水平考試(HSK)復本測驗穩定程度的歷時性研究

2011-01-01 00:00:00柴省三

現代語文 2011年2期

摘要：在大規模、標準化語言測驗中，如何確保復本測驗分數之間具有等價性和穩定性的問題，是測驗分數信度高低的重要標志之一，也是測驗結果解釋和分數使用效度高低的重要證據之一。本文在對漢語水平考試（HSK）標準化開發程序和等值處理技術進行考察的基礎上，重點對國內最近兩年HSK考試使用的8份復本測驗分數之間的穩定進行了統計分析。結果表明，HSK測驗的復本分數之間具有較高橫向穩定性，所有測驗試卷的分數與標準卷均具有歷時一致性。

關鍵詞：漢語測試信度效度平行信度分數穩定性

一、引言

中國漢語水平考試（HSK）是為測量母語為非漢語者（包括外國人、華僑和中國境內部分少數民族考生）的一般漢語水平而設計的國家級標準化考試。其測量結果對考生求學、求職和漢語能力評價的影響后效（consequences）均具有高風險性（high-stakes）。因此，如何確保HSK測驗結果的使用或解釋（interpretation）具有令考生、考試用戶和對外漢語教學界公認的信度（reliability）和效度（validity）問題，一直是測驗設計者和開發者所關注的核心問題。劉英林（1994）對HSK設計的語言學理論基礎和分數結構體系進行過若干基礎性研究；何芳（1994）用相關分析法對HSK的信度和效度進行過初步考察；謝小慶（1994，2000，2005）對HSK測驗的信度和等值方法進行過系統性比較；柴省三（2002）用分類一致性（classification consistency）和相關分析法對HSK（初、中等）的復本信度和證書分類一致性進行過考察。不過，迄今為止，針對HSK測驗分數的穩定性，特別是針對不同測驗復本之間分數的穩定性問題的研究尚不多見。對語言測試信度和效度的考察絕不是一勞永逸的靜態過程，而是一個不斷搜集證據、積累證據的綜合性、系統化過程，因為各種證據之間不是非此即彼的取代關系，而是互補關系。因此，本文將在對HSK標準化的研發過程進行初步探討的基礎上，專門針對HSK測驗分數的復本穩定性，進行歷時性的、縱向的研究。

二、漢語水平考試（HSK）的信度和效度

中國漢語水平考試（HSK）是一種大規模、標準化證書考試，按照難易程度從低到高分為HSK（基礎）、HSK（初、中等）和HSK（高等）三個類別，考生可根據自己的水平選擇報考任何一個類別的考試，凡考試成績達到規定標準者，均可獲得相應等級的《漢語水平證書》。HSK從1989年誕生以來，先后已有來自170多個國家的180多萬名考生在國內外各考點參加了各類別的考試。其中報考HSK（初、中等）的考生人數最多，約占考生總數的75%以上，因而本研究只針對HSK（初、中等）測驗的復本分數進行統計分析。

作為評價考生一般漢語水平的測量工具和外國留學生申請進入中國大學攻讀學士、碩士學位的漢語資格證明，HSK的測試結果備受國內外對外漢語教學界的普遍關注。因此，HSK考試的標準化和科學性程度如何，HSK是否具有理想的考試信度和效度，以及測驗分數之間是否具有橫向等價性和縱向可比性等問題，不僅與考生本人的切身利益密切相關，而且對考試的用戶，比如高校留學生招生機構、企業員工錄用部門等，甚至對對外漢語教學的教學理念和課程設計等均具有相當大的影響。

任何一個標準語言測試，首先，測量的效度要高，這是衡量語言測驗質量高低最重要的指標，即測驗結果要準確反映考生語言水平的高低。評價一個考試質量高低的標準包括信度、效度、可行性（practicability）和考試對教學的反撥作用（washback）等很多方面，但效度問題是標準化語言測驗永恒的主題。所謂效度（validity）指的是考試在多大程度上測出了期望測量的東西，或者說考試在多大程度上完成了預期的測量任務，實現了預期的測試目標。效度概念本身至少包含兩層含義，一是考試究竟測量的是什么（what）；二是測出的程度有多大（how well）。比如，我們要設計一個以測量外國留學生漢語口語能力為主要目的的語言考試，那么該考試質量的高低就可以用效度來衡量。如果考試結果解釋或分數使用的效度比較高，就應該滿足以下兩個方面的要求：（1）該考試的確測量的是考生的漢語口語能力，而不是寫作能力、閱讀能力或其他與漢語口語能力無關的東西；（2）考試結果可以很好地測出考生的漢語口語交際能力；否則我們就不能認為該考試具有較高的效度，因為這兩條標準分別從定性和定量的角度對考試的測量效果進行了界定。就HSK而言，其設計初衷是測量外國留學生的一般漢語交際能力的，因此，考試的結果應該能夠準確反映考生在日常生活、學習和工作中所體現出來的一般漢語水平，而不是測量考生在某一特定領域或完成某一課堂教學任務的能力。

其次，測驗結果要具有令人信服的信度，即考試的測量誤差要小，測量結果要具有高度的穩定性（dependability）和一致性（consisitency）。由于考試的分數通常是對考生答題結果或完成測驗任務的表現（performance）水平進行賦值表征的結果，因此，我們在使用測驗分數時，實際上潛在的基于定性和定量兩個假設，即測驗分數是考生在某一方面語言能力、技能或知識的反映，測驗分數高的考生應該比測驗分數低的考生在測驗所測的語言能力上要高。不過，由于各種測量誤差的存在，測驗分數實際上不可能百分之百地反映考生的語言能力。Bachman（1990）認為，在語言測驗中考生的測驗分數是其語言能力（測量目標）、測驗方法、個人特質（attributes）和其他與測驗目標無關的隨機因素（random factors）共同作用的結果（請參見圖1）。測驗結果的穩定性、一致性程度取決于測量誤差的大小，所以，要提高測驗分數的信度，就必須降低各種測量的誤差。因為測量誤差越大，分數中由測量目標所引起的構想（construct）分數所占的比例就越低，考試結果對擬測語言能力的解釋力和推斷程度就越低。而信度正是反映測量誤差大小的一個重要指標。所以，信度和效度屬于一個連續體（continuum）上的兩個端點（Bachman，1990），信度是效度建立的一個重要證據來源，是效度的必要條件（prerequisite）而不是充分條件。如果一個測驗的信度不高，那么測驗分數使用的效度也必然很低。

圖1：測驗分數示意圖

測驗的信度和效度是一對矛盾統一體，信度和效度不可能同時達到最大化（李筱菊，2001），因為效度只是程度問題，具有明顯的相對性。效度的有效性總是相對于一定的測量目的、功能和范圍而言的，效度不是有或無的關系，而只是程度上的不同。由于語言能力是一個抽象的概念，依靠現有的語言學研究水平和心理測量手段尚無法進行直接測量，我們只能通過考生完成語言測驗任務所表現出來的語言行為間接地推斷考生的漢語能力，因此，不能說一次考試絕對有效或無效。在語言測試的具體實踐中，只能根據測驗使用的具體目的通過各種標準程序尋求信度和效度的最佳平衡點。

為了確保HSK測驗具有較高的信度和效度，考試設計和開發均按照嚴格的、標準化程序進行操作（參見：圖2），以確保測驗的信度和效度，以及測驗題目的難度（difficulty）、區分度（discrimination）、分數分布等符合標準化考試的要求。

圖2：HSK標準化測驗開發示意

一般而言，標準化語言測試應該滿足穩定性、科學性、權威性、社會性、廣泛性、系統性和設立常模（norm）等要求。盡管不同的考試有不同的標準化要求，但大規模標準化語言測試和非標準語言測試最典型的區別體現在是否進行考試預測（pre-testing）、是否建有常模和是否進行等值處理三個方面。從HSK的開發示意圖不難看出，HSK的研發過程完全滿足標準化語言測試的核心要求，即建有自己的常模，通過預測選擇符合測驗質量的題目，對試卷采取等值處理，確保平行試卷之間的測驗分數具有穩定性、一致性等。

三、HSK試卷的等值處理

由于中國漢語水平考試（HSK）是一種大規模的考試，每年在中國國內近百個考點舉行若干次考試，每年考生人數在60000人次以上。為確保考試的公平性（fairness），每次考試全部采用不同的平行試卷（parallel forms）。如何保證不同測驗試卷上的考試分數之間具有可比性問題顯得尤為重要，因為它涉及到分數之間是否具有等價性問題。

所謂平行試卷（alternative/parallel forms），就是指在性質、測驗內容、題型、題目數量與結構、難度以及施測條件和答題時間等方面都一致的兩份或多份測驗試卷。針對平行試卷之間測驗分數等值性（equivalence）的研究是大規模語言測驗，特別是對標準化語言能力測驗而言尤為重要。因為，盡管我們已經通過各種標準開發程序，最大限度地確保測驗試卷之間在總體難度上保持穩定性，但事實上，在具體的測驗開發過程中，要編寫出總體難度、區分度（discrimination）等完全相同的多份平行試卷幾乎是不可能的。這樣，如果不對測驗的平行試卷進行等值處理，那么同一個考生在間隔較短的不同時間內參加兩個相同測驗形式的平行測驗時，盡管其語言能力水平沒有發生實質性變化，但所獲得的測驗分數卻相差較大；同樣，如果平行試卷之間缺乏等值性，那么具有相同語言能力水平的一個（或一批）考生在不同地點、不同時間參加不同的測驗復本時，所獲得的測驗結果也會相差太大；因此，在沒有其他突發事件影響的前提下，我們就可以斷定：該測驗的平行信度（parallel forms reliability）不高。因為，無論就測驗本身的屬性（properties）而言，還是就分數使用或解釋來說，測驗分數不僅沒有使用價值，而且還具有誤導性或不公平性（bias）。為了確保HSK平行測驗分數之間具有橫向等價性、縱向可比性，在考試結束以后，我們專門針對HSK測驗分數進行了等值處理。

所謂等值（equating）就是指把測量同一心理特質（trait，比如漢語語言能力等）的不同測驗分數，借助一定的數學模型和技術手段，轉換成同一單位量表或標桿上的數量，以確保平行測驗（parallel forms）分數之間具有可比性的過程。對測驗分數進行等值化處理是大規模、標準化語言測試最重要的技術環節之一，也是確保測驗信度和效度的重要手段（張敏強，1998；漆書青等，2002）。測驗等值包括兩方面的內容，一是把不同測驗所得到的分數進行等值，二是對測驗題目的參數進行等值。其中前者主要是指經典測量理論（CTT）針對平行卷之間進行的等值，后者則主要是指借助項目反應理論（IRT）針對具體測驗項目的難度、區分度等參數所進行的等值處理。

一般測驗等值設計包括單一組設計（Single-group Design）、共同考生設計（Common-person Design）和共同參照測驗設計（Anchor-test Design）或稱“錨題”測驗設計以及混合設計等四種形式（張敏強，1998）。其中在經典測驗等值中最經常采用的等值方法包括百分位等值法、線形等值法和回歸等值法三種。

中國漢語水平考試（HSK）采用的等值方法是共同參照測驗或“錨題”測驗設計的線性等值法（請參考示意圖3），即在所有的平行試卷里按照一定的比例都嵌入了適當數量的、標準卷所包含的測驗題目（請參見表1）。比如有A、B兩份平行試卷，兩者均包含27個標準卷里含有的測驗題目，盡管A、B卷在測驗的題型、內容、形式、數量、答題時間和施測條件等方面全部一樣，但事實上A、B卷的難度不可能完全相同。假如有語言能力基本相同的兩名考生甲、乙分別參加了A卷和B卷考試，因為平行卷之間的測驗分數缺乏橫向等價性，所以甲考生在A卷上所獲得的測驗分數與乙考生在B卷上所獲得的測驗分數很可能不一致，甚至相差較大，但甲、乙考生的語言水平并沒有通過測驗分數準確地表示出來，如果不對A、B卷進行等值處理，那么兩個測驗分數的差別就不是考生語言水平差異的有效指標，而是由測驗試卷難度不同所引起的。

圖3：HSK測驗分數等值示意圖

考試時間聽力語法閱讀綜合填空合計

非錨題數42254234143

錨題數858627

合計50305040170

表1：HSK（初、中等）試卷操作結構

如果按照圖3所示的等值設計和進行等值處理以后，測驗開發者就可以根據甲、乙考生分別在“錨題”上的表現水平，經過等值模型的數學處理以后，將A、B平行卷上考生的實測分數完全轉換到了標準卷“BJ88-89”上的分數。這樣，即使參加A、B平行卷的同一名考生或者若干名漢語水平基本相同的考生，在考試過程中確實感覺兩卷的答題難度略有差異，但由于測驗分數最終要全部換算到標準卷上，所以考生最后實際獲得的分數應該基本一樣，并且所有考生的測驗分數與HSK的測驗標準常模具有可比性。考生既不會因為參加了難度較大的試卷而“吃虧”，也不會因為參加了一份難度較低的試卷而“賺便宜”，因為他們的分數最終都要根據“錨題”反應水平換算到具有縱向、歷時（diachronous）可比性的標準卷上（具體等值計算過程請參見謝小慶，1995；郭樹軍，1995）。采用這種等值處理方式以后，就可以在很大程度上解決測驗分數的等價性和穩定性問題。

四、HSK等值分數的穩定性研究

經過上述預測、題目分析、等值處理以后，HSK的測驗分數已經具備了兩個特征，一是平行試卷之間的原始分數具有了等價性，二是所有平行試卷的原始分數與標準卷之間具備了歷時的、縱向的可比性，并與標準樣組測驗分數具有了等價性。不過，由于HSK（初、中等）考試是由聽力理解、語法結構、閱讀理解和綜合填空四部分組成，四個分測驗的原始分數滿分（題目總數）分別是50、30、50、40，如果只給考生或考試用戶提供經過等值后的原始分數的話，至少存在兩個問題：首先是不同分測驗之間的分數不具有可比性，比如某考生的聽力得分是25分，語法分數是24分，如果單從原始分數來看，似乎該考生的聽力理解成績要比語法成績好，但實際上該考生的語法水平比聽力水平要高，因為兩個分測驗的總分不同，所以導致原始分之間不具有內部橫向比較性。其次，按原始分數進行報導，既不符合考生和用戶的使用習慣，也無法提供考生之間的常模信息。所以，為解決分測驗之間分數的可比性問題，HSK最后對考生的原始等值分數進行了標準化處理（normalization），并最終給考生報導一個標準化后的導出分數。

為了考察HSK的等值效果和標準分數的穩定性，本研究以在中國國內參加2009年、2010年8次（8份平行試卷）HSK考試的95636名考生的實測數據為研究對象（考試時間、考生人數等具體樣本結構請參見表2），對每次考試的測驗分數進行統計分析。

考試時間考生人數考點數量考生國家數男生數

（%）女生數

（%）

2009年04月157755115051.09%48.91%

2009年06月158605316550.47%49.53%

2009年10月4973228450.83%49.17%

2009年11月142736113148.00%52.00%

2010年04月138465515751.13%48.87%

2010年06月159925716549.52%50.48%

2010年10月3928229751.20%48.80%

2010年11月109896415049.60%50.40%

表2：研究樣本描述

8份平行試卷的聽力平均分、語法平均分、閱讀平均分、填空平均分和總分平均分的歷時一致性程度，參見表3。

考試時間聽力理解語法結構閱讀理解綜合填空總分

2009年04月59595958234

2009年06月59596158238

2009年10月60616556243

2009年11月62596460245

2010年04月59606260242

2010年06月58606054232

2010年10月62626561251

2010年11月65606158247

均值全距636715

表3：HSK平均分數統計表（導出分數）

從表3可見，考生在8份HSK平行試卷上的測驗平均分具有相當強的穩定性，單項分數的最大波動范圍不超過7分（填空部分），最小波動范圍是3分（語法結構部分）。而總分（滿分為400分）的波動范圍為15分。這對于一個母語背景、學業修養、年齡結構等異質性（heterogeneity）相當強的大規模測驗而言，測驗質量是相當高的。盡管考生參加考試的時間不同、試卷也不一樣，但因為HSK按照標準化程序對考試采取了預測、建立穩定的常模和等值化處理，所以考生的測驗分數不僅在平行試卷之間具有很高的一致性，而且所有平行測驗與標準樣組（常模）在標準卷（BJ88-89）上的測驗分數之間也具有非常高的穩定性。考生在不同時間、不同地點、參加不同版本的平行測驗時，其測驗分數具有較高的公平性。為了直觀地觀察測驗分數的縱向穩定程度，我們將不同分測驗的平均分以折線圖的形式給出。具體結果請分別參見圖4至圖8。

圖4：聽力測驗分數歷時分析圖

圖5：語法測驗分數歷時分析圖

圖6：閱讀測驗分數歷時分析圖

圖7：填空測驗分數歷時分析圖

圖8：總分歷時分析圖

五、結果與討論

在語言測驗中，由于測驗分數是對考生完成測驗任務情況進行數值表征的結果，如果要保證測驗分數解釋或使用具有較高的效度，那么測驗分數就必須具有較高的信度，否則，測量的誤差就較大，測驗結果就不能反映考生之間語言能力的差別。本文實證研究的結果表明，HSK的測驗分數在平行試卷之間具有相當高的橫向一致性。因為HSK采用了比較穩定的常模和采取了“錨題”測驗的線性等值處理方式，考生在不同時間、不同地點、參加不同復本測驗的分數之間既具有橫向的等價性，也具有歷時的穩定性，考生的測驗分數與標準樣組（常模）在標桿卷BJ88-89上的測驗分數具有較好的一致性。測驗結果可以比較準確地反映考生的漢語水平。

（本研究課題為北京語言大學校級科研項目，項目編號為08YB01。）

參考文獻：

[1]柴省三.關于HSK（初中等）平行信度的實證研究[J].漢語學習，

2002，（2）.

[2]郭樹軍.漢語水平考試的等值問題[A].首屆漢語考試國際學術討

論會論文選[C].北京：北京語言學院出版社，1995.

[3]郭志剛.社會統計分析方法—SPSS軟件應用[M].北京：中國人民

大學出版社，1999.

[4]李筱菊.語言測試科學與藝術[M].長沙：湖南教育出版社，2001。

[5]劉英林.漢語水平考試研究[M].北京：現代出版社，1989.

[6]謝小慶.考試分數等值的新框架[J].考試研究，2008，（2）.

[7]謝小慶.HSK和MHK的等值[J].考試研究，2005，（1）.

[8]謝小慶.對15種測驗等值方法的比較研究[J].心理學報，2000，

（2）.

[9]謝小慶.漢語水平考試的分數體系[A].首屆漢語考試國際學術討

論會論文選[C].北京：北京語言學院出版社，1995.

[10]張厚粲，劉昕.考試改革與標準參照測驗[M].沈陽：遼寧教育

出版社，1992.

[11]張敏強.教育測量學[M].北京：人民教育出版社，1998.

[12]張權.語言測試中的項目分析與等值技術：研究與應用[M].北

京：高等教育出版社，2004.

[13]鄒申.語言測試[M].上海：上海外語教育出版社，2005.

[14]鄭日昌，漆書清，馬世曄.考試的教育測量學基礎[M].北京：

高等教育出版社，1990.

[15]Bachman， L.F.（ed.）Fundamental Considerations in Language

Testing[M].Oxford University Press， 1990.

[16]Bachman， L.F.Palmer， A.（ed.）Language Testing in Practice[M].

Oxford University Press， 1996.

[17]Edwards G.Carmines， Richard A.Zeller（ed.）Reliability

and Validity Assessment[M].Sage Publications， 1979.

（柴省三北京語言大學漢語水平考試中心 100083）

現代語文2011年2期

現代語文的其它文章: 試論馮小剛賀歲電影臺詞里的零度與偏離; 《論語》復音詞考察; 秦腔.秦聲.秦韻秦風.秦俗.秦情; 論“被”字結構的變異用法; 甬劇方言數詞研究; 2010年網絡新詞新語現象探析