提高入學測試科學化水平的一點嘗試

2010-01-01 00:00:00常曉宇劉文政

現代語文 2010年3期

摘要:本文首先考察了首都經貿大學留學生入學測試(筆試部分)的科學化程度，統計計算了該測試的難度、區分度、信度、效度、實用性及后效作用等關鍵性的評估標準，并根據由此得到的統計參數嘗試提出了合理的改進辦法。

關鍵詞:入學測試科學化難易度區分度信度效度

一、引言

入學測試又稱分班測試或編班測試，往往是在新生入學后對學生進行的全面檢查。目的是為了了解一下學生的入學水平，以便把學生按照程度進行分班或分組，從而使各個班、組的學生在水平較近的起點上開始學習，免得大家參差不齊，互相牽制，從而影響教學效果和學習效果。現代教育理論強調因材施教，對不同類型、不同水平的學生要分別采取不同的教學方法、不同的教學內容。入學測試關心的是受試者目前的知識水平及能力，考查的是學生的整體能力。這種測試一般來說只要把學生分出幾大組就可以了，不必區分得十分細致。

入學測試試題設計得科學與否，很大程度上影響著教學過程和教學效果，因此考察它的科學化程度并對其進行改進是很有必要的。

現行的入學測試包括筆試和口試兩部分。但是口試部分多年來依靠教師的主觀判斷，且沒有留下充足的書面數據。這兩個原因，尤其是后者使得我們對口試部分嚴重缺乏考察依據，因此本文的考察內容僅限于入學測試的筆試部分。評價一個測試的好壞，一般從難易度、區分度、信度和效度以及實用性和后效作用這些方面進行討論，因此我們也將從這幾個方面入手。

二、正文

(一)幾點說明

1.數據收集

研究收集了60名外國留學生的入學測試答卷，完全符合統計學上的大樣本要求(根據統計學上的中心極限定理，抽樣數在30或30以上時，樣本平均數的分布幾乎完全呈正態分布)。這60位留學生分別來自23個國家，其中日本學生22名，俄羅斯學生4名，朝鮮、韓國、德國、吉爾吉斯斯坦、印尼、哈薩克斯坦、巴西、法國和越南學生各2名，蒙古、白俄羅斯、印度、埃及、丹麥、瑞士、阿爾巴尼亞、烏茲別克斯坦、阿塞拜疆、哥倫比亞、摩爾多瓦、意大利學生各1名。另有2人未注明國籍。

需要說明的是，準備就讀零起點班的學生不必參加該入學測試，因此參加測試的學生至少已經具備了一點漢語知識，不至于出現分數為0的試卷。

2.試卷組成

這份入學測試筆試試題由三大部分組成:選擇題(分為兩大部分)、漢字題和作文題。分數設置為:

選擇題第一部分(1～30題)共30分，每題1分;

選擇題第二部分(31～50題)共40分，每題2分;

漢字題(51～80題)共15分，每題0.5分;

作文題(二選一，欲就讀中級班的學生還需另加一題)共15分。

(二)難易度

難易度，指測驗中所有題目的平均難易度，即全體被試在所有題目上的通過率的平均數。信度和效度是針對整個試卷而言，而難易度是針對每個題目而言。在一個理想的測驗中，每個題目的難易度應分布在0.30～0.70這個范圍內，平均難易度應在0.50上下。低于0.3或高于0.7的題目不能太多。

1.難易度檢驗

(1)難易度通常用P來表示。由于選擇題、漢字題這兩部分題目都使用0/1評分，所以這里的難易度指的就是答對率，即:

而作文題這種主觀性試題的難易度，則采用下面的公式:

(2)結果

1)在選擇題的第一部分1～30題中，難易度高于0.7，也就是說題目偏易的有:

第11題 0.78

第13題 0.82

第20題 0.87

而難易度低于0.3，也就是說題目偏難的有:

第19題 0.20

第27題 0.17

2)在選擇題的第二部分31～50題中，只有第32題難易度高于0.7，達到0.83，說明該題太容易。其他題目難易度均在0.3～0.7之間，難易度適中。

3)在漢字題51～80題中，難易度高于0.7，即題目偏易的有:

第52題 0.73

第53題 0.73

第54題 0.75

第55題 0.80

第57題 0.83

第58題 0.85

第71題 0.73

第69題 0.77

而難易度低于0.3，即題目偏難的有:

第63題 0.28

第64題 0.28

第65題 0.18

第66題 0.17

第68題 0.17

第72題 0.18

第74題 0.25

第75題 0.08

第76題 0.13

第77題 0.02

第78題 0.15

第79題 0.10

4)作文題，也是該測試唯一的主觀評分題，難易度為0.35，說明題目稍難，但仍在可接受范圍內。

2.討論

(1)選擇題第一部分1～30題中，偏易的題有3道，偏難的題有2道，難易度是非常合適的。

(2)選擇題第二部分31～50題中，偏易的題有1道，偏難的題目沒有，難易度也非常好。

(3)漢字題的難易度大起大落，一共30道題，偏易的題目有8道，偏難的題目達到了12道，第75題、77題的難易度甚至達到了0.08和0.02，說明只有一、兩個人做對了，難度非常高。由此可以看出留學生的漢字基礎比較差，一些容易點兒的漢字倒是大都掌握了，但是稍難一點兒的漢字則普遍掌握得非常差。

(4)作文題歷來是難點，60人中，有8位學生只字未寫，得分為0;作文分在1～5分之間的有16人(作文總分為15分);而作文得分較高，在10～15分之間的只有10人。也就是說，占總人數40%的人得分不足5分，得分超過10分的人只占16.7%。

(三)區分度

區分度是除難易度以外，衡量題目好壞的另一個指標。所謂區分度，就是指一個題目區分考生能力的程度(韓寶成、劉潤清，1991:218)，或者說是題目對被試的區分能力(張凱，1995:85)。區分度是單個題目最重要的一個性質，一個題目好不好，關鍵要看區分度高不高。

1.區分度檢驗

(1)區分度計算的方法

計算題目區分度的方法有很多，我們使用的方法是將考生按總分分為高分組和低分組，然后計算高分組考生答對該題目的人數占答對該題目的總人數的比例。所得數值越大說明該題目區分能力越強。人們一般認為，可接受的最低的區分度指數為0.65，低于0.65就可以認為該題目區分效果不佳。計算公式為:

其中:

D=區分度指數

Hc=高分組考生答對某個題目的總數

Lc=低分組考生答對某個題目的總數

(2)結果

1)選擇題第一部分(1～30題)，區分度低于0.65的題目有11道，它們是:

第2題 0.61

第3題 0.61

第7題 0.62

第11題 0.62

第12題 0.53

第13題 0.55

第16題 0.60

第21題 0.64

第22題 0.63

第28題 0.63

第29題 0.55

2)選擇題第二部分(31～50題)，區分度低于0.65的題目有3道，它們是:

第32題 0.58

第36題 0.63

第38題 0.63

3)漢字題(51～80題)，區分度低于0.65的題目有8道，它們是:

第51題 0.62

第52題 0.57

第53題 0.61

第54題 0.64

第55題 0.60

第57題 0.56

第58題 0.57

第69題 0.61

4)作文題的區分度為0.72，區分度比較好。

2.討論

(1)選擇題第一部分的難易度適中，偏難和偏易的題目一共5道，但區分度較差的題目有11道，區分能力不太好。這大概是因為選擇題都有備選答案，學生做題時有一定的猜測因素，猜中的幾率較大。

(2)選擇題第二部分的難易度很好，只有一道題目偏易。而這部分的區分度也不錯，只有三道題目區分度不夠。

(3)漢字題的難易度大起大落，前十題(51～60題)偏易，而漢字題中區分度差的題目也集中在前十題。第69題難易度偏易，區分度也偏差。這說明題目過于簡單時，會嚴重影響區分度。

(4)作文題區分度比較適宜，說明題目選擇比較合適。關于作文測試，一向有很多問題。讓學生寫一篇作文，其語言能力會充分地體現出來。因為寫作測試是一種綜合性測試，它不僅測驗學生的詞匯、用法、語法等語言要素，而且測驗學生的組織能力、分析能力、表達能力、邏輯推理、對各種語體的掌握等。盡管寫作如此重要，但由于其評分主觀，效度高而信度很低，不十分可靠，而且評分過程很不經濟，故經常被一些測試所棄用。眾所周知，考試對教學有很強的反撥作用，考試中大量使用客觀題，忽略寫作測試的傾向對語言教學和學習會產生很大的沖擊，結果會使學生把大量的時間花費在做多項選擇題上，影響了語言運用能力的提高。所以，寫作在語言測試中的地位是相當特殊、相當重要的，必須堅持使用。

(四)信度

測量的信度指的是測試的一致性。一把橡膠做的尺子不可能是一個很可信的測量工具，因為橡膠有伸縮性，冬天測量的結果和夏天測量的結果也會不一致，所以一個實驗或測試的信度指它在重復測量時產生同樣結果的程度。語言測試的信度是指考試結果的可靠性和穩定性。換句話說，拿同一份試卷對同一組學生實施兩次或多次測試，如果結果很一致，那就說明該測試的信度較高。這種信度實際上有兩層意思:由不同的評卷人閱卷，所得分數大致相同;同一個評卷人在不同的時間閱卷，分數也大致相同。信度通常以兩次測試結果的相關系數來表示，這個相關系數稱為信度系數(coefficient of reliability)。相關程度越高，信度也越高。

1.信度檢驗

(1)信度計算的方法

檢驗測試信度的方法有多種，但是如果試卷中有主觀試題，用得較多的通常是Cronbach的α系數公式:

其中:

N=試卷中的大題數(即試卷由幾個部分組成)

∑σ2(Yi)=每一大題的方差的總和

σ12=整份試卷的方差

(2)結果

我們的入學測試筆試部分的信度系數為0.8429，按照桂詩春、寧春巖(1997)的觀點，一般測量均要求信度在0.90以上。

2.影響考試信度的因素

該測試的信度系數為0.8429，未達到0.90的要求，也就是說信度不夠高。語言測試的對象是人，不是物，因為人的因素很不穩定，測量中的誤差很難避免。要想兩次測量的結果完全一樣，很難做到。影響測試信度的因素有很多，例如舉行測試的時間和環境。早晨舉行的測試可能比晚上進行的測試得分高一些。在安靜、舒適的環境中進行的測試可能比在又臟、又亂、又吵的環境中進行的測試得分高一些。考生中的個人因素也很重要，如情緒好壞，是否疲倦，有無頭痛發燒等。不過最主要的因素有下面幾條:

(1)試題的量是否足夠大。因為只有保證足夠的量，才能保證試卷的覆蓋面更為合理。理論上講，題目越多，信度越高。但一次考試的題目如果太多，考試時間過長，考生也受不了，也會影響信度。一般來講，一份標準化試卷的題量應不低于90道題。

(2)題目是否屬于同一性質，即試題是否屬于同一范疇。例如，考漢語的試題中不能插入心理學測試的內容。

(3)題目的區分度是否高。區分度指題目能否把考生中好的和差的區分開來。題目的區分能力越高，測試的信度也就越高。

(4)考試之間的差異性是否大(表現為標準差很大)。這是指考生的分數分布情況是否呈現中間大、兩頭小的狀態。這種分布統計學上稱為正態分布(normal distribution)。在一次考試中，考生分數的分散情況越大，信度越高。(當然這與題目的區分度也有關系。)

(5)題目的難易度是否適中。題目太難或太易都會影響題目的區分度，從而影響測試的信度。

(6)評分是否客觀。如果不同的評卷人會得出不同的分數，或者同一評卷人兩次評閱容易得出不同的分數，那么這套試題的信度就會較差。客觀測試的評分由于不受評卷人的影響，因此信度較高。主觀測試的評分常常因人而異，所以難以達到較高的信度(劉潤清、韓寶成，1991:214)。

(7)考試時間是否足夠。目前所使用的信度公式，是以考生能夠做完所有的題目為前提的，因此它用于估量能力考試的精確性要比估量速度考試的精確性高(桂詩春、寧春巖，1997:289)。

3.討論

該測試信度系數為0.8429，低于基本要求0.90，根據影響信度的幾大因素，分析如下:

(1)試題量方面，該測試包括選擇題50道，漢字題30道和作文題(初級班二選一，打算上中級班的二選一加一)。從題量上來講還算合適，接近標準化試題數不低于90道的要求，不至于對信度有太大影響。

(2)題目是否屬于同一性質。根據筆者的判斷，測試題目基本未涉及漢語知識以外的其他學科的內容，題目基本屬于同一性質。

(3)題目的區分度如何。選擇題第二部分和作文題的區分度相對較好，選擇題第一部分和漢字題的區分度相對較差，其中選擇題第一部分區分度最差。區分度差會對信度有較大影響。

(4)考試之間的差異性是否大。該測試的標準差為23.51，標準差較大。測試的偏態值為0.064，但峰值為-1.02，不滿足正態分布所要求的偏態值和峰值控制在±1之內的要求，分數過于分散，這可能也是影響考試信度的一個因素。

(5)題目的難易度。該測試中的選擇題難度較為適宜，漢字題難度大起大落，作文題偏難，可能也在一定程度上影響了測試信度。

(6)評分是否客觀。客觀試題的評分非常客觀，信度更高，該測試包括15分的主觀試題，即作文題，評分常因人而異，很可能影響信度。

(7)考試時間是否足夠。該測試的時間要求為兩個小時，除非水平太差，一般都能完成全部題目。因此時間問題應該不構成影響信度的因素。

綜上所述，該測試信度水平不夠高的原因可能有:選擇題第一部分和漢字題的區分度較差;漢字題和作文題的難度不合適;作文題評分的主觀性太強;分數統計的峰值較低，即中間分不夠集中，各分數段的人數大致接近，可能是最重要的原因。

(五)效度

用簡單的話來說，效度就是一個工具測量它所要測量的東西的程度。但是我們所要證明的不是測量工具本身是否有效，而是測量工具用來測量某種東西是否有效。一把用來稱米的工具可以是有效的，但是用它來稱金子就不一定有效了。因此效度又稱有效性，是指一套測試所考的是否就是設計人想要考的內容，或者說，在多大程度上考了想要考的。美國心理學學會將效度概念闡述為“由測驗分數所作出的推斷的恰當程度、有意義程度和有用程度。”這個定義說明效度是與根據測驗分數作出的推斷緊密聯系在一起的，它最終要落實到對分數的解釋上。效度的高低是衡量語言測試最重要的指標，或者說是語言測試的基本出發點，一項效度很低的語言測試是沒有意義的。

1.信度和效度是互為補充的。考察信度是為了回答這樣的問題:“考試分數中有多少方差是由測量誤差引起的?”和“有多少方差是測量誤差以外的因素引起的?”測量誤差以外的因素所引起的誤差也可以叫做“可信方差”。考察效度是為回答這樣的問題:“有哪些能力可以說明考試分數中的可信方差?”所以我們可以說，信度考慮的是考試分數中有多少方差是可信方差，而效度考慮的是哪些能力會導致可信方差。CampbellFiske指出:“信度是兩種使用盡可能相似方法去測量同一種傾向的企圖的一致性。效度是兩種使用盡可能不同方法去測量同一傾向的企圖的一致性。”

2.效度檢驗的結果

語言測試的種類不同，對各種效度的要求也不同。語言潛能測試多基于某種語言學習理論，因此重視結構效度。水平測試強調預測效度和共時效度。成績測試和診斷測試受教學大綱的限制，首先要看內容效度。

入學測試屬于一種水平測試，所以對于入學測試來說，需要考慮的是其預測效度和共時效度。共時效度和預測效度差不多，都是把考試分數和一定的效標相比較，因而同稱為效標關聯效度。兩者的不同之處在于它們體現不同的考試目的。共時效度說明考試是否能判斷考生語言能力的當前狀況，預測效度則說明考試是否能預測考生語言能力將來的發展，一個是診斷現在，一個是預測將來。

(1)預測效度

預測效度表示的是某些標志考生將來能力的標準，即測試結果到底在多大程度上能夠預測出某些將來會發生的可能性，或者說對考生未來的行為作出的預測準確性有多高。我們用入學測試的分數來作決策，預測考生勝任某一程度的班級之學習任務的能力。預測效度一般是拿一次測試的結果同后來的測試結果進行比較，看兩者是否有相關性。在60名參加入學測試的考生中，我們收集到了其中14位考生在其后一年內的HSK成績，計算兩次測試的相關系數，如果相關系數很高，說明我們的入學測試有較好的預測效度，反之則說明入學測試的預測效度差。

由于入學測試成績和HSK成績都是等距量表，故我們采用皮爾遜積差相關系數，計算結果r=0.713，由于樣本數量為14，取自由度12，查皮爾遜相關系數表，當單側檢驗取α=0.01時，r=0.612，因0.713>0.612，所以，學生的入學測試成績和HSK成績在0.01的水平上顯著相關，或者，我們有99%的把握說，學生的入學測試成績和HSK成績是相關的。

(2)共時效度

共時效度表示的是一個考試分數和另一個同時使用的標準的關系。這是在建立標準化考試的過程中經常使用的一種手段。考察共時效度一般的方法是將一次測試的結果同另一次同時或時間相近的測試的結果相比較，或同教師對學生的評估相比較而得出的系數。我們采用的方法是與教師對學生的評估相比較。

我們在這60名學生中找了36名，設計了一份問卷調查，找到這些學生參加入學測試后被分入的班級的主要任課教師，請教師就他們當時的水平是否適合該班級程度作出評價，評價分為五等:非常適合、比較適合、馬馬虎虎、不太適合和非常不適合。問卷統計結果如下:

在這36位學生中，分班結果“非常合適”的有14名，占39%;“比較合適”的有10名，占28%;“馬馬虎虎”的有9名，占25%;“不太合適”的有3名，占8%。“非常不合適”的沒有。

綜合起來看，根據分班測試分數所做的決策，達到“合適”標準的占到了67%，這個結果是可以接受的。

不過，需要補充的是，由于學生分班后可以有一周時間根據自己的水平調換班級，所以老師判斷的結果可能是依據調整后的結果，而不完全是按照入學測試成績分班的結果，因此這項結果僅供參考。

(六)偏態值和峰值

一次考試的分數分布是否符合正態，可以使用公式計算其偏態值和峰值，來看分數的分布是否正態。正如上文所述，一般來講，一個考試的偏態值和峰值如果能控制在±1之內，其分數分布可認為基本符合正態分布。

1.偏態值

如果偏態值大于0，表明分數的分布為正偏態，即分數分布曲線的峰偏向了左邊，也就是偏向了低分區，換句話說，低于平均分的人數超過了總人數的50%。如果偏態值小于0，表明分數的分布為負偏態，即分數分布曲線的峰偏向了右邊，也就是偏向了高分區，此時，得分高于平均分的人數超過了總人數的50%。最理想的偏態值應為0，因為這個時候的曲線分布為正態。

入學測試題的偏態值為0.064，屬稍微正偏態，也就是說超過50%的考生成績低于平均分。

2.峰值

峰值表示分數分布曲線的峰是高尖的還是矮平的。如果峰值大于0，說明曲線的峰比理想的峰高尖，也就是說考試分數多集中在中間段。如果峰值小于0，表示曲線的峰比理想的峰矮平，也就是說考試分數過分散開。同偏態值一樣，最理想的峰值也應為0。

3.分析

入學測試題的峰值為-1.02，峰值低于-1，說明峰呈矮平狀，分數分布極為分散，基本不符合正態分布。

三、改進建議

從上面的統計分析結果可以發現，我們目前采用的這套入學測試筆試試題從總體上說，不失為一份質量較高、比較實用的試題。但是就它的信度指標、分數的分布形態以及漢字題部分的難易度和區分度方面還有一些不盡如人意的地方。我們嘗試了一些改進的方法。

(一)漢字題部分的改進建議

通過對題目內在性質的統計分析，選擇題第一部分、第二部分以及作文題的題目參數表現出了較高的質量，但漢字題部分的統計參數難以令人滿意。漢字題部分包括30道題目，難易度偏易的有8道，偏難的有12道，難易度不合適的題目約占總題數的66%，而區分度方面，區分度較低的題目也占了近30%。建議通過分散預測的方法，選擇一些質量更高的題目替換掉現有題目。

具體做法是:另外設計一些漢字題，加入學生平時的成績測驗中，施測后考察題目參數，用其中表現出較高質量的題目替換那些難易度和區分度不高的現有題目。

(二)改進試題的分數體系

1.改進方法

現行的試題其分數體系是這樣構成的:

選擇題第一部分共30題，共30分，每題1分;

選擇題第二部分共20題，共40分，每題2分;

漢字題共30題，共15分，每題0.5分;

作文題共15分。

改進后的分數構成為:

選擇題第一部分共30題，共30分，每題1分;

選擇題第二部分共20題，共20分，每題1分;

漢字題共30題，共30分，每題1分;

作文題共20分。

2.統計結果

(1)難易度

選擇題第一部分中第11、13、20題偏易，第18、27題偏難。

選擇題第二部分中只有第32題偏易，其它題目難易適中。

漢字題第52、53、54、55、57、58、69、71題偏易，第63、64、65、66、68、72、74、75、76、77、78、79題偏難。

作文題難易度為0.35，稍微偏難，但仍在可接受范圍內。

(2)區分度

選擇題第一部分中第2、3、7、11、12、13、16、21、22、28、29題區分度較低;

選擇題第二部分中第32、36、38題區分度較低;

漢字題中第51、52、53、54、55、57、58、69題區分度較低;

(3)信度

改進分數體系后的信度系數為0.906，符合一般測試的信度要求，優于以往分數體系的信度系數0.8429。

(4)效度

改進分數體系后的效度結果為，皮爾遜積差相關系數r=0.703，也在0.01的水平上存在顯著相關關系，這和改進前的相關系數r=0.713沒有本質上的差別。

(5)偏態值和峰值

改進分數體系后，偏態值和峰值分別為0.114和-0.91。偏態值0.114屬稍微正偏態，說明超過50%的學生分數低于平均分，峰值-0.91，表明分數分布曲線的峰矮平，也就是分數過于散開。但偏態值與峰值都在±1之內，可以認為其分數分布基本符合正態分布。

3.討論

綜合上述統計結果，可以認為，改進分數體系后:

(1)試題的信度系數明顯優于改進前;信度是衡量測試質量的重要指標，信度系數高，說明測試的穩定性高，可以證明該測試是一個可信的測量工具。

(2)從峰值和偏態值反映出來的分數分布情況也明顯優于改進前。改進前，分數分布不符合正態分布的基本要求，改進后基本符合。測試的分數分布符合正態分布，可以從一個側面說明測試的科學性，并且是利用該測驗成績進行各項統計工作的必要前提。

(3)難易度、區分度和效度指標與改進前接近，沒有顯著差異。

4.結論

分數體系改進后的統計指標大都優于改進前，且標準化測試部分的每一小題的分數都統一為1分，非常便于統計計算。因此此項改進既有必要性又有可行性。

四、結語

筆者所在的首都經貿大學的入學測試筆試試題，其難易度、區分度和效度指標都比較令人滿意，但信度系數稍低，分數分布基本不符合正態分布的要求。另外，漢字題部分一些題目質量欠佳。因此，建議替換部分漢字題，并改進分數體系。如果標準化試題部分統一改為0/1評分，則既簡化了計分辦法，信度系數和分數分布又優于以往的分數體系。

參考文獻:

[1]戴海崎，張峰，陳雪楓.心理教育測量[M].廣州:暨南大學出版

社，1999.

[2]桂詩春，寧春巖.語言學方法論[M].北京:外語教學與研究出版

社，1997.

[3]韓寶成.外語教學科研中的統計方法[M].北京:外語教學與研究

出版社，2000.

[4]劉潤清，韓寶成.語言測試和它的方法[M].北京:外語教學與研

究出版社，1991.

[5]張凱.漢語水平考試結構效度初探[A].首屆漢語考試國際學術討

論會論文選[C].北京:北京語言學院出版社，1995.

[6]張凱.語言測驗理論與實踐[M].北京:北京語言大學出版社，2002.

[7]張凱.語言測試理論及漢語測試研究[M].北京:商務印書館，2006.

(常曉宇劉文政北京#8239;首都經貿大學對外文化交流學院 100026)

現代語文2010年3期

現代語文的其它文章: 間接言語含意的理解機制研究; 校園公益廣告語的修辭藝術探析; PSJC命題說話及優化測前培訓模式策略; 漢英動結式語義分析; 試論 “生態”一詞的含義在生態語言學中的誤用; 相對程度副詞“還”與“更”辨析