引言
語言測試具有多種作用。就教師而言,它可以使教師了解教學效果,為教學提供有價值的反饋信息,是衡量教學質量的一個重要尺度。另一方面,就學生而言,通過考試,學生對前一階段的學習內容掌握的程度有所了解,可以發現自己學習中存在的問題,彌補不足;最重要的作用是“科學地測量出學習者的語言能力”因此,考試的成敗,試題質量的高低對教學和學習會產生直接的影響,必須要保證試題的質量。再一方面,對于研究者來說,他們可以通過采用科學的方法對試題進行各方面的分析,通過對比,通過數據進行進一步的研究,找出隱藏在數據背后的深層次的原因,從而為提高試題質量服務,使試題更具有科學性、說服性和針對性。
本文利用項目分析的方法,通過計算試題的難度和區分度,把那些質量高的試題遴選出來作為電腦試卷的試題,為開發機測的電腦試卷服務。同時,從難度、信度兩方面對試題進行討論分析。
一、測試試題的說明
本次分析的測試試題的受試者是上海交通大學國際教育學院初三級別的96名留學生。試題全是客觀題,客觀題的評分很客觀,不受閱卷人的主觀判斷的影響。試題共分五大部分:第一部分是有兩個選擇項的多項選擇題,分值為每題1分,共10題;第二部分是有三個選擇項的多項選擇題,分值為每題2分,共10題;第三部分是有三個選擇項的多項選擇題,分值為每題2分,共10題;第四部分是判斷題,分值為每題3分,共10題;第五部分的(一)是判斷題,分值為每題2分,共5題,(二)是有三個選擇項的多項選擇題,分值為每題5分,共10分。全卷共47題,考試時間為90分鐘,采用閉卷考試,答對的題得到相應的分數,答錯不扣分,即允許有猜測的成分。
1.項目難度


項目難度系數的范圍是0到1,系數越大,項目就越容易。如果所有的項目都很容易或都很難,就不能很好地區分學習好的學生和學習差的學生,因此,測試項目應該處于一個適當的難度范圍。一般認為比較合適的難度系數是0.618,低于0.3或高于0.9的都太難或太容易,應該丟棄不要。通過上表分析,難度系數低于0.3的試題沒有,高于0.9的試題有5個,分別為四(一)判斷的項目1(0.927)、項目3(0.958),(二)判斷的項目1(0.938)、項目2(0.938),五(一)判斷的項目1(0.917)。這說明判斷題比較容易。
2.項目區分度
所謂區分度,就是題目對被試的區分能力。區分度高,水平高的被試答對的可能性越大;反之,水平低的被試答對的可能性越低。如果高水平被試和低水平被試在一個題目上的答對率相同,這個題就不能區分水平不同的被試,是不符合要求的。應該舍棄不要。
計算區分度有幾種不同的方法,有極端分組法、點雙列相關系數、雙列相關系數等。本文采用的是極端分組法。其計算方法是根據被試成績的高低,把獲得較高分數或較低分數的人中各選出25%到27%作為高分組和低分組,用字母D表示,D=(高分組答對人數-低分組答對人數)/全組的總人數。下面的表格表示本次測試中每一個項目的區分度:

區分度的范圍是從-1到1。一般地說,比較合適的區分度應該在0.40以上。對于區分度在0.2到-1之間的項目,我們應該舍棄不用。而對于區分度在0.20到0.39之間的項目加以修改。從上表可以看出,區分度處于0.20以下的有:
一、2個選擇項的項目1(0.0000)、項目3(0.1250)、項目5(0.0833)、項目9(0.0417);
二、3個選擇項的項目7(0.1250)、項目8(0.1667)、項目9(0.1250);
三、3個選擇項的項目3(0.1667)、項目10(0.0417);
四、(一)判斷的項目1(0.1250)、項目3(0.1667),(二)判斷的項目2(0.1250)、項目3(0.1250)、項目5(0.1250),共12項。處于0.4以上的有12項。處于0.20到0.39之間的項目有23項。
3.項目干擾項
在多項選擇題中有若干個選項,只有一個是正確答案,其余的是干擾項。干擾項的作用是干擾受試者作出正確的選擇。干擾項如果干擾了所有的被試或沒有干擾到被試或選擇干擾項的高分被試要比低分被試多,說明它沒有起到干擾的作用。就要對其進行修改。以下是經過難度、區分度分析后得出的合格的項目的干擾項分析。

說明:1.一題中的項目2的低分組中有一個被試未選擇;二題中項目2、項目3、項目4、項目5、項目6的低分組中有一個被試未選擇,項目1的低分組中有兩個被試未選擇;三題中的項目9的低分組中有一個被試未選擇,項目2的低分組中有兩個被試未選擇。
2.斜體部分是不符合測試要求的項目。我們可以看到二題中的項目1的干擾項C、4的干擾項B、,三題中的項目7的干擾項A都是無效干擾項,需要進一步修改。
二、總結
(一)數據統計(下表)

本次聽力試題的各種題型的平均難度為:有兩個選擇項的多項選擇題的平均難度是0.700,有三個選擇項的多項選擇題的平均難度是0.640,判斷題的平均難度是0.853。全卷的總平均難度是0.719。
對于區分度來說,本次聽力試題的各種題型的平均區分度是:有兩個選擇項的多項選擇題的平均區分度是0.2875,有三個選擇項的多項選擇題的平均區分度是0.269,判斷題的平均區分度是0.283。全卷的總平均區分度是0.277。
從數據統計表中我們得知,全卷的難度相對較低,區分度也不高。全卷的難度應該控制在0.618,區分度控制在0.4。本次試卷的總體質量不高。
(二)討論
1.題型的設計
本次聽力考試采用的都是客觀性試題。在測試題型的設計上,客觀性試題有一定的優點。趙金銘指出,客觀性測試的長度在很大程度上保證了測試的內部一致性信度。同時,規定了答題標準范圍和標準答案,評分非常簡單、客觀。但是,客觀題的最大缺點是存在猜測性,特別是兩項選擇題和判斷題,猜中的概率為50%,測試的效度會大大降低。從上表中我們也可以看到兩項選擇題和判斷題的難度是非常低的。為了達到真實地測出被試的語言水平的目的,我們建議盡量不出現這兩類題型。如果采用多項選擇題,其選擇項數目不應太少,最好是4項以上,要采用區分度高的題型。
另外,大學英語四、六級考試題型的改革也給了我們啟示。在題型改革上,加大了非選擇性試題的比例。其中,聽力理解的題型包括多項選擇題和復合式聽寫。宋春陽認為,題型構成要為語言技能考察提供有效性服務,使得聽說讀寫技能能夠有效地得以確認,而不是混在一起,降低效度。聽力考試盡量避免寫作和閱讀能力的干擾,除圖畫、圖表之外,應盡量不涉及文字的東西。為了盡可能地使主觀題客觀化,聽力考試的題型可以在多項選擇題之外,增加排序題。排序題如果給定四個項目,那么就有1×2×3×4=24種可能,降低了猜中的概率,因而難度較高,區分度較高。
2.教材試題的修改
本次測試的聽力試題中有20題是教材中的原題,占總題數的43%。這些題是一、兩項選擇題的1、2、3、4、5、6、7、10,三中的1、4,還有四的對話1和對話2,這些題的區分度并不高,而且有8題是不合區分度要求的,是要被舍棄掉的。所以,我們覺得現行聽力教材中的試題存在問題,有必要對教材中的題進行分析,提高其質量。
*本文受上海交通大學985項目編號04-31-“漢語水平機助自適應測試系統題庫建設理論研究”資助。
參考文獻:
[1]張凱.語言測試理論與實踐[M].北京: 北京語言文化大學出版社,2002.
[2]趙金銘.對外漢語教學概論[M].北京: 商務印書館,2004.
[3]宋春陽. 基于統計的對外漢語電腦輔助測試題型構成研究[J].第八屆世界漢語教學討論會大會宣讀論文.
(崔寧 宋春陽,上海交通大學國際教育學院)