廖先祥+莫海浪

在第二個問題中,我們已經知道了什么是真分數理論,平時我們的考試就是以它為理論依據實施的。真分數理論有時也叫經典測量理論(Classical Test Theory,CTT),它有三個理論假設:第一,真分數具有不變性;第二,誤差是完全隨機的;第三,卷面分數是真分數與誤差分數的和。其實,經典測量理論的內容并不只是前面我們所講的這些,在這個框架下,它的內容可豐富呢。
問題3:你知道我們考試的信度是怎么回事嗎?
在很多人的眼里,考試并不是問題,“不就是做題嘛”。但問題是,我們要利用考試考出來的成績對考生進行評價,進而對學校、班級或其他團體等進行評價。如果是這樣,我們就不得不提出這樣一個問題了:“這次考試到底有多大可信性?”或者如此表述:“這次考試所得到的成績能代表考生的真實水平嗎?其可靠性達到了怎樣的程度?”如果這次考試的可靠性不夠高,那么用這樣的考試成績作為評價用的數據就有點兒“不靠譜”,我們不能讓考生被“不靠譜”的數據“冤枉”。
還記得我們在上文中提到的“小學一年級學生兩位數以內的加減法運算能力”測驗嗎?我們為了得到學生的真實能力水平,前后進行了60次同樣內容的測驗(題目不同)。這在經典測量理論(CTT)里叫做“平衡測驗”,其目的是使我們所獲得的考試成績更可信、成績更真實,進而保證我們的評價更可靠。然而,這只是理論上的做法,在現實中我們不可能做那么多次測驗才進行評價,這樣的代價實在太大了!哪怕就是平時的測驗,做兩次都很難,更不用說做那么多次同樣內容的測驗了。至于中高考,從來都是一次過。那么,我們有沒有別的什么方法可以解決這個可信性、可靠性的問題呢?答案是肯定的。那些專門研究教育測量學的專家們已經為我們提供了各種各樣的解決辦法,比如采用相關法進行重測信度(Test-retest Re-liability)、復本信度(Equivalent-forms Re-liability)、分半信度(Split-half Reliability)的估計等。另外,克倫巴赫(Cronbach)α系數、荷伊特信度(Hoyt,1941)以及庫德和理查遜(G.F.Kuder & M.W.Richardson,1937)提出的兩個公式K-R20公式和K-R21公式等都是進行信度估計的重要方法。
什么是重測信度呢?所謂重測信度,又叫再測信度,就是把同一(群)考生、同一個測驗在不同的時間里測量兩次,然后計算這兩次測驗成績的相關系數,這個系數就叫做重測信度。
什么是復本信度呢?復本信度就是以兩個等值但題目不同的測驗(復本,就是平時我們所說的備用卷;若相同的人用正卷和備用卷測驗的結果一樣,那么這兩份試卷就是等值的)來考查同一個群體(考生),然后求得這批考生在這兩次測驗中所得分數的相關系數,這個相關系數就叫復本信度。
什么是分半信度呢?分半信度是指在測驗后將測驗試題分成相等的兩組(兩半),通常采用奇偶分組方法,即將測驗題目按照題號的奇數和偶數分成兩半,然后計算這兩組題目得分之間的相關系數,這個系數就叫分半信度。
無論是重測信度、復本信度還是分半信度,這些名詞聽起來都是一些很專業的東西。不過,在科學很發達的今天,我們一般都能毫不費力地利用各種計算機軟件將它們快速測算出來。
例如,我們利用IRT統計分析軟件ConQuest version 2.0對2013年柳州市中考試卷的信度進行計算分析,得到各科的克倫巴赫(Cronbach)α系數:語文=0.90,數學=0.93,英語=0.93,物理=0.93,化學=0.93,思品=0.87,歷史=0.92。
其實,求克倫巴赫(Cronbach)α系數還可以用SPSS軟件來測算。為了計算2014年柳州市中考數學試卷的克倫巴赫(Cronbach)α系數,我們使用了這個SPSS軟件,過程如下:
第一步:把每個學生每道題的得分輸入或導入到SPSS軟件中,如圖1。
第二步:在SPSS菜單中選取“分析”→“度量”→“可靠性分析”,如圖2。
第三步:在選取“可靠性分析”確定后出現如圖3的選項窗口,這時把左邊的各題變量都選放到右邊的項目欄中,模型選項取“α”,如圖3。
第四步:點擊“統計量”按鈕,出現如圖4的窗口,鉤選相應選項后點擊“繼續”。在回到上一窗口后點擊“確定”即可。
第五步:在軟件的查看器中就可以查看到“可靠性統計量”克倫巴赫(Cronbach)α系數了。如圖5中的“可靠性統計量”,我們發現2014年柳州市中考數學的α系數,即信度為0.92。
現在,信度系數求出來了,可是,這個系數到底要多大才能說明這份試卷的測驗結果具有足夠的可靠性呢?我們可以參考下面這個表格來下結論:
信度高低與克倫巴赫
(Cronbach)α系數關系對照表
由此看來,2014年柳州市中考數學試卷的測試信度較高,這份試卷是十分可信的,用它來作測試,結果是十分可靠的,能夠測出我們要考查的學生的真實雙基水平。
解決了考試的信度問題,下面便是考試的“效度”問題了。
問題4:我們如何知道考試的結果是否有效、效度如何?
信度只是幫助我們解決了考試結果的可信程度的問題,卻不能幫助我們解決考試結果是否有效、效度如何的問題。那什么是效度呢?考試的效度指的是考試結果的有效性程度,也就是已經測量得到的東西與我們想要測量的東西是否相符、符合的程度有多大。比如,我們本想通過對一篇短文的分析來了解學生對某種文體的理解和掌握水平,但是在命題時我們卻問了大量有關作者生平、寫作思想、人生態度、對短文所描述情境的感悟以及對字、詞、句的分析等,很顯然,這樣的考試,其分數不能有效地反映出學生對某種文體的理解和掌握水平。又比如,我們為了考查七年級學生對正、負數的理解能力,于是,命制了下面這份測試題。
一、選擇題(每小題8分,共32分)
1.有一組數據:-1,0,+,-1.732,-3.14,106,-。下列說法中,正確的選項是( )。
A.正數有1個 B.負數有2個
C.正數有3個 D.負數有4個
2.如果水位升高5m時水位變化記作+5m,那么水位下降3m時水位變化記作( )。
A.+3m B.+2m
C.-2m D.-3m
3.下列說法正確的是( )。
A.負數是小于0的數
B.不是正數的數一定是負數
C.正數是不小于0的數
D.不是負數的數一定是正數
4.向東行進-30米表示的意義是
( )。
A.向東行進30米
B.向東行進-30米
C.向西行進30米
D.向西行進-30米
二、填空題(每空8分,共48分)
5.甲、乙兩人同時從A地出發,如果向南走48m,記作+48m,那么:
(1)A地的距離在數學上可標記為
。
(2)乙向北走32m,記為 。
(3)甲走了+28m,表示甲向 方向走了28m。
(4)此時此刻,甲乙兩人的距離為
。
6.某種藥品的說明書上標明保存溫度是(20±2)℃,由此可知:
(1)這種藥物保存溫度不能高于
℃。
(2)這種藥物保存溫度范圍只有
℃。
三、解答題(共20分)
7.2014年我國全年平均降水量比上年減少24mm,2013年比上年增長8mm,2012年比上一年減少20mm。用正數和負數表示這三年我國全年平均降水量比上年的增長量。
那么,這份試題能否測出七年級學生對正、負數的理解能力呢?如果能的話,它的有效程度怎樣?要回答這樣一個問題,測量學的專家們給出了三種方式的回答,提出了三種類別的效度:一是內容效度(Content Validity),指的是測驗的試題對想要測驗的內容的代表性程度;二是結構效度(Construct Validity),指的是測驗結果與測驗的理論假設之間的一致性程度;三是效標關聯效度(Criterion-related Validity),又稱實證效度,指的是測驗的結果與某種外在效標之間的一致性程度,一般用測驗分數與效標之間的相關系數表示。
在日常的教學中,我們的考試以檢測知識為主,比較容易獲得較高的內容效度,因此,我們對這一類測驗也往往更加關注它們的內容效度。內容效度,在實際操作中有時也叫“知識覆蓋面”。我們在命題時為了提高測驗的內容效度,往往先羅列出考試范圍內的所有內容,然后再盡可能多地對所羅列的內容設定相關的試題,具體操作步驟如下:第一,確定考試總體內容,并列出有關知識與技能的分類板塊;第二,進一步細化考試內容,并根據其重要性確定各內容的加權比例,作出盡可能詳細的描述;第三,確定每道題所測的知識與技能,將題目的分類歸屬與上述所列考試內容進行比較;第四,結合考試內容,計算試題所包含的考試內容比例、內容板塊所占比例、分值所占內容量值比例,綜合評估內容效度。以下是柳州市對2014年中考數學內容效度的評估:
《中考說明》所列知識點136個,考核了123個,占90.4%;出自課本的有103分,占到總分的85.8%;在各個板塊內容賦分比例中,數與代數部分占56分,空間與圖形部分占52分,統計與概率部分占12分,其賦分比例是14∶13∶3;如果按照學年內容比,則七年級24分,八年級48分,九年級48分,學年內容的比例是1∶2∶2。
通常,我們在命題前會預先公布該年度的筆試考試的內容范圍,然后根據這一考試范圍研制命題雙向細目表,同時根據考試內容范圍進行題目的命制,在命制完題目后,再對照雙向細目表描述試題所包含的內容,最后計算試題所含內容占雙向細目表中的考試范圍內容比例。另外,我們還會根據實際授課的課時比例,統計試題分值的分布比例,以觀察考試值分量是否合理。還有另一個也是非常重要的評價內容,那就是試題與學科課程板塊分布是否合理。
對于中小學教師來說,我們能把握好內容效度也基本能滿足平時對學生考試的要求了。
(責編 白聰敏)