朱文琴
目前,在教育測量領域主要以經典測量理論和項目反應理論為指導。傳統的經典測量理論具有測量依賴性和樣本依賴性,即經典測量理論的測驗結果不具備測量的獨立性,同時受被試樣本水平和測量項目本身性質的影響。Rasch模型是丹麥數學家Georg Rasch于1960年基于項目反應理論提出的一種數學模型,它是一個單參數項目反應理論模型,用于衡量學生能力水平與題目難度之間的關系。
Rasch模型比經典測量理論更具優勢,克服了經典測量理論存在的測量依賴性和樣本依賴性[1]。Rasch模型是一個理想狀態下的模型,運用它進行分析時,需要滿足兩個必要條件:一是對于單獨被試來說,答對難度系數高試題的概率低于答對難度系數低試題的概率;二是對于試題來說,能力低的被試答對試題的概率低于能力高的被試答對試題的概率。即個體能否答對題目由個體的能力水平與題目難度之間的關系決定。
基于以上特點,運用Rasch模型進行分析時,首先需要將學生的原始成績(非線性數據)轉換成logit分數(線性數據),進而將學生能力水平與題目難度放在同一水平標尺上進行比較。
研究對象為小學六年級學生,分別選取了南京市兩所教學質量中等的公立小學A和B的六年級學生作為被試。兩所小學的男女生比例接近于1:1。這兩所學校的教學質量在區域內具有代表性,因此選擇這兩所小學的學生進行科學素養評測。其中,A小學選取兩個班學生共66人,B小學選取兩個班學生共84人。在所調查的150名被試學生中,男生77人,女生73人,平均年齡為13歲。
本研究采用EXCEL和Winsteps3.72.3軟件(https://bbs.pinggu.org/a-1386878.html)進行數據分析。Winsteps是一款專業的Rasch模型軟件,廣泛應用于教育測驗領域,如GRE、TOEFL等。
按照Rasch模型質量分析的步驟,首先對評測方案試題進行整體質量檢驗;接著進行單維性分析,檢驗評測方案是否考查學生單一的心理特質或結構;通過懷特圖(Wright Map)檢驗題目難度和被試能力的匹配性;再對各題質量進行具體分析,最后通過氣泡圖(Bubble Diagram)進行題目擬合度和測量誤差的檢驗。
評測方案正式實施之后,首先將所有被試學生每一道題目的答題得分錄入EXCEL中。本評測試卷的題型和對應的題量為:16道選擇題,1道連線題,1道判斷題,3道情境題。其中,情境題“鳥類遷徙”包含兩小題,“番茄種植”包含3小題,“種子的傳播”包含3小題,為準確分析每道題目的質量,將情境題的每一小題設置為1題。因此,本評測方案共26題,包括19道單選題和7道非選擇題。首先在EXCEL中對原始數據進行轉換,為滿足Rasch模型分析要求,對所有題目進行4級計分,單選題答錯計0分,答對計3分,其他題目答錯計0分,30%-60%正確計1分,60%以上計2分,完全正確計3分。接著將數據導入Winsteps3.72.3軟件中進行分析。
Rasch模型通過殘差計算得出兩個擬合度檢驗指標:Infit MNSQ(簡稱IMNSQ,表示加權后的指標)和Outfit MNSQ(簡稱OMNSQ,表示未加權指標,易受極端值影響),ZSTD(Z standard)是兩者的標準化形式[2]。IMNSQ和OMNSQ的理想值均為1,代表所測數據與Rasch模型預期完全擬合,當二者值在0.5~1.5之間時,代表所測數據與模型預期的擬合程度在可接受的范圍內[3]。ZSTD的理想值為0,代表理想擬合狀態,當ZSTD的值在-2~2之間時,則代表擬合較好[4]。其中,IMNSQ對題目難度和學生能力水平數據比較敏感,OMNSQ對異常數據比較敏感。因此本研究選擇IMNSQ對評測方案進行分析。
如表1所示,被試的IMNSQ為1.00,題目的IMNSQ為1.07,均等于或接近IMNSQ的理想值;被試的ZSTD為0.10,題目的ZSTD為-0.20,均接近ZSTD的理想值。表明評測方案的題目擬合情況較好,題目的難度與學生的能力水平相匹配。評測方案題目的信度(ITEM RELIABILITY=0.95,>0.7),題目的區分度(ITEM SEPARATION=4.24,>2)均大于理想值,表明本評測方案題目的整體信度高,區分度較好,可以將不同能力水平的被試區分出來。被試的信度(PERSON RELIABILITY=0.68,<0.7)良好,這是因為評測是在兩個教學質量不同的學校中進行,學生的能力水平分布差異較大,個體差異性明顯。綜上,本研究的評測方案試題整體質量良好,可以開展進一步分析。

表1 整體質量檢測表
單維性要求測試的試題考查的是某種單一的心理特質或結構,即被試學生能否答對題目只與其某一種能力有關,忽略其他因素的影響。單維性檢驗可以通過分析各試題的標準殘差(standardized residuals)進行判斷。本研究通過Winsteps3.72.3軟件處理數據得到評測方案的標準殘差圖,用以判斷本評測方案所使用的試題是否具有單維性。
如圖1所示,每一個大小寫字母分別代表評測方案中的一個題目,具體對應的題目可通過查表獲知,橫坐標代表評測方案題目的難度,縱坐標代表題目與其他影響因素之間的相關關系值,當該值在-0.4到+0.4之間時,則題目具有單維性[5]。由圖1可以看出,本評測方案26道題目只有4道題目超出了可接受范圍,大部分題目均分布在-0.4到+0.4之間,4道超出-0.4到+0.4范圍的題目是A、B、C和a。通過查表可知這4道題目分別對應第20、14、11和第5題。對這4道題目進行深入分析發現,這4道題目并不是考核學生的某一種能力水平,Rasch模型不能對其進行準確分析。例如,第20小題為:“寫出一種可能會導致志愿者對候鳥計數不準確的因素,并解釋這種因素是如何影響計數的。”該題不僅考核學生的分析問題能力,還涉及想象和解釋的能力。本評測方案的26道題目僅有4道題目超出了單維性的可接受范圍,可以判定該評測方案整體只受某一單一因素的影響,具備單維性,即該評測方案測試的是學生的生命科學領域科學素養水平。

圖1 標準殘差圖
在Rasch模型中,題目的難度和學生的能力水平均被轉換成具有等距意義的logit分數,因此可以在同一水平標尺(即懷特圖)上比較題目難度和學生的能力水平。本評測方案的題目難度與學生的能力水平關系圖如圖2所示。

圖2 懷特圖
在圖2中,中間的豎線是共用的logit標尺,標尺左側是學生能力的分布,標尺右側是題目的難度分布。標尺左側的“#”代表兩名學生,“·”代表一名學生,標尺右側的標號為評測方案的題目序號。標尺旁的M代表平均值,M兩側的S代表距離平均值一個標準差,T代表距離平均值兩個標準差。標尺最左側的數值代表logit分數,從下往上看標尺,logit值逐漸增大,代表被試的能力增大,題目的難度增大。
從logit標尺左側可以看出,大部分被試學生的能力水平分布在0-2 logits之間,呈負偏態,表明該評測方案對學生來說整體難度不大,評測方案的難度與學生的能力水平相適應。但在logit值>1時,沒有與學生能力水平相適應的題目,表明該評測方案缺少難度大的題目。從logit標尺右側可以看出,大部分題目的難度水平分布在-1~1 logit值之間,評測方案的題目難度較為均衡。而第1、3、16題過于簡單,因為這三道題目屬于與實際生活密切相關的科學素養常識題,幾乎所有學生都可以答對。
在對評測方案進行整體質量檢測和學生能力與題目難度的匹配性檢驗之后,接著對評測方案的每個題目進行具體分析。如表2所示,Measure是指題目的難度,Model S.E.是標準誤差,代表題目測試學生能力時的誤差,其值在-0.75到+0.75之間為可接受范圍。Cor.是相關系數,表示題目與測量目標的擬合程度,其數值越大代表擬合情況越好。

表2 評測方案各題信息表

續表2
由表2可知,評測方案的26道題目里,Measure值最大的是第23題,代表評測方案中最難的題目是第23題,第11題、14題、20題和22題均較難,最簡單的題目是第3題,幾乎所有的學生都能答對。從26道題目的難度值來看,試卷的前半部分題目的難度值均較小,這符合學生的評測心理,有利于培養他們的信心,后半部分難度逐漸加大,區分度變大。因此,本評測方案在試題難度的安排上由易到難,具有梯度合理性,可以更準確地評測出學生的真實科學素養水平。評測方案的26道題目的Model S.E.均在-0.75到+0.75之間,因此本評測方案的標準誤差均在可接受的范圍內。第3題的相關系數最小,說明第3題在評測學生科學素養水平時,獲得的有效信息最少。且第3題的IMNSQ=1.56(>1.5),和模型預期不擬合,說明低水平能力的學生答對了該題,而高水平能力的學生答錯了該題。從題目的難度值上可以看出,第3道題目的難度值為-1.34,是26道題目中最簡單的題目。第3題題目為:“人們生下來是卷發還是直發是因為他們兄弟姐妹的發質、他們父母的發質、他們自己頭發的顏色還是他們自己皮膚的顏色。”這是一道簡單選擇題,編制這道題目的預期是幾乎所有的學生都可以答對該題,但評測結果卻與預期目標背道而馳,對于第3道題目是保留還是刪除需進一步分析。此外,大部分的題目的IMNSQ在可接受的范圍(0.5-1.5)內,其中第25題的IMNSQ=0.48(<0.5),表明能力水平高或者低的學生均不能完全答對。第25小題是一道開放題,讓學生說出3種種子在螞蟻窩里保存的優點,大部分學生未能得分是因為審題不清,答成種子在螞蟻窩內發芽的優點。
Rasch模型可以通過氣泡圖直觀地描述出每一道題目的擬合情況和標準差,與數據表格相比,氣泡圖更加一目了然。如圖3所示,橫坐標表示OMNSQ的值(擬合度檢驗指標),縱坐標表示題目的難度,每一個氣泡代表一個題目,氣泡大小代表題目的標準差,氣泡越大代表題目的標準誤差越大,氣泡越小則代表題目的標準誤差越小。氣泡越靠近橫坐標,表示題目的難度越低,離橫坐標越遠,表示題目的難度越大。
從圖3的橫坐標方向可以看出,大部分試題的OMNSQ值在0.5到1.5之間,表明試題的擬合度較好,評測方案質量較好,可以準確地測出學生的科學素養水平。但第6和第15道題目的OMNSQ大于1.5,與模型預期不夠擬合,表明這兩道題目無論科學素養水平高低的學生都能答對或者都會答錯。從表1可知,第6道題目的難度為-0.51,第15題的難度為-0.39,兩道題目屬于簡單題,因此無論科學素養水平高低的學生均能答對。其中,第6題考查兩棲動物的生活習性,第15題考查食物的消化,學生可根據生活經驗選擇出正確答案。從圖3的縱坐標方向可以看出,較難的題目有第23、20、22、25等題,較簡單的題目有第3、1、6、10等題,評測方案題目的分布由易到難,有助于學生快速適應評測過程。圖中26個氣泡代表26道題目,第3道題的氣泡半徑明顯大于其他題目,表示第3道題的測量誤差較大,具體原因在上文中已作分析,其他25道題目的誤差均在可接受的范圍內。

圖3 氣泡圖
此外,圖中有部分氣泡有重疊,這是因為這些重疊的氣泡在測試難度、測量誤差和擬合度這三個方面均較為接近。如第2題和第4題氣泡接近重疊,二者均為簡單試題,且擬合度和測量誤差相近。第20和22題的氣泡接近重疊,二者均為較難的試題。
通過對評測方案分別進行整體質量檢驗、題目單維性檢驗、題目難度與被試能力匹配性檢驗、各題質量分析和測量誤差檢驗之后,發現本評測方案整體上符合評測目標的要求,與Rasch模型預期擬合較好,具備單維性。題目難度與被試能力匹配性較好,大部分題目質量良好,測量誤差較小。但在評測方案質量檢驗過程中發現少量題目存在問題,第3、1、16題難度過低,第25題擬合度較差。下面對這些題目進行具體分析。
第3題難度太低,通過懷特圖分析之后可知,該題的難度遠遠低于學生的能力水平。但難度低并不意味著一定要將題目刪除,評測并非選拔,因此試卷中應保留一部分簡單題目,讓部分能力偏低的學生可以答對,避免評測分數過低。第3題題目為“人們生下來是卷發還是直發是因為他們兄弟姐妹的發質、他們父母的發質、他們自己頭發的顏色還是他們自己皮膚的顏色”。這是一道簡單選擇題,但評測結果發現該題的IMNSQ和OMNSQ均大于或接近1.5,表明部分能力水平高的學生反而答錯了該題,這與Rasch模型預期不擬合。同時,第3題在氣泡圖中其氣泡半徑過大,表明測驗誤差較大。因此,第3題無法準確地評測出學生的能力水平,應舍棄。
第1題和第16題的難度偏低,通過懷特圖分析發現這兩道題目的難度水平略低于學生的能力水平。第1題考查的是人體食用食物之后能量的轉換,是小學四年級上冊第四單元“今天吃什么”的內容,學生即使沒有學過相關知識,憑借生活經驗也知道當食用食物超過自身需要,食物會儲存為脂肪。因此,不論能力水平低或者能力水平高的學生均可以答對。第1題的IMNSQ和OMNSQ均在可接受的范圍內,測量誤差合理。第16題是一道復雜選擇題,讓學生對操作步驟進行排序。大部分學生可根據生活經驗答對該題,難度較小。該題的IMNSQ和OMNSQ值均在合理范圍內,測量誤差較小。因評測試卷中應保留部分簡單題,故第3題和第16題保留。
第25題的擬合度較差,通過質量分析發現該題的IMNSQ<0.5,與模型預期不擬合,說明不論能力水平高或者能力水平低的學生均不能答對該題。第25題是一道開放題,考查學生的發散思維,讓學生說出3種種子在螞蟻窩里保存的優點,大部分學生由于審題不清,答成種子在螞蟻窩內發芽的優點。經過與一線老師溝通交流后認為,題目本身并無問題,決定保留這道題目,并對題目中的“種子的保存”做文字加粗處理,以提示學生審題。
目前小學階段教育測試數據質量分析大多依據經典測量理論進行,現代測量理論的應用不足。本研究采用Rasch模型對科學素養評測進行分析,希望能夠為一線教育者和研究者提供參考。研究表明,本次科學素養評測評測試題質量較高,能區分出不同科學素養水平的學生,同時也存在部分評測試題不擬合的情況,可依據數據分析結果進行調整,為下一階段的評測研究提供測量學參考。
附錄:科學素養測評試卷
科學素養評測試卷
一、選擇題
1.我們每天都會吃各種各樣的食物,如果我們吃的食物超過自身需要會怎么樣?( )
A.呼吸變快 B.體重變輕 C.心率變快 D.食物儲存為脂肪
2.小明不小心割傷了自己的手指,他的身體需要能量來愈合傷口。愈合傷口需要的能量從哪里獲得?( )
A.從他綁在傷口上的綁帶里 B.從他抹在傷口上的抗菌劑里
C.從他吃的食物里 D.從他喝的水里
3.有些人是直發,有些人是卷發。什么會決定人們生下來是卷發還是直發?( )
A.他們兄弟姐妹的發質 B.他們父母的發質
C.他們自己頭發的顏色 D.他們自己皮膚的顏色
4.腎臟是人類身體的重要器官。有一個人在年輕時由于疾病切除了兩個腎臟中的一個。如今他有一個兒子。請問,當他兒子出生時,有幾個腎臟?( )A.一個 B.兩個 C.一個或兩個 D.不確定
5.諺語“一母生九子,九子各不同”是說同一個母親生九個孩子,九個孩子都不一樣,這句諺語表明了什么現象?( )

A.繁殖現象 B.遺傳現象 C.變異現象 D.哺乳現象
6.人生活在陸地上,魚生活在水中,那下列哪種動物在很小的時候生活在水中,長大了生活在陸地上?( )
A.鯊魚 B.蛇 C.企鵝 D.青蛙
7.下列各項中正確的食物鏈是( )
A.草→羊→狼 B.陽光→草→昆蟲→蛙
C.兔→狐→細菌 D.草→兔→狼→細菌
8.人在陸地上通過呼吸新鮮空氣獲得氧氣,魚生活在水中,它們如何獲得生存所需的氧氣呢?( )
A.它們吸收水并將其分解為氫氣和氧氣
B.它們每隔幾分鐘浮出水面,呼吸空氣進入它們的肺部
C.它們從吃的食物中獲取氧氣
D.它們通過鰓,吸收溶解在水中的氧氣
9.下列哪一組動物都是哺乳類?( )
A.鴨子、老鷹、鸚鵡 B.老虎、猴子、蝙蝠
C.蝴蝶、螞蟻、蚊子 D.鱷魚、蛇、烏龜
10.如果你去熱帶雨林旅游,你可能會發現下列哪一組生物?( )
A.蜥蜴,昆蟲,仙人掌,袋鼠 B.藤蔓,毒蛇,樹蛙,猴子
C.常青樹,鹿,黃鼠狼,水貂 D.地衣,苔蘚,麋鹿,北極熊
11.人們觀看健美運動員的展示時,運動員身體某處多次產生的隆起是因為什么?( )
A.肌肉組織具有收縮功能 B.肌肉組織具有舒張功能
C.上皮組織具有分泌功能 D.上皮組織具有保護功能
12.血液能在人體全身流動,是因為什么?( )
A.脈搏的跳動B.血管的收縮C.肌肉的收縮和舒張D.心臟的收縮和舒張
13.南京一年四季氣候分明,請問食物在下列哪種氣候中最容易發霉?( )
A.溫暖干燥的春季B.悶熱潮濕的夏季C.干燥涼爽的秋季D.寒冷干燥的冬季
14.環境中影響生物生活的因素有生物因素和非生物因素。下列主要反映非生物因素對生物影響的是哪個?( )
A.田鼠大量繁殖使農作物減產 B.大量捕捉青蛙使農作物減產
C.雜草叢生使農作物減產 D.旱災使農作物減產
15.膽囊可以存儲膽汁,而膽汁可以幫助消化脂肪。請問當一個人的膽囊切除之后,應該要避免食用哪一類的食物?( )
A.水果 B.五谷 C.乳酪D.蔬菜
16.艾米麗為了證明西紅柿中含有大量水分,她決定榨取西紅柿汁。下面是艾米麗榨取西紅柿汁的幾個步驟,正確的操作順序(注意:是排序):( )
①比較西紅柿汁和剩余渣子的多少(或稱重)
②用紗布把西紅柿塊包起來
③將西紅柿汁擠到燒杯中
④將西紅柿切成小塊
二、連線題
把下列動植物的形態結構與它們的功能用線連接起來。
A.蒼耳果實有鉤毛 a.在水中漂浮并流傳種子
B.蓮的果實是蓮蓬 b.能隨風傳播到各處
C.蒲公英果實有冠毛 c.可鉤在動物皮毛上而傳播到各處
D.鴨腳上的蹼 d.適合于悄悄接近獵物
E.貓爪上的厚肉墊 e.適合在水中游泳
F.毒蛾鮮艷的色彩 f.有助于警告天敵并保護自己
三、判斷題
班上要演節目,凱特編了一個劇本,里面有許多卡通動物明星,下面是劇本的一個片段。
米老鼠:我太太昨天下了三個蛋,正忙著在家孵蛋呢。
唐老鴨:孵蛋最麻煩了!要很細心照顧才行,不然可能孵不出小寶寶。
酷企鵝:像我們這樣多好,一出生就是企鵝寶寶,根本不用孵蛋。
加菲貓:不用孵蛋是很好啦,但是我們要給小寶寶喂奶,也很辛苦。
維尼熊:嘻嘻,那我們最好了,我們不用喂奶,只要抓幾條小魚,就可以喂飽小熊寶寶了。
高飛狗:真羨慕你們!唉,我得回家了,我太太這幾天也要下蛋了。
請問哪幾個動物明星說的話是正確的?哪幾個動物明星說的話是錯誤的?(不考慮動物明星的性別)請在后面的括號里分別打“√”或“×”。
米老鼠( );唐老鴨( );酷企鵝( );加菲貓( );維尼熊( );高飛狗( )
四、情境題
1.鳥類遷徙
鳥類遷徙是一種鳥類往返于它們繁殖地之間的大規模季節性移動。每年志愿者們都在特定的地點給遷徙的鳥計數。科學家們捕獲一些鳥,然后在它們的腿上系上有顏色的環和標識。科學家們結合對標識的觀察和志愿者的計數來確定鳥類遷徙的路線。

參考上面的材料“鳥類遷徙”,選擇正確選項。
(1)大多數遷徙的鳥類都聚集在一個區域,然后大規模地遷徙而不是單獨遷徙。這種行為是生物進化的結果。下列哪種解釋能最科學地闡述大多數遷徙鳥類的行為的進化?
A.獨自遷徙或小群體遷徙的鳥類,存活下來并能繁殖后代的可能性較小。
B.獨自遷徙或小群體遷徙的鳥類,找到充足食物的可能性較大。
C.大規模遷徙允許其他種類的鳥加入到遷徙隊伍中。
D.大規模遷徙可以讓每只鳥都有更大的機會找到筑巢地。
(2)參考上面的材料“鳥類遷徙”。寫出一種可能會導致志愿者對候鳥計數不準確的因素,并解釋這種因素是如何影響計數的。
2.番茄種植
一個農民想要種植出果實更多的番茄植物。他決定測試兩種方法。
方法一:買種子并增施更多的肥料;
方法二:保留下高度最高的番茄植株的種子,在第二年將這些種子種下。
方法一的結果如下表所示:

(1)結有果實的植株,其大部分的重量由番茄果實和莖葉組成。
請選出你認為莖葉更多的番茄植株組( )
A.A組 B.B組
方法二中,農民從他的最高的番茄植株上(高130cm)收集種子。第二年,他種下這些種子,測量從種子中長出的植株的高度,并畫出了下面的柱狀圖。

請根據柱狀圖回答以下問題:
(2)種子長出了多少植株?最高的植株是多高?
(3)農民想要知道使用方法二種植番茄是否比方法一更好,他還需要收集關于番茄植株的什么信息?
3.種子傳播
種子的傳播有多種多樣的方式,有一類種子可以附著在動物的皮毛上,通過動物的奔走進行傳播。
(1)以下哪種種子最有可能以這種方式傳播?( )(3分)
A.帶鉤的種子 B.可漂浮的種子
C.種子色澤鮮艷 D.種子表面光滑
(2)小小的螞蟻也有助于許多植物的種子傳播。螞蟻會將種子移到巢穴。螞蟻巢里的種子和外面的種子相比,在種子的保存上有什么優勢?請至少說出三點。(6分)

(3)種子有一部分富含脂肪,富含脂肪的部分可以產生一種化學物質,如下圖所示。螞蟻通過食用種子富含脂肪的部分來獲取能量,并將種子剩下的部分留在巢中,種子因此得到保存。

以下哪項描述了化學物質和富含脂肪的部分的作用?( )(4分)
A.化學物質阻止螞蟻吃種子,富含脂肪的部分是螞蟻的食物來源
B.化學物質吸引螞蟻,富含脂肪的部分是植物的食物來源
C.化學物質阻止螞蟻吃種子,富含脂肪的部分是植物的食物來源
D.化學物質吸引螞蟻,富含脂肪的部分是螞蟻的食物來源