劉春紅
?
基于CTT和IRT的意大利語試題質量研究*
劉春紅
(北京語言大學 培訓學院,北京 100083)
文章基于經典測量理論和項目反應理論,運用項目分析技術和測驗等值技術,對2010~2016年意大利語初級考試試題進行難度及區分度分析,并將IRT與CTT的難度及區分度進行比較,然后采用垂直等值法分析不同年份間考題的穩定性。最后,文章結合二語習得理論與意大利語學科特點,提出完善試題難度及區分度的方法。作為國內首例意大利語試題質量研究,文章可為意大利語考題的編制、建立和健全意大利語等級考試題庫提供有益的實踐嘗試。
經典測量理論(CTT);項目反應理論(IRT);國家公派留學意大利語考試;意大利語初級考試
考試質量分析是教育測量領域中的一項重要工作,它不僅可以幫助教師了解學生真實可信的學習成果,為日后的教學工作提供參考,也為以后修改試題、建立試題庫和實施標準化考試提供支撐。北京語言大學出國留學人員培訓部下屬意大利語教研室是國家公派留學意大利語考試的唯一指定命題單位,其試卷質量直接關系到評測結果的可信度和有效性,直接影響對學生學習成果和教師教學效果的評價。
經典測量理論(Classical Test Theory,CTT)和項目反應理論(Item Response Theory,IRT)是當前測量領域里的兩大理論。CTT以真分數理論為核心假設,采用線性數學模型建立了題目和能力分析的一系列指標[1]。IRT的理論假設是建立在數學統計理論的基礎上,采用了非線性的概率形式,構建作答反應的概率模型[2]。而基于兩種測量理論的等值研究是分析不同年份試題質量穩定性的重要方法。規范化考試都會要求不同年份的試卷質量保持穩定,否則會造成評測結果不公平。等值分析在不同測驗之間建立轉換關系,把所有不同形式測驗的分數都轉換到同一分數系統上[3]。
本研究從試題質量分析和測驗等值兩個方面進行研究,利用經典測量理論和項目反應理論,分析試題的難度和區分度,并比較分析結果。然后結合語言學及二語習得理論,進行試題的錯誤分析。最后通過測驗等值分析,比較不同年份受測者能力水平的變化。
本研究以經典測量理論和項目反應理論為理論基礎,采用BILOG-MG 3.0軟件,對2010~2016年意大利語初級考試的609份試卷中455道0-1計分的試題進行了難度和區分度分析。下面給出了不同年份的難度分布情況(如圖1所示),這里難度采用通過率來表示。可以看到,歷年試題的難度總體上呈正態分布,說明試題質量比較穩定。
接下來用相關法來刻畫區分度。一般來說,區分度指數大于0.3,試題便可以接受[4]。2010~2016年可接受試題占總數的百分比匯總如表1所示。表1顯示,歷年試題的區分度總體呈良好狀態,但2010年試題的區分度偏低。

圖1 歷年意大利語初級考試試題難度分布圖

表1 歷年區分度匯總表(CTT)
IRT模型原理不同于CTT,本研究采用IRT雙參數項目反應模型,利用BILOG-MG 3.0,計算出每道題目的難度和區分度,并將其與CTT的難度和區分度進行比較。下面以2015年試卷中26道0-1計分的填空題為例進行說明。首先,本研究計算出這26道試題中CTT和IRT的難度值、區分度。然后,本研究分別繪制了CTT和IRT下的難度關系、區分度關系的散點圖。

圖2 CTT和IRT下的難度關系

圖3 CTT和IRT下的區分度關系
圖2是CTT和IRT下的難度關系圖,其相關系數為-0.96,呈負線性相關。由于CTT難度采用通過率刻畫,所以通過率(難度)值越大,相應的IRT的難度值越小。圖3是CTT和IRT下的區分度關系圖,兩者呈正線性相關,其相關系數0.7。由此可以看出,兩種理論計算的項目難度和區分度方法雖然不同,但兩者有很強的關聯關系。
語言學家Selinker提出的中介語假說理論認為,語言錯誤是語言習得過程中的自然現象;而Corder[5]指出了語言錯誤(Error)與語言過失(Mistake)的區別:語言錯誤來源于學生在沒有熟練掌握目標語情況下的語言能力欠缺,語言過失來源于記憶流逝、口誤、疲勞以及緊張和激動等心理因素。本研究集中分析考生的語言錯誤,基于對7年來考生作答數據及意大利語的學科特點,結合錯誤分析理論,分析如下:
錯誤率高的試題難度大,通過率低。考生的錯誤分為語際干擾和語內干擾,其中語際干擾來源于語言的負遷移,由于受到母語的影響,學習者未能掌握目的語的規則而造成語際錯誤;語內干擾錯誤指考生在學習目的語規則時,不能完整地應用、充分理解規則而導致語內錯誤,過度類推是造成語內錯誤的主要原因之一[6],例如:
2014年選擇題第3題:
Andiamo al mare, _______ anche tu?
選項:hai、vieni、vai、venite
答案:vieni
本題考查的是動詞andare和venire的特殊用法,由于漢語和意大利對“來”和“去”的判斷標準不同,漢語中的“來”和“去”是以說話者地點為中心來區分的,但是在意大利語中,如果有第一人稱和第二人稱的靠攏就要用venire(“來”)[7],該題的漢語意思是“周六我們去海邊,你也去嗎?”這里有第二人稱單數(你)向第一人稱復數(我們)的靠攏,所以要用vieni(“你來”)。本題的難度大,考生受漢語的負遷移容易造成語際錯誤,是一道高區分度、高質量的試題。
2013年填空題第7題:
Questo palazzo ha sei piani e l’ultimo piano si chiama il____ piano.
答案:quinto
本題的難度來源于文化負遷移造成的語際干擾,因為漢語中的“第六層”對應意大利語中的“第五層”,所以要用序數詞quinto(“第五”)。這也是一道難度大,區分度高的試題,既考查了語言知識,又考查了文化知識。
2011年選擇題第2題:
Parlo abbastanza bene ____ giapponese.
選項:l’、不填、lo、il
答案:il
本題是一個多知識點交叉試題,同時考查了定冠詞、名詞和動詞的特殊用法,考生如果沒有完全掌握定冠詞的用法,不了解giapponese的詞性,不知道動詞parlare的特殊用法就會出現錯誤。所以,本題難度大,區分度高,是一個高質量的多知識點交叉試題。
2014年填空題第7題:
Luca non ____ riuscito a trovare il suo zaino.
答案:è
本題考查的是動詞riuscire在直陳式近過去時中的變位,該動詞是意大利語初級詞匯中的難詞。本題語法知識點不難,但詞匯難度提高了試題的難度和區分度。
2013年選擇題第1題:
Loro sono una bella ____.
選項:copia、coppia、copie、coppie
答案:coppia
本題考點是形近詞辨析,copia的意思是“復印件”,coppia的意思是“一對夫婦”,本題的漢語意思是“他們是一對很般配的夫婦”,所以要選coppia。本題的句子結構很簡單,但是利用形近詞辨析提高了試題的難度和區分度。
2012年選擇題第3題:
Linda ha mangiato ____.
選項:bene、buono、buona、bella
答案:bene
本題考查的是bene和buono的區別,bene和buono兩個形容詞都有“好”的意思,但詞性不同,bene是副詞,buono是形容詞。該題目想表達的漢語意思是“琳達吃得很好”,“好”用來修飾動詞“吃”,需要一個副詞而不是形容詞,因此要用bene。雖然本題的句子結構簡單,出現的也都是初級高頻詞,但是單詞詞性辨析提高了試題的難度和區分度。
2010年選擇題第3題:
Maria porta sempre gonna ____.
選項:breve、corto、corta、brava
答案:corta
本題的考點是同義詞辨析和名詞形容詞的性數一致,考生知道breve和corto都有“短”的意思,但含義有所不同:breve指兩端之間的距離小,多用來形容文章、講話、路程、假期等無形的事物或現象所延續的時間短暫;形容物體長度短則要用corto。本題的漢語意思是“瑪利亞經常穿短裙”,所以要用corto,但是意大利語的形容詞要和所修飾的名詞保持性數一致,所以答案是corta,和陰性單數名詞gonna保持性數一致。雖然本題句子結構簡單,但是同義詞辨析提高了難度和區分度。
意大利語初級考試側重考查學生的基本語法和文化知識,而以上分析中考察的語法點、詞匯和句子結構并不復雜,但是出題人利用上文所提到的各種方法有效提高了試題的難度和區分度。但是,這并不意味著難度越高,區分度也越高,例如:
2014年選擇題第8題:
In America lunedì è il ____giorno della settimana.
選項:primo、secondo、terzo、quarto
答案:secondo
本題的考點是序數詞的用法,題目的漢語意思是“在美國周一是一星期中的第幾天”,考生受漢語文化的負遷移,容易選擇primo(“第一”);但在美國,一個星期始于周日,也就是說周一是一周中的第二天,而不是il primo giorno(“第一天”)。該題的難度高,但是區分度很低,因而106位考生只有2位答對了,通過率僅為1.89%。因此,不能一味地增加難度,而不考慮學生的整體實際水平,造成出題成本高,但是區分度低,有效性低。
總之,上述分析結合語言學及二語習得理論,借助于語言錯誤理論和學習者錯誤分析,佐證了CTT和IRT理論在試題質量分析中的科學性,也為出題人提供了科學的出題依據,使考題的難度、區分度更好地與學生的實際能力相匹配。
為了保證考試的公平性,歷年的試題應該在難度和區分度上基本一致;但為了考試的保密性,又要控制相似考題的重復率,而且即使出題人主觀認為不同年份的試題難度和區分度基本一致,實際上的考試結果也會與預期值有一定的偏差,這一難題必須運用“等值”技術來解決[8]。測驗等值有不同的方法,按不同的標準可以將等值分為以下幾種:①按理論依據分類,可分為經典理論等值與項目反應理論等值;②按等值水平分類,可分為測驗分數等值和項目參數等值;③按測驗和受測者之間的差異是否顯著,可分為水平等值和垂直等值。水平等值是指在試卷難度和考生能力分布差異不顯著的情況下進行的等值,而垂直等值是在差異顯著情況下的測驗等值[9]。本次研究采用垂直等值進行分析。
下面以2015年和2016年的試卷為例進行等值分析,具體采用錨測驗法。錨測驗法的原理是:錨題分數相同的受測者,他們在原測驗上的分數被認為是等值的[10]。作為標準化考試,不同年份的試題要避免完全重復,這為選定錨題帶來了困難。作為意大利語的初級考試,知識點和語法點的介紹有限,試題專家在組卷時,將不同年份中包含相同知識點或語法點的試題給出專家預估難度值,經考生實測后,保留預估參數和實測參數一致的試題,在保留試題中將知識點或語法點相同且預估難度值一致的兩題視作錨題,2015年和2016年試卷中滿足這樣條件的錨題最終確認為13道,并計算兩年試卷中答對相同錨題數的考生試卷平均分,如表2所示。

表2 2015與2016年試卷中答對相同錨題數的考生試卷平均分對比

圖4 2015年與2016年平均分數散點圖


表3 成績統計表
本研究以經典測量理論和項目反應理論為指導,采用項目分析和測驗等值方法,對2010~2016年這7年的意大利語初級考試試題進行了質量分析。經典測量理論和項目反應理論下的試題難度的分析結果一致性很高,說明歷年考試的試題質量比較穩定。經典測量理論下的測驗等值和項目反應理論下的分析結果均顯示:各年學生的能力水平差異沒有發生顯著性變化。
意大利語作為非通用語種(俗稱小語種)[11],有其自身的學科特點,其等級考試質量分析要結合語言學、二語習得理論和自身的學科特點來加深理解考題的難度及區分度,以更科學、準確地評估試題的信度和效度,從而更有針對性地編制意大利語考試試題。
非通用語種是當前我國外語教育的重要組成部分,非通用語種的發展關系到國家的世界影響力和話語權[12]。意大利作為古代絲綢之路的終點和“一帶一路”海上絲綢之路的交匯點,“其重要性不言而喻,共同發展的前提離不開雙方的充分了解和良好的溝通,全方位的交流需要語言鋪路。”[13]作為唯一的國家公派留學意大利語命題單位,如何提高測試的科學性、準確性、系統性、動態性、保密性來保持測試的權威性,還需要做更深入的研究。
[1]Bock R D. A brief history of item response theory[J]. Educational Measurement,1997,(4):21-33.
[2]于忠躍.基于CTT和IRT比較的視覺空間推理測驗編制[D].杭州:浙江師范大學,2015:87.
[3](美)約瑟夫·M·瑞安著.杜承達,謝小慶譯.基于經典測量理論和項目反應理論的等值與連接——等值設計和經典測量理論等值程序[J].考試研究,2011,(2):83-95、11.
[4]李勇,田添.理想試題模型及試題質量的量化標準——基于經典測量理論[J].考試研究,2014(5):54-59、44.
[5]馮艷賓,馬洪超.關于經典測量理論和項目反應理論中難度和區分度的探討[J].中國考試,2012,(4):10-14.
[6]趙宇霞.本科法語專業初學者語言錯誤分析及教學對策[J].法國研究,2016,(4):93-100.
[7]賈冠杰,喬良文.英語專業碩士畢業論文的語言錯誤分析研究[J].外語界,2014,(3):63-69、96.
[8]吳煒.糾錯反饋策略與語言錯誤類型對學生糾錯質量的交互影響[J].當代外語研究,2015,(7):47-52、75.
[9]謝小慶.對15種測驗等值方法的比較研究[J].心理學報,2000,(2):217-222.
[10]一帆.測驗等值的類型和方法[J].教育測量與評價(理論版),2015,(6): 51.
[11]曹文娟.錨測驗難度參數方差特征對測驗等值誤差的影響研究[J].南昌:江西師范大學,2013:40.
[12]申霄.“一帶一路”建設語言培訓問題及建議[J].語言教育,2017,(4): 2-6.
[13]巴英龍.從小語種人才荒現象淺談一帶一路背景下小語種人才在區域經濟合作中的重要性[J].經貿實踐,2017,(19):29-30.
Analysis and Research on the Quality of Italian Language Test based on CTT and IRT
LIU Chun-hong
Drawing upon the Classical Testing Theory (CTT) and the Item Response Theory (IRT), and using item analysis techniques and test equivalence techniques, the research analyzed the difficulty and discrimination of the items extracted from preliminary Italian tests from 2010 to 2016. Then, a comparison on the difficulty and discrimination between IRT and CTT was carried out, and the stability of items was analyzed by using vertical equivalence techniques.Finally, combined the second language acquisition theory and the characteristics of the Italian language, strategies for improving the difficulty and discrimination of the test items were proposed. As the first domestic research on quality analysis of Italian test, this article could serve as a useful attempt to provide empirical basis for the preparation, establishment and improvement of the item bank construction of Italian language test.
classical testing theory (CTT); item response theory (IRT); national public Italian test; preliminary Italian test
G40-057
A
1009—8097(2018)08—0072—06
10.3969/j.issn.1009-8097.2018.08.011
本文受北京語言大學校級項目“中央高校基本科研業務費專項資金”(項目編號:16YJ090002)的資助。
劉春紅,講師,博士,研究方向為語言學與應用語言學、翻譯學,郵箱為liuchunhong@blcu.edu.cn。
2018年3月21日
編輯:小西