呂亮平



摘要:文章通過介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計情況,并且對其進(jìn)行信效度驗證,嘗試為德語教師在二外德語命題方面提供建議。
關(guān)鍵詞:語言測試;信度;效度;實證分析
中圖分類號:G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1674-9324(2020)10-0114-03
一、引言
德語作為第二外語在我國發(fā)展很快,但是對德語作為第二外語的測試研究卻不多。浙江水利水電學(xué)院商務(wù)英語專業(yè)從2015級學(xué)生開始實行二外德語教學(xué),為期兩個學(xué)期。由于目前還沒有針對二外德語的專門測試,開發(fā)能夠體現(xiàn)二外德語水平,向企業(yè)及高校提供真實二外德語水平的測試成為當(dāng)務(wù)之急。本文將介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計情況,并對其進(jìn)行信效度驗證,嘗試為德語教師在二外德語命題方面提供建議。
二、研究方法
1.研究的理論基礎(chǔ)。語言測試的信度即“測試結(jié)果的一致性”,即測試結(jié)果的可信度和可靠度(Bachman,1990)。語言測試的效度是指考試是否考查了所要考查的內(nèi)容,是否達(dá)到了所要達(dá)到的目的(Morrow,1986)。語言測試的效度包括內(nèi)容效度、表面效度、結(jié)構(gòu)效度等。信度和效度作為評判測試能否真正體現(xiàn)測試者水平的標(biāo)準(zhǔn),既相互獨立又相互制約。沒有信度就不可能存在效度,而具有信度的測試也不一定有效度。一個測試只有同時具備這兩個因素,才能真正體現(xiàn)測試者的實際水平。
2.研究對象。本研究的調(diào)查對象為浙江水利水電學(xué)院2016級商務(wù)英語專業(yè)1—3班的學(xué)生。這些學(xué)生來自全國各地,全部為統(tǒng)考統(tǒng)招生,大部分來自浙江省,英語基礎(chǔ)良好。這些學(xué)生學(xué)習(xí)二外德語的時間為1年。1班學(xué)生為24人,參加考試23人,有效試卷數(shù)23份;2班學(xué)生26人,參加考試26人,有效試卷數(shù)26份;3班學(xué)生23人,參加考試23人,有效試卷數(shù)23份。我院為了規(guī)范期末考試,每門課程采用A、B卷命題,每卷附有評分標(biāo)準(zhǔn),來保證閱卷的一致性和公正性。而本研究的72份有效試卷均來自A卷。該測試定位為診斷考試,目的是測試學(xué)生的語言能力,看他們是否掌握了課程大綱所規(guī)定的內(nèi)容和目標(biāo)。鑒于測試對象尚處于德語學(xué)習(xí)初期,測試主要為語言知識能力,說、讀、寫的能力,尚未涉及口語測試部分。
3.研究方法。本研究采用定性、定量的方法來檢驗測試的信效度。借助SPSS軟件來進(jìn)行數(shù)據(jù)分析,用α指標(biāo)來檢驗測試信度;從測試的內(nèi)容效度、結(jié)構(gòu)效度和表面效度等來檢驗測試效度。
三、結(jié)果分析
1.信度。從試題的量看,一共8個大題,共39個小題,考試時間為120分鐘。考試形式為開卷。經(jīng)過考試后的抽樣詢問,大部分學(xué)生表示能在規(guī)定時間內(nèi)完成試卷,說明時間分配和試題量是相符的,具體見表1。
從圖1的分?jǐn)?shù)分布來看,優(yōu)秀率(90分及以上)占9.7%,良好率(70—89分之間),占57%,及格率(60分及以上)占84.7%,不及格率(60分以下)占15.3%。數(shù)據(jù)基本符合正態(tài)分布的兩頭小、中間大的要求。
從試題的集中趨勢來看,結(jié)合圖2和其他數(shù)據(jù),如均值為75分,中位數(shù)為76.75,眾數(shù)為70,可以看出眾數(shù)、均值和中位數(shù)存在一定的差距,說明本次測試結(jié)果總體分布存在一定的負(fù)偏態(tài)。
從試卷的離散程度看,從全距、四分位全距和標(biāo)準(zhǔn)差來看,本次測試結(jié)果的離散程度較大。
利用α系數(shù)來計算信度,計算出該試卷的信度系數(shù)為0.752。通常Cronbach系數(shù)的值在0—1之間。如果α系數(shù)不超過0.6,一般認(rèn)為內(nèi)部一致信度不足;達(dá)到0.7—0.8時表示量表具有相當(dāng)?shù)男哦取S纱丝梢姡摐y試的信度較高。
2.效度。(1)內(nèi)容效度。內(nèi)容效度指測量工具內(nèi)容上(包括材料、題材、題目)的代表性或所選內(nèi)容樣本的充分性(Bachman,1990)。檢測試卷的內(nèi)容效度要看其考查內(nèi)容是否達(dá)到了它的考查目標(biāo)。從考題范圍上看,該試卷的內(nèi)容覆蓋了該學(xué)期教學(xué)大綱所涉及的內(nèi)容,考查了學(xué)生基本日常對話的口語能力以及自學(xué)能力。如對情態(tài)動詞、第三格和第四格、完成時和過去時等語法的掌握,對Essen und Trinken、Wohnen in Deutschland、Kaufen und Schenken、Freizeit und Ferien主題下詞匯和句式表達(dá)的運用,對以上主題的日常交際的掌握,所有材料的內(nèi)容覆蓋面廣,不過分集中于某一主題。從被測試的技能上看,測試了說、讀、寫的能力以及查閱文獻(xiàn)和自主學(xué)習(xí)的能力,都基本符合該門課程的測試目標(biāo)。所選材料和技能都在大綱規(guī)定的范圍內(nèi),具有內(nèi)容的關(guān)聯(lián)性,與教學(xué)大綱高度契合,說明了測試內(nèi)容的有效性。(2)結(jié)構(gòu)效度。在結(jié)構(gòu)效度上,采用了分項與整體分組之間的相關(guān)系統(tǒng)的計算進(jìn)行評價的方法。將學(xué)生總分和各個部分的成績輸入SPSS,計算出各部分之間的相關(guān)系數(shù),得出表2。從表2可以看出,學(xué)生總體得分幾乎與部分得分存在顯著相關(guān)性。編寫對話與其他題型相關(guān)程度不高,表明該題型與其他題型考查的語言能力存在較大差異,進(jìn)一步的研究發(fā)現(xiàn)編寫對話的短語和句式全部是課文對話練習(xí)中的句子,加上開卷考試的原因,那這部分考查的便不再是口語能力,而是運用和改寫的能力。詞匯填空、語法選擇題、改寫句子之間存在高度相關(guān),說明這兩個題型考查的都是同一種能力,即基礎(chǔ)語言知識。對話填空和閱讀理解相關(guān)度不低,說明考查的能力存在一致性。(3)表面效度。該試卷干凈整潔、印刷清晰;試題編排從易到難;篇幅長短合適,布局合理;主客觀題分開,便于改卷;試題題型常見,試題指令明確。因此,從卷面來看,具有表面可信度和公眾的可接受度,具有良好的表面效度。(4)真實性。真實性是指某一語言測試任務(wù)與實際語言運用任務(wù)在特征方面的對應(yīng)程度。在討論語言測試時,真實性永遠(yuǎn)是一個重要方面(Carroll,1980)。在本測試中涉及說、讀、寫的任務(wù)的設(shè)置,需要符合交際性測試的要求。在測試中,說、讀、寫的詞匯都是《大學(xué)德語課程教學(xué)要求》規(guī)定的范圍,內(nèi)容為日常生活范圍中句子結(jié)構(gòu)比較簡單和情節(jié)不太復(fù)雜的對話和場景等,具有真實性。但是口語能力是以編寫對話的形式出現(xiàn),有所欠缺;閱讀材料雖然來源于現(xiàn)實的語言內(nèi)容,但是考慮到學(xué)生的詞匯和語法掌握程度,做了部分改編。
四、對試卷的改進(jìn)建議
1.調(diào)整題型。試卷中客觀部分占了約60%,雖然是出于語言知識有限的考慮,但是適當(dāng)增加主觀題數(shù)量和分值,能使主客觀題分布更合理,也可以避免閱卷的主觀性和偏頗性。
2.增加綜合性考試題型。雖然目前階段沒有針對二外德語的專業(yè)測試,但是無論是德語中的德福考試、DSH考試還是大學(xué)德語登記考試,都明確要求學(xué)生具備在篇章層面上的理解和閱讀能力,考查考生對語言的整體掌握情況,而不是把某些知識作為單獨的部分進(jìn)行分散測試(翁震華,2016)。因此綜合性考試題型應(yīng)該作為語言考試中的主體,研究既有高效度又客觀的綜合性考試題是二外德語測試中必須加強(qiáng)的一方面。
3.增加口語考試。雖然口語考試組織的難度比較大,但是口語表達(dá)能力是反映學(xué)生整體語言能力的重要方面。口語考試部分的增加,會促進(jìn)學(xué)生對口語的重視,促使他們主動練習(xí),從而全面提升語言應(yīng)用能力。
通過分析可以得出,該測試的信效度高,可以為其他二外德語測試提供借鑒。但是,測試本身在題型分布、設(shè)置上還存在欠缺,對口語部分的測試也需要增加。希望能夠有統(tǒng)一的二外德語的測試標(biāo)準(zhǔn)出現(xiàn),能指導(dǎo)教師在二外德語測驗中的實踐。
參考文獻(xiàn):
[1]Bachman L.F.Fundamental COnsideration in Language Testing[M].Oxford,UK:OUP,1990.
[2]Carrol,B.J.Testing communicative competence[J].Annual Review of Applied Linguistics,1980.
[3]Morrow K.The evaluation of tests of communicative performance[A].In Mportl(Ed).Innovations in Language Testing[C].Londeon NFER/Nelson,1986.
[4]翁震華.德國“德語作為外語”測試的研究及其啟示——以入學(xué)德國高校德語考試為例[J].中國考試,2016.
[5]全國大學(xué)德語四、六級考試委員會.大學(xué)德語四級考試大綱[M].上海:上海外語教育出版社,2010.
[6]教育部高等學(xué)校大學(xué)外語教學(xué)指導(dǎo)委員會德語組.大學(xué)德語課程教學(xué)要求[M].北京:高等教育出版社,2010.
[7]施俊,楊勇.基于統(tǒng)計軟件SPSS的試卷質(zhì)量分析[J].電腦知識與技術(shù),2017.
An Empirical Analysis of the Reliability and Validity of the German Language Test
—Taking the Final Examination of German as an Example
LV Liang-ping
(Zhejiang University of Water Resources and Electric Power,Hangzhou,Zhejiang 310018, China)
Abstract:This paper introduces the design of the final examination paper of German as a second foreign language in Zhejiang University of Water Resources and Electric Power,and verifies its reliability and validity,trying to provide suggestions for German teachers in the field of German as a second foreign language proposition.
Key words:language test;reliability;validity;empirical analysis