二外德語語言測試信效度的實證分析

2020-04-01 15:08:07呂亮平

教育教學(xué)論壇 2020年10期

關(guān)鍵詞：實證分析

呂亮平

摘要：文章通過介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計情況，并且對其進(jìn)行信效度驗證，嘗試為德語教師在二外德語命題方面提供建議。

關(guān)鍵詞：語言測試;信度;效度;實證分析

中圖分類號：G642.0? ? ?文獻(xiàn)標(biāo)志碼：A? ? ?文章編號：1674-9324（2020）10-0114-03

一、引言

德語作為第二外語在我國發(fā)展很快，但是對德語作為第二外語的測試研究卻不多。浙江水利水電學(xué)院商務(wù)英語專業(yè)從2015級學(xué)生開始實行二外德語教學(xué)，為期兩個學(xué)期。由于目前還沒有針對二外德語的專門測試，開發(fā)能夠體現(xiàn)二外德語水平，向企業(yè)及高校提供真實二外德語水平的測試成為當(dāng)務(wù)之急。本文將介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計情況，并對其進(jìn)行信效度驗證，嘗試為德語教師在二外德語命題方面提供建議。

二、研究方法

1.研究的理論基礎(chǔ)。語言測試的信度即“測試結(jié)果的一致性”，即測試結(jié)果的可信度和可靠度（Bachman，1990）。語言測試的效度是指考試是否考查了所要考查的內(nèi)容，是否達(dá)到了所要達(dá)到的目的（Morrow，1986）。語言測試的效度包括內(nèi)容效度、表面效度、結(jié)構(gòu)效度等。信度和效度作為評判測試能否真正體現(xiàn)測試者水平的標(biāo)準(zhǔn)，既相互獨立又相互制約。沒有信度就不可能存在效度，而具有信度的測試也不一定有效度。一個測試只有同時具備這兩個因素，才能真正體現(xiàn)測試者的實際水平。

2.研究對象。本研究的調(diào)查對象為浙江水利水電學(xué)院2016級商務(wù)英語專業(yè)1—3班的學(xué)生。這些學(xué)生來自全國各地，全部為統(tǒng)考統(tǒng)招生，大部分來自浙江省，英語基礎(chǔ)良好。這些學(xué)生學(xué)習(xí)二外德語的時間為1年。1班學(xué)生為24人，參加考試23人，有效試卷數(shù)23份;2班學(xué)生26人，參加考試26人，有效試卷數(shù)26份;3班學(xué)生23人，參加考試23人，有效試卷數(shù)23份。我院為了規(guī)范期末考試，每門課程采用A、B卷命題，每卷附有評分標(biāo)準(zhǔn)，來保證閱卷的一致性和公正性。而本研究的72份有效試卷均來自A卷。該測試定位為診斷考試，目的是測試學(xué)生的語言能力，看他們是否掌握了課程大綱所規(guī)定的內(nèi)容和目標(biāo)。鑒于測試對象尚處于德語學(xué)習(xí)初期，測試主要為語言知識能力，說、讀、寫的能力，尚未涉及口語測試部分。

3.研究方法。本研究采用定性、定量的方法來檢驗測試的信效度。借助SPSS軟件來進(jìn)行數(shù)據(jù)分析，用α指標(biāo)來檢驗測試信度;從測試的內(nèi)容效度、結(jié)構(gòu)效度和表面效度等來檢驗測試效度。

三、結(jié)果分析

1.信度。從試題的量看，一共8個大題，共39個小題，考試時間為120分鐘。考試形式為開卷。經(jīng)過考試后的抽樣詢問，大部分學(xué)生表示能在規(guī)定時間內(nèi)完成試卷，說明時間分配和試題量是相符的，具體見表1。

從圖1的分?jǐn)?shù)分布來看，優(yōu)秀率（90分及以上）占9.7%，良好率（70—89分之間），占57%，及格率（60分及以上）占84.7%，不及格率（60分以下）占15.3%。數(shù)據(jù)基本符合正態(tài)分布的兩頭小、中間大的要求。

從試題的集中趨勢來看，結(jié)合圖2和其他數(shù)據(jù)，如均值為75分，中位數(shù)為76.75，眾數(shù)為70，可以看出眾數(shù)、均值和中位數(shù)存在一定的差距，說明本次測試結(jié)果總體分布存在一定的負(fù)偏態(tài)。

從試卷的離散程度看，從全距、四分位全距和標(biāo)準(zhǔn)差來看，本次測試結(jié)果的離散程度較大。

利用α系數(shù)來計算信度，計算出該試卷的信度系數(shù)為0.752。通常Cronbach系數(shù)的值在0—1之間。如果α系數(shù)不超過0.6，一般認(rèn)為內(nèi)部一致信度不足;達(dá)到0.7—0.8時表示量表具有相當(dāng)?shù)男哦取Ｓ纱丝梢姡摐y試的信度較高。

2.效度。（1）內(nèi)容效度。內(nèi)容效度指測量工具內(nèi)容上（包括材料、題材、題目）的代表性或所選內(nèi)容樣本的充分性（Bachman，1990）。檢測試卷的內(nèi)容效度要看其考查內(nèi)容是否達(dá)到了它的考查目標(biāo)。從考題范圍上看，該試卷的內(nèi)容覆蓋了該學(xué)期教學(xué)大綱所涉及的內(nèi)容，考查了學(xué)生基本日常對話的口語能力以及自學(xué)能力。如對情態(tài)動詞、第三格和第四格、完成時和過去時等語法的掌握，對Essen und Trinken、Wohnen in Deutschland、Kaufen und Schenken、Freizeit und Ferien主題下詞匯和句式表達(dá)的運用，對以上主題的日常交際的掌握，所有材料的內(nèi)容覆蓋面廣，不過分集中于某一主題。從被測試的技能上看，測試了說、讀、寫的能力以及查閱文獻(xiàn)和自主學(xué)習(xí)的能力，都基本符合該門課程的測試目標(biāo)。所選材料和技能都在大綱規(guī)定的范圍內(nèi)，具有內(nèi)容的關(guān)聯(lián)性，與教學(xué)大綱高度契合，說明了測試內(nèi)容的有效性。（2）結(jié)構(gòu)效度。在結(jié)構(gòu)效度上，采用了分項與整體分組之間的相關(guān)系統(tǒng)的計算進(jìn)行評價的方法。將學(xué)生總分和各個部分的成績輸入SPSS，計算出各部分之間的相關(guān)系數(shù)，得出表2。從表2可以看出，學(xué)生總體得分幾乎與部分得分存在顯著相關(guān)性。編寫對話與其他題型相關(guān)程度不高，表明該題型與其他題型考查的語言能力存在較大差異，進(jìn)一步的研究發(fā)現(xiàn)編寫對話的短語和句式全部是課文對話練習(xí)中的句子，加上開卷考試的原因，那這部分考查的便不再是口語能力，而是運用和改寫的能力。詞匯填空、語法選擇題、改寫句子之間存在高度相關(guān)，說明這兩個題型考查的都是同一種能力，即基礎(chǔ)語言知識。對話填空和閱讀理解相關(guān)度不低，說明考查的能力存在一致性。（3）表面效度。該試卷干凈整潔、印刷清晰;試題編排從易到難;篇幅長短合適，布局合理;主客觀題分開，便于改卷;試題題型常見，試題指令明確。因此，從卷面來看，具有表面可信度和公眾的可接受度，具有良好的表面效度。（4）真實性。真實性是指某一語言測試任務(wù)與實際語言運用任務(wù)在特征方面的對應(yīng)程度。在討論語言測試時，真實性永遠(yuǎn)是一個重要方面（Carroll，1980）。在本測試中涉及說、讀、寫的任務(wù)的設(shè)置，需要符合交際性測試的要求。在測試中，說、讀、寫的詞匯都是《大學(xué)德語課程教學(xué)要求》規(guī)定的范圍，內(nèi)容為日常生活范圍中句子結(jié)構(gòu)比較簡單和情節(jié)不太復(fù)雜的對話和場景等，具有真實性。但是口語能力是以編寫對話的形式出現(xiàn)，有所欠缺;閱讀材料雖然來源于現(xiàn)實的語言內(nèi)容，但是考慮到學(xué)生的詞匯和語法掌握程度，做了部分改編。

四、對試卷的改進(jìn)建議

1.調(diào)整題型。試卷中客觀部分占了約60%，雖然是出于語言知識有限的考慮，但是適當(dāng)增加主觀題數(shù)量和分值，能使主客觀題分布更合理，也可以避免閱卷的主觀性和偏頗性。

2.增加綜合性考試題型。雖然目前階段沒有針對二外德語的專業(yè)測試，但是無論是德語中的德福考試、DSH考試還是大學(xué)德語登記考試，都明確要求學(xué)生具備在篇章層面上的理解和閱讀能力，考查考生對語言的整體掌握情況，而不是把某些知識作為單獨的部分進(jìn)行分散測試（翁震華，2016）。因此綜合性考試題型應(yīng)該作為語言考試中的主體，研究既有高效度又客觀的綜合性考試題是二外德語測試中必須加強(qiáng)的一方面。

3.增加口語考試。雖然口語考試組織的難度比較大，但是口語表達(dá)能力是反映學(xué)生整體語言能力的重要方面。口語考試部分的增加，會促進(jìn)學(xué)生對口語的重視，促使他們主動練習(xí)，從而全面提升語言應(yīng)用能力。

通過分析可以得出，該測試的信效度高，可以為其他二外德語測試提供借鑒。但是，測試本身在題型分布、設(shè)置上還存在欠缺，對口語部分的測試也需要增加。希望能夠有統(tǒng)一的二外德語的測試標(biāo)準(zhǔn)出現(xiàn)，能指導(dǎo)教師在二外德語測驗中的實踐。

參考文獻(xiàn)：

[1]Bachman L.F.Fundamental COnsideration in Language Testing[M].Oxford，UK：OUP，1990.

[2]Carrol，B.J.Testing communicative competence[J].Annual Review of Applied Linguistics，1980.

[3]Morrow K.The evaluation of tests of communicative performance[A].In Mportl（Ed）.Innovations in Language Testing[C].Londeon NFER/Nelson，1986.

[4]翁震華.德國“德語作為外語”測試的研究及其啟示——以入學(xué)德國高校德語考試為例[J].中國考試，2016.

[5]全國大學(xué)德語四、六級考試委員會.大學(xué)德語四級考試大綱[M].上海：上海外語教育出版社，2010.

[6]教育部高等學(xué)校大學(xué)外語教學(xué)指導(dǎo)委員會德語組.大學(xué)德語課程教學(xué)要求[M].北京：高等教育出版社，2010.

[7]施俊，楊勇.基于統(tǒng)計軟件SPSS的試卷質(zhì)量分析[J].電腦知識與技術(shù)，2017.

An Empirical Analysis of the Reliability and Validity of the German Language Test

—Taking the Final Examination of German as an Example

LV Liang-ping

（Zhejiang University of Water Resources and Electric Power，Hangzhou，Zhejiang 310018， China）

Abstract：This paper introduces the design of the final examination paper of German as a second foreign language in Zhejiang University of Water Resources and Electric Power，and verifies its reliability and validity，trying to provide suggestions for German teachers in the field of German as a second foreign language proposition.

Key words：language test;reliability;validity;empirical analysis