德國COMET評分量表在我國應用的多面Rasch模型分析

2017-03-14 08:37:20何興國趙志群何壯

職業技術教育 2016年25期

何興國?趙志群?何壯

摘要德國COMET評分量表是職業能力測評的重要評價工具，其蘊含著設計導向的職業教育思想和綜合職業能力的人才培養目標，對我國職業教育評價及改革都具有重要借鑒意義。運用項目反應理論之多面Rasch模型，對COMET評分量表在我國學生職業能力測評中的適用性進行了分析。結果表明：COMET評分量表總體區分度較高，能夠有效地區分我國職業教育背景下的學生職業能力水平；我國學生對COMET評分量表部分項目存在著不適應現象，部分學生答題行為內部一致性較差；我國教師對COMET評分量表寬嚴尺度把握內部一致性較好，但不同評分教師個體之間的寬嚴程度還存在差異；評分教師與評分項目交互作用也存在一些顯著偏差。

關鍵詞 COMET評分量表；多面Rasch模型；項目分析；職業能力測評；職業院校

中圖分類號 G719.516 文獻標識碼 A 文章編號 1008-3219（2016）25-0069-06

一、問題的提出

起源于德國的職業教育學生職業能力測評國際研究項目（Competence Development and Assessment in TVET，COMET），對職業能力的理解超越了行為主義和一般個性特征的能力觀，將其理解為專業能力、方法能力和社會能力相統一，行動過程和行動結果相統一的綜合職業能力，其以設計導向職業教育思想、行動導向教學、工作過程知識等先進的職業教育理論為基礎，構建了跨職業領域的職業能力測評模型[1]。COMET項目于2008年對德國不萊梅州和黑森州9所職業學校700名學生進行了大規模標準化職業能力測評，為職業院校學生職業能力測評提供了新的視角和方法，被認為是職業教育領域的“PISA”項目，得到了國際社會的廣泛關注[2]。2009年以來，北京師范大學在國際合作項目中引入COMET測評方案，在北京、廣州、重慶等地多次開展學生職業能力測評實踐，為我國職業院校學生職業能力評估提供了新的方法，也為我國職業教育質量保障提供了有效的工具[3]。

COMET評分量表是職業能力測評的重要評價工具，其蘊含和體現了德國設計導向的職業教育思想和綜合職業能力的人才培養目標。即培養的職業人才不僅要具有技術適應能力，而且更重要的是應對能力，本著對社會、經濟和環境負責的態度，參與設計和創造未來的技術和勞動世界；具有專業能力、方法能力和社會能力相統一的整體性綜合職業能力，即在復雜的職業情境中做出判斷并采取行動的職業能力。正是以此思想為指導和目標，COMET評分量表建立了八個評價維度的評價體系，以評估學生職業能力輪廓和職業能力水平。一是“直觀性與可展示性”，即通過語言或文字描述，利用圖紙條理清晰、結構合理地向委托方展示解決方案以及完成工作任務后的結果。二是“功能性”，即工具性的專業能力、與具體情境無關的學科知識以及專業技能。三是“使用價值導向”，即以職業為導向，除滿足用戶直接使用要求外，還要考慮后期保養和維修的便利性。四是“經濟性”，即在工作行動中，需要估算經濟性并考慮各種成本因素，并考慮未來可能產生的使用成本。五是“生產流程與工作過程導向”，即考慮企業的上下級結構以及不同生產部門之間的銜接，考慮跨越每個人工作領域的部門間合作。六是“社會接受度”，即人性化的工作設計與組織、健康保護以及其他超越工作本身的社會因素，例如委托方、客戶和社會的不同利益。七是“環保性”，即不僅指一般的環保意識，而且針對生產過程和生產結果提出的特定要求，使用了對環境無害的材料，以及完成工作的計劃多大程度上符合環保要求。八是“創造性”，即在特定情境下為完成任務預留的高度設計空間，解決方案在滿足創造性要求的同時要有助于目標的實現。COMET評分量表的八個評價維度充分體現了設計導向的職業教育思想和綜合職業能力目標，并進一步細化為39個評分項目，見表1，每個項目評分采用0～3分的李克特四級計分，依次為“完全不符合”“基本不符合”“基本符合”“完全符合”[4]。

COMET評分量表是在德國職業教育文化中開發出來并得到實證檢驗，引進COMET評分量表對我國開展學生職業能力測評和教學改革都具有重要的現實意義。然而，基于不同的職業教育理念和文化背景，COMET評分量表在我國應用中的適應性還有待研究。本研究將通過COMET測評方案下的我國職業院校學生職業能力測評實踐，探討COMET評分量表在我國的適用性，具體包括COMET評分量表的區分性、學生答題行為一致性、評分教師之間的一致性、評分教師內部一致性、評分教師與評分項目的交互作用等問題。

二、研究方法

（一）數據來源

本次研究所使用的是重慶市2014年6月中等職業學校汽車運用與維修專業學生職業能力監測數據。測評工作由重慶市教育評估院統一組織實施，共抽取25所學校的786名2012級在校學生參與測評。選擇2012級學生，原因在于2012級學生經過兩年的專業學習，處于職業能力發展的關鍵時期，了解其職業能力現狀對檢驗教學效果及進一步改進教學均具有重要的現實意義。

根據COMET測評方案，本次測評開發并使用了基于該專業典型工作任務的綜合測評工具：“發動機水溫高排故”。共有16位教師參與評分，每份試卷由隨機2位教師評定。評分教師接受了評分培訓，根據COMET評分量表的39個項目進行評分。

（二）研究工具

多面Rasch模型（Many-Faceted Rasch Model， MFRM）是項目反應理論模型之一，可以將學生職業能力、評分教師寬嚴程度、評分項目難度、評分等級梯難度等放在同一等距水平的Logit標尺上進行精確度量，計算每個度量值的估算誤差、擬合程度以及各層面的交互作用，為評分量表以及測驗質量分析提供了更加客觀的視角。因此，研究選取該模型進行參數估計，建立了以下分析模型：

其中，Pnijk是學生n由評分員j在項目i上評為k分的概率，Pnij（k-1）為其他條件相同情況下該學生被評為k-1分的概率。這一概率受到考生能力Bn、評分項目難度Di、評分教師寬嚴程度Cj和評分量表中各得分梯難度Fk的影響（由K-1到K的相對難度）。

本研究采用SPSS 22對收集到的原始數據進行管理，使用Facets 3.70軟件，選擇多面Rasch模型（Many-Facet Rasch Model， MFRM）進行參數估計，結果主要包括學生職業能力、測量誤差、擬合指數、項目難度、等級量表梯難度、各面之間的交互作用等。

三、結果與討論

（一）總體分析

圖1顯示了各層面的總體分布情況。圖左側第一列為Rasch量尺，以Logit為單位。分析中將評分項目的平均難度設定為Rasch量尺的零點。第二列至第五列分別為學生面、評分項目面、評分教師面和評分量表等級面。

從學生面來看，學生職業能力跨度為5.38個Logit單位，職業能力最高值為1.02，最低值為-4.26。學生職業能力集中在[-1，0]區間內，占總人數的71.5%。學生職業能力平均值為-1.13，低于評分項目平均難度值0。

從評分教師面來看，16名評分教師中評分最嚴格的是5號教師，評分最寬松的是11號教師。教師評分的寬嚴程度相差在1.26個Logit單位以內。

從評分項目面來看，評分項目難度的跨度為5.7個Logit單位，評分項目難度分布合理，“環保性”的評分項目32（考慮到環境友好的工作設計）難度值最高，這表明該項目的完成對學生職業能力要求高，只有職業能力值達到該項目難度（3.22）的學生才可能勝任該項目。“直觀性與可展示性”的評分項目2（恰當表述解決方案）、“功能性”的評分項目6（解決方案滿足功能性要求）難度值最低，這表明該項目的完成對學生職業能力要求最低，只要職業能力達到對應難度的學生就可以勝任該項目。

從評分量表等級面來看，在分值使用方面，各分值與臨近分值之間的界限清楚，且相鄰幾個等級區間的寬度分布比較均勻，見圖2，不存在等級倒置（disorder[5]）的現象。

（二）分層面分析

1.學生面

Rasch模型中以分隔系數（Separation）和分隔信度（Reliability）來衡量某一層面個體之間的差異是否大于測量誤差[6]。分隔系數大于2時說明個體之間存在較大差異，分隔系數越大則個體間差異越顯著。學生面分析結果顯示，分隔系數為3.06、分隔信度為0.90、卡方值為7770.7（p<0.01），這說明學生職業能力存在顯著差異。分隔指數（Strata ）代表了量表將該層面內個體分成有顯著差異的等級數，可根據分隔信度計算得到，計算公式為（4·Separation+1）/3[7]。經計算可得學生層面的分隔指數為4.41，即學生職業能力可分為5個顯著不同的層次，這表明COMET評分量表可以有效區分不同職業能力水平的學生。

Rasch模型中最常用的擬合參數為加權均方差（Infit MNSQ）和未加權均方差（Outfit MNSQ）。兩個參數取值范圍在[0，+∞]之間，理想值為1。擬合參數大于1稱為不擬合（underfit），即數據的實際變異大于模型的預期，當高能力學生答錯了簡單項目或低能力學生答對了高難度項目時會出現不擬合的情況。擬合參數小于1稱為過度擬合（overfit），即數據的實際變異小于模型的預期[8]。當項目難度分布太偏向兩個極端，即項目分為太難和太容易的兩大類，中等能力的學生全部答對了簡單題目，全部答不出難的題目時就會出現過度擬合。擬合參數的取值一般在[0.7，1.3]之間[9]，每個面中不擬合的個體數量一般應在5%以下[10]。從此次測評的學生擬合參數來看，Infit MNSQ值大于1.3的比例為16%，Outfit MNSQ的相應比例為17%，明顯高于5%的要求。這說明部分學生答題行為內部一致性較差，進一步調查發現，當前中職課程教學活動中教育者更多關注技術的功能性傳授，缺乏對技術所涉及的社會和環境問題的關注，這可能導致學生在難度中等的技術的功能性、經濟性評分項目表現較好，而在難度較低的直觀性與可展示性評分項目，以及難度較高的環保性、社會接受度評分項目上表現過低。這就是中國職業教育理念下學生對COMET評分量表部分項目存在的不適應現象。

2.評分教師面

評分教師面的分析結果顯示，分隔系數為8.57、分隔信度為0.99、卡方值為1177.4（p<0.01），說明教師之間的寬嚴程度存在著顯著差異。計算可得教師面的分隔指數為11.76，亦即教師之間打分的寬嚴程度可以分為12個顯著不同的層次，這說明評分教師外部一致性不佳。

從擬合參數來看，僅有5號教師出現不擬合，其Outfit MNSQ值為1.31，非常接近1.3的擬合標準，這表明教師在評分時都能保持較高的內部一致性。總體來說評分教師個體評分素質較高、經驗豐富，經過評分培訓，能夠保持較高的內部一致性。但是不同教師之間，對COMET評分量表的整體理解和把握還存在著一定的差異，特別是表現在評分過程中不同評分教師個體之間的寬嚴程度存在較大差異。

3.評分項目面

評分項目面分析結果顯示，分隔系數為7.17、分隔信度為0.98、卡方值為26361.3（p<0.001），說明評分項目之間的難度存在著顯著差異。計算可得分隔指數為9.89，亦即項目難度可以分為10個顯著不同的層次。這也充分表明COMET評分量表區分度較高，能夠有效地區分不同能力水平的學生。從擬合參數估計結果可以看出，大多數項目的Outfit MNSQ和Infit MNSQ參數都在0.7～1.3的可接受范圍之內，擬合效果良好，僅“直觀性與可展示性”的評分項目1（方案表述適合與委托方溝通）和“環保性”的評分項目31（考慮到所用材料符合環境可持續發展的要求）出現不擬合的情況，其Outfit MNSQ和Infit MNSQ參數分別為1.46、1.45和1.42、1.19，即在這兩個評分項目上，出現了高能力學生得低分，或低能力學生得高分的現象。原因可能在于，我國職業教育理念下的學生對于這兩個評分項目的敏感性不強，在答題過程中無意或潛意識行為較多，因而出現了不擬合現象，這也說明這兩個評分項目不能有效區分我國職業教育背景下的學生職業能力。

4.評分等級面

圖2為各評分等級的概率曲線圖，圖中每條曲線對應一個分值。從左至右依次為0、1、2、3。橫軸為能力量尺，縱軸為概率。圖中相鄰兩個分數的交點就是量表的閾值（Thresholds）。從左至右三個交點分別對應三個閾值：-3.48、-0.07和3.54。由于能力越高的學生獲得高分數的概率應當更大，所以梯難度應當呈遞增趨勢。數據分析結果表明，COMET評分量表不存在低分梯難度高于高分梯難度的等級倒置現象[11]。同時三個閾值將整個Rasch能力量尺劃分為四個能力區間，每個能力區間對應一條概率曲線的峰值，在此能力區間內的學生最容易得相應得分值。例如代表1分的概率曲線峰值對應的能力區間為[-3.48，-0.07]，所以能力在此區間內的學生得1分的可能性最高。兩端的區間可以延伸到無窮大或無窮小，中間兩個區間的跨度為3.41和3.61。Rasch理論認為，這一區間的理想寬度為1個Logit，最大不超過4個Logit單位[12]。本次研究中COMET評分量表的兩個區間分布比較平均，寬度都在4 Logit以內，沒有出現某一區間過大或過小的現象。此外，四個分數等級的擬合參數在[0.9，1.2]之間，不存在不擬合或過度擬合。綜合評分等級面的統計結果，說明COMET測評的評分等級方案設計合理，可以有效區分不同能力水平的我國職校學生。

5.教師與評分項目交互作用的偏差分析

評分教師的Infit和Outfit參數表明了教師評分的自身一致性程度。對教師與評分項目的交互作用分析，可以進一步了解中國教師在特定評分項目上的一致性程度。多面Rasch模型中以Z值的大小來判定交互作用的大小，一般認為|Z|>2時存在顯著偏差，顯著偏差占項目比例在5%以內為可接受范圍。當Z值大于2時說明該教師對此學生打分顯著嚴格；相反，當Z值小于-2時說明該教師對此學生打分顯著寬松。

教師與評分項目的交互分析表明，實驗偏差項目共有624個，其中顯著偏差項目272個，占43.59%。其中，偏差超過10個的評分項目有“直觀性與可展示性”的評分項目1（方案表述適合與委托方溝通），“功能性”的評分項目7（考慮到當前先進技術）、項目9（從職業活動角度說明解決方案）和項目10（所表述和解釋的方案正確），“使用價值導向性”的評分項目12（方案考慮到使用的持久性和功能擴展的可能性）。這表明評分教師在評價這些項目時與其他項目的尺度不一致，其原因一方面在于教師自身偏好等因素，另一方面也在于這些項目內涵難以把握，例如界定方案表述的適合性，從職業活動的角度說明方案，使用價值的持久性和功能的可擴展性等。這也提示應增進和統一評分教師對這些項目在我國職業教育背景下內涵的理解，特別應進一步貫徹“職業教育的學習內容是工作”的職業教育理念，增進教師對職業教育內容的“職業性”理解，而不僅僅是從狹義的“技術”角度理解學習內容。

四、結論

運用現代教育測量項目反應理論的多面Rasch模型分析，對COMET評分量表在中國的適用性研究有以下發現：

COMET評分量表總體區分度較高，能夠有效地區分我國職業教育背景下的學生職業能力水平。評分項目難度差異顯著，區分性強；評分等級設置合理，不存在低分閾值高于高分閾值的等級倒置現象。

我國職業院校學生對COMET評分量表的個別項目還存在不適應現象，部分學生答題行為存在內部一致性較差現象，主要表現在“直觀性與可展示性”的評分項目1（方案表述適合與委托方溝通）和“環保性”的評分項目31（考慮到所用材料符合環境可持續發展的要求）等方面。其原因在于我國職業教育實踐界多持行為主義職業能力觀，重視技術的功能性教學，而忽視了技術的環保性、社會接受度和顧客導向等方面的培養，學生對這些評分項目的敏感性不強。這提示我國職業教育應進一步建立設計導向的職業教育思想和綜合職業能力目標，不僅要培養學生對技術的功能性意識與能力，還要培養學生對于技術的環保性、社會授受度和顧客導向等的意識和能力，也就是對技術的社會性設計的能力。

我國職業教育教師對COMET評分量表寬嚴尺度把握內部一致性較好，但不同評分教師個體之間的寬嚴程度還存在著較大差異。交互作用分析發現，教師個體之間的評分寬嚴程度差異突出表現在“直觀性與可展示性”的評分項目1（方案表述適合與委托方溝通），“功能性”的評分項目7（考慮到當前先進技術）、項目9（從職業活動角度說明解決方案）和項目10（所表述和解釋的方案正確），“使用價值導向性”的評分項目12（方案考慮到使用的持久性和功能擴展的可能性）等方面。這也表明，應加強我國教師對職業教育本質內涵的理解：職業教育的學習內容是工作，而不僅僅是從狹義的無任何社會關聯的“技術”，進一步增進和統一評分教師對項目評價尺度的把握。

參考文獻

[1][4]Rauner F， Maurer L H A. Competence Development and Assessment in TVET （COMET）[M]. Springer， 2013：47-50.

[2]Fischer M， Rauner F， Zhao Z. Kompetenzdiagnostik in der Beruflichen Bildung-Methoden zum Erfassen und Entwickeln beruflicher Kompetenz： COMET auf dem Prüfstand[M]. Muenster： LIT， 2014：2.

[3]趙志群，莊榕霞.職業院校學生職業能力測評研究[J].職教論壇，2013（3）：4-7.

[5]Linacre J M. Optimizing Rating Scale Category Effectiveness[J]. J Appl Meas， 2002，3（1）：85-106.

[6]Myford C M， Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement： Part I[J]. Journal of Applied Measurement， 2003， 4（4）： 386-422.

[7]Myford C M， Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement： Part II[J]. Journal of Applied Measurement， 2004， 5（2）： 189-227.

[8]晏子.心理科學領域內的客觀測量——Rasch模型之特點及發展趨勢[J].心理科學進展，2010（8）：1298-1305.

[9]Mok M M C， Cheong C Y， Moore P J， et al. The Development and Validation of the Self-directed Learning Scales （SLS）.[J]. Journal of Applied Measurement， 2006，7（4）：418-449.

[10]張潔. PETS三級口語考試評分誤差研究——結合定量統計和定性描述的方法[J]. 外語測試與教學，2012（2）：33-42.

[11]何壯，趙守盈.技能評分項目裁判員評分結果的多面Rasch模型分析——項目反應理論在體育運動領域的應用[J].成都體育學院學報，2014（3）：43-48.

[12]Linacre J M. Investigating Rating Scale Category Utility[J]. Journal of Outcome Measurement， 1999，3（2）：103-122

Analysis of Application of German COMET Score Scale in China Context with the Many-Faceted Rasch Model

He Xingguo， Zhao Zhiqun， He Zhuang

Abstract German COMET score scale based the guideline of design orientation and comprehensive professional competence is an important evaluation tool for professional competence evaluation， and it is of great significance to the evaluation and reform of Vocational Education in our country. The applicability of German COMET score scale was analyzed in the context of Chinese students' professional competence evaluation with the Many-Facet Rasch Model. The results showed that the COMET score scale had higher differential validity， and could differentiate Chinese students' professional competence； there was the question of adaption of some items on Chinese students； some students answers had poor internal consistency； Chinese teachers had good internal consistency on the COMET score scale， but there was significant difference between teacher individual， and some biases also existed in the interaction between teachers and items.

Key words COMET score scale； Many-Faceted Rasch Model； item analysis； professional competence evaluation； vocational colleges

Author He Xingguo， PhD student of Beijing Normal University（Beijing 100875）； Zhao Zhiqun， professor of Beijing Normal University； He Zhuang， Beijing Normal University