基于多面Rasch模型的大學教師課堂教學能力評價量表優化研究

2015-09-21 04:45:22盛艷燕喻秋山

高教探索 2015年9期

關鍵詞：優化

盛艷燕+喻秋山

摘要：文章利用多面Rasch模型從量表使用者角度研究了大學教師課堂教學能力評價量表的優化問題。實證研究發現，量表具有單維性，但2個題項存在性別上的不公平、7個題項存在分數能力“倒掛”現象。訪談和扎根編碼分析后發現，量表內容、尺度和形式是產生分數能力“倒掛”的原因。因此，基于多面Rasch模型的假設和功能，量表優化應以多面Rasch模型檢驗結果為依據，采取簡化題項內容、分離尺度與權重并細化評分等級的措施。

關鍵詞：多面Rasch模型;課堂教學能力評價量表;優化

大學教師課堂教學能力評價是提高教學質量的重要手段，其活動的開展離不開課堂教學能力評價量表這個載體。①目前，大學教師課堂教學能力評價量表在教學管理中得到了廣泛應用，卻沒有表現出管理方所期待的價值：分數能夠區分教師的課堂教學能力，兼顧課程難度和評委差異。產生這種現象的原因不能僅僅歸結于評委誤差，課堂教學能力評價量表的設計也是其中一個重要的影響因素。如何優化量表、提高量表的應用價值成為管理方迫切需要解決的問題。

已有研究者試圖通過評價指標的優化來解決大學教師課堂教學能力評價量表優化問題，其研究包括三個方面。第一，引入平衡計分卡、產出分解法確定初始指標。[1][2]第二，通過克隆巴赫系數檢驗量表的信度、因子分析法檢驗指標的構建效度，改進權重設計等方法來優化量表。[3][4][5]第三，通過評價結果的反饋、數據標準化處理和選擇教學和管理經驗豐富、公平、公正的評教專家等方式提高量表的應用價值。[6][7][8]

上述研究成果大多數從指標本身出發研究大學教師課堂教學能力評價量表優化問題，忽視了量表的使用者。面試理論認為，面對相同的評分標準，評委對評分標準的理解和使用往往是不一致的 [9]，評委并未完全按照評分標準評分[10]，不同形式的評分標準影響評分的一致性[11]。語言學研究發現，評分標準的內容、尺度和形式在一定程度上能解釋評委評分差異。[12][13]在大學教師課堂教學能力評價中，Wang 和Cheng利用多面Rasch模型分析了中山大學293名學生對30名任課教師表現的評分，發現學生嚴苛程度、難度和教師效能之間存在線性關系，評價者對評價結果的影響是顯著的。[14]因此，從量表使用者角度分析大學教師課堂教學能力評價量表的設計內容、尺度和形式對評價結果的影響，進而優化量表是非常有必要的。

多面Rasch模型為量表優化提供了可行的方法，在大學教師課堂教學能力評價中應用非常少。本文將多面Rasch模型引入大學教師課堂教學能力評價量表的優化，在已有研究成果基礎上作出了三點創新：第一，研究角度創新。研究角度從量表本身轉向量表的使用者，拓展了研究的角度。第二，研究對象創新。利用訪談和扎根編碼技術探討了評委評分的心理過程，分析量表內容、尺度和形式對評分的影響。第三，研究結論創新。本文基于多面Rasch模型的假設和功能提出了量表優化的方法，具有普遍適用性。

一、理論模型與研究假設

能力測評理論可以分為經典測量理論和潛在特質理論。經典測量理論假設評委評分的行為像“打分機器”一樣完全相同[15]，測量誤差相互獨立，被測心理特質可以用原始分數來表示[16]。潛在特質理論認為能力是制約人們完成某一任務的若干潛在特質，正確做答的概率是個人潛在特質水平的函數[17]，評委評分是考生能力和評委特點的函數[18]。因此，做答概率、個人能力和題目難度被定義在同一尺度上，評委具有各自獨特的評分行為，測量的結果使得能力獨立于特定的題目和評委。

潛在特質理論更適合用來評價大學教師的課堂教學能力。在大學教師課堂教學能力評價中，評委往往依據評分標準獨立評分，有的評委評分明顯寬松，有的評委正好相反。如果教師擔任的課程難度比較大，又遇到了評分嚴格的評委，分數就會明顯偏低;相反，如果教師擔任的課程難度比較小，評委評分比較寬松，分數就會明顯偏高。因此，原始分數不足以代表教師的課堂教學能力，矯正任務難度和評委差異后的結果能更加準確地表示教師的課堂教學能力。

多面Rasch模型是一種潛在特質理論模型，可以用來實現量表的優化。首先，多面Rasch模型可以用來識別量表的構念。多面Rasch模型的假設前提是單維性，意思是指所有題項測量了同一種潛在特質。如果量表是單維的，說明所有題項從不同的方面測量了同一個構念，分數能夠加總并可以相互比較。[19]如果量表不是單維的，說明至少有部分題項測量的構念與其他題項不同，需要將部分題項排除或設計量表單獨測量。[20]其次，多面Rasch模型可以用來檢驗量表的公平性。如果相同能力的群體由于不同的群體特征導致在同一題目上具有不同的正確作答概率[21]，測驗就產生了不公平。多面Rasch模型提供了項目功能差異檢驗的方法，可以針對不同題項檢驗是否存在不公平。最后，多面Rasch模型可以識別評分異常的題項。多面Rasch模型將原始分數分解為能力估計值、評委寬嚴度、題項難度和等級難度，能夠分析每個題項對應的能力估計值、每個分值對應的能力估計值，識別評分產生異常的題項，為量表優化提供依據。

基于以上分析，本文提出如下假設：多面Rasch模型適合用于大學教師課堂教學能力評價量表的優化。

二、課堂教學能力評價量表存在問題的多面Rasch分析

（一）樣本與數據來源

本次研究從某高校的一個學院抽取了2014年11月至12月的107份課堂教學評價表，量表內容見表1。評委共有6位，被聽課的教師有23位。其中，有2位評委分別只對兩位不同的教師進行了評分，因評分次數太少而被剔除，其余4位評委的評分數據被保留。在被剔除的2位評委的評分數據中，1位教師只被評分一次，而沒有被其他評委評分。因此，該教師的評分表也被剔除。

按照教師編號對22位教師的課堂教學評價數據進行分類整理。評委的編號為A、B、C、D，教師的編號為1、2、3…22。18位教師分別被4位相同的評委評分，其他4位教師被若干不同的評委評分。若同一位評委對某位教師多次評分，該教師的得分用這個評委評分的均值表示。例如，編號為1的教師被編號為A的評委評分兩次，編號為A的評委對該教師的評分按照兩次評分的平均值計算，教師最后的分數等于多位評委評分的均值。經過整理，我們得到了4位評委對22位教師的評分數據共77個，形成本次研究的樣本。

（二）研究方法與工具

本次研究采用的工具是Winsteps3.72.3軟件和Facets3.71.4軟件。Winsteps軟件和Facets軟件都是多面Rasch模型分析工具，其原理是一致的。[22]Winsteps軟件能實現單維性檢驗和項目功能差異性檢驗，Facets軟件則不能實現這兩項功能。Facets軟件能將評委、課程和被評價人作為三個單獨的面進行分析，體現課程差異和評委差異，Winsteps軟件則將評委、課程和被評價人作為一個面來分析。因此，多面Rasch模型分析可以同時使用Winsteps軟件和Facets軟件來實現多種功能。

在運用多面Rasch模型之前，首先要對數據的整體擬合程度進行檢驗。運用Winsteps軟件進行單維性檢驗，運用Facets軟件計算樣本誤差均值和標準誤。如果數據滿足單維性假設，并且樣本誤差均值接近于0、標準誤接近于1，說明數據的整體擬合程度比較高，可以運用多面Rasch模型對數據進行分析。[23]其次，證明數據擬合多面Rasch模型后，我們可以利用Winsteps軟件進行項目功能差異檢驗。本文針對性別進行項目功能差異檢驗，用于識別產生項目功能差異的題項。最后，利用Facets軟件分析能力與分數之間的關系，用于識別產生評分異常的題項。

（三）多面Rasch模型適用性檢驗

單維性檢驗用于檢驗問卷題項是否測量了相同的潛在特質，這是多面Rasch模型能夠應用的前提。大學教師課堂教學能力評價量表一共有8個題項，總分按照8個題項得分加總計算。如果這8個題項可以歸屬于同一個潛在特質，可以認為這8個題項測量從不同角度測量了同一種教師課堂教學能力，總分可以用來表示教師課堂教學能力的高低。反之，則說明至少有部分題項與其它題項測量的并不是同一種能力，需要將部分題項排除或設計量表單獨測量。[24]

Winsteps軟件提供了殘差主成分分析法來檢驗量表的單維性，檢驗結果見表2。如果剔除多面Rasch模型可解釋部分后，殘差仍有若干共同的潛在特質并且特征值（未解釋的變異）大于2，說明存在第二個維度，量表不具有單維性。五個維度中未解釋變異的特征值分別為1.8、1.6、1.3、1和0.8，都沒有超過2，說明量表具有單維性。[22]因此，8個題項從不同的角度測量了教師的課堂教學能力。

Facets軟件檢驗結果顯示數據對Rasch模型的擬合程度比較高，結果見表3。樣本觀察值21.83，模型期望值為20.14，誤差均值為0。樣本標準差為3.96，模型擬合值的標準差為3.64，全樣本標準誤為1。因此，從樣本誤差均值和全樣本標準誤來判斷，采用多面Rasch模型來分析數據是適合的。

（四）課堂教學能力評價量表存在的問題

1.2個題項存在性別上的不公平

測驗的公平性可以用項目功能差異檢驗的結果來表示。如果教師課堂教學能力評價量表在性別上存在項目功能差異，可能會對處于劣勢的群體不公平，影響他們提高教學質量的積極性。因此，測驗開發和使用者需要進行項目功能差異檢驗，識別可能產生項目功能差異的題項，以便對量表進行優化。

Winsteps軟件可以實現項目功能差異檢驗，檢驗結果見表4。DIF 表示項目功能差異檢驗，DIF MEASURE表示某個群組答對特定題項的難度，DIF S.E表示標準誤。DIF MEASURE越大，說明該群組答對該題的難度越大。DIF CONTRAST是兩個群組答對特定題目的難度差異，Welch T和Prob表示難度差異的顯著程度。男性組中第1個題項最難，第6個題項最容易。女性組中第5個題項最難，第8個題項最容易。第1題的DIF CONTRAST=-0.81Logits（t=-2.48，Prob=0.0155<0.05）、第4題的DIF CONTRAST=0.47Logits（t=2.12，Prob=0.0378<0.05），說明男性和女性在第1題上和第4題上難度有顯著差異，可能存在因性別導致的不公平。

2.7個題項出現分數能力“倒掛”

測量學原理認為，分數代表能力，分數越高代表能力越強。多面Rasch模型假設隨分數增加，能力呈“S”型曲線。[25]如果某個題項出現了較低分數代表的能力值高于較高分數代表的能力值，說明該題項出現了分數能力“倒掛”的現象。

Facets軟件可以用來檢驗能力是否隨分數增加而提高，并用*標記出現“倒掛”的題項。結果顯示，除了題項1，其余的題項都出現了分數能力“倒掛”現象。題項2和8出現了3次“倒掛”，題項4、6和7出現了2次“倒掛”，題項3和5出現了1次“倒掛”。

以題項2為例進行分析，見表5。26分使用的次數最多，其次是24分和28分，28分使用了8次，22分使用了4次，25分使用了2次，20分、29分和30分只使用了2次，21分和23分沒有被使用過。22分對應的能力值低于20分所對應的能力值，25分的能力均值低于24分的能力均值，30分的能力均值低于29分的能力均值。從等級間距來看，每增加一分所需能力值并不相等。通常原始分數直接比較時，我們認為一分代表相同的能力。但實際情況是，從25分增加到26分所需能力值最小，從28分增加到29分所需能力值最大。說明在不同的評分等級，一分代表了不同的能力，同時評委過多地使用了24、26和28分，對分數所代表的能力差異理解和把握不夠準確。

三、課堂教學評價量表存在問題的原因分析

項目功能差異檢驗和識別評分異常的題項為量表優化提供了依據，但不能分析產生項目功能差異和評分異常的原因。因此，本文對評委進行了訪談，利用扎根編碼技術分析產生評分異常的原因，提出了量表優化的方法。

（一）訪談提綱的設計

1.訪談提綱設計的依據

影響評委評分的因素是多方面的，評分量表對評委評分影響的研究非常少見，未發現有關大學教師課堂教學能力評價量表對評委評分影響的文獻。在教學能力評價中，評委依據評分量表收集信息，并對信息進行解釋、歸納、演繹并給出分數，與之接近的研究是有關面試的研究和英語作文評分的研究。因此，本文以面試和英語作文評分的研究成果為依據來設計訪談提綱。

評分量表對評委評分影響的研究主要分為三類。第一類是評分量表內容對評委評分影響的研究。有關面試的研究表明，測評要素越多，每個測評要素內部包含的屬性越多，量表的使用效果越差。[26][27]第二類是評分量表尺度對評委評分的影響。英語作文評分的研究發現，小尺度評分量表的評分一致性要高于大尺度評分量表的一致性。[28]第三類是評分量表形式對評委評分影響的研究。面試研究發現，為每個評分等級提供典型行為描述，盡量通過媒介促使行為可視化能夠提高評委評分的一致性程度和評價的準確性。[29][30]由此可以假設，教學能力評價量表題項太多、每個題項包括了不同的測量內容，每個題項分值過大、評分等級描述不夠清晰會影響評委對量表的理解和把握程度。

2.訪談對象與訪談提綱內容

訪談提綱的內容圍繞量表的內容、尺度和形式展開，要求評委講述他們在評分過程中是如何使用量表的。評委以一門課程為例，先對照評分表記錄表的課堂內容對該教師的教學能力作出整體評價，再對量表合理與不合理的地方進行評價，最后對每個題項給出評分的理由。

研究者需要了解三個方面的問題。在評分量表內容方面，包括您覺得8個題項多不多？您覺得這8個題項意思表達是否明確，是否會干擾您的評分？有什么可以改進的地方？在評分尺度方面，訪談的問題有：您覺得哪些題項分值設置是合理的，哪些是不合理的，原因是什么？在評分量表形式方面，訪談的問題有：您在這個題項給了××分，為什么不多給幾分，或少給幾分呢？您覺得將該題項劃分成幾個分數段，您是否會使用這些分數段去區分不同教師的能力？

訪談的對象是4位曾經擔任過課堂教學評價的老師，包括前面提供評分數據的4位評委中的2位。如果能對4位評委進行訪談，研究結果更為可靠。由于條件的限制，無法對4位評委進行訪談，只能選擇具有多年教學評價經驗的教師進行類比，這也是在缺乏數據的情況下不得不采取的辦法。

（二）訪談內容整理與編碼

本次研究采取開放式訪談和研究者提問相結合的方式。評委先圍繞量表的合理性作出評價，然后對每個題項給出評分理由，對于評分量表內容、尺度和形式方面沒有涉及的問題由研究者提問作為補充。

編碼采用扎根編碼技術。評分量表內容編碼為a1，a2…，其影響編碼為a1-1，a2-2…，依次類推。量表尺度編碼為b1，b2…，其影響編碼為b1-1，b2-2等。量表形式編碼為c1，c2…，其影響編碼為c1-1，c2-2等。

經過整理后，部分訪談內容和編碼摘錄如下。

我在聽別人上課時，先在量表上記錄板書提綱。課程快結束時，我會在心理形成一個整體判斷。我給分一般在82分到92分之間。（c1）我覺得分給太少了不好意思，都是同事。分也不能太高，92分已經很高了，再高的話有點不切實際。我一般分為三個檔次，最好的90-92分，其次是85-89分，最后是82-84分。（c1）我在心理給他定位后，再分題項給分，保證他所得的分數在我給他劃定的檔次之內。（c2）我覺得表現好的就在該檔次內給一個高點的分數。（c1-1，c2-2）每個題項的給分也基本按照這個思路。沒有人告訴我每個題項什么樣子可以給15分，什么樣子可以給12分，我只能根據我的經驗判斷。（c3）如果我對該課程很熟悉，我覺得判斷還比較準確。如果我對該課程不熟悉，我只能看學生的表現和老師講課的熟練程度、邏輯性，也是外行看熱鬧吧。（c3-3）我覺得題項2“思路清晰，重難點突出”是最重要的，也是最不好把握的。（a1）如果這方面表現比較好，我認為其他方面也不會太差。（c3）這個題項只有15分，和其他題項分數差異不大，沒有突出其重要地位，這顯然是不合適的。（b1）他在這一項上得分不高，但考慮到很重要，就多給了幾分。（b1-1）很多題項表達都不是太合理，例如治學嚴謹，究竟是指“思路清晰”、“教案準備充分”還是“課堂紀律良好”、“課堂教學充實”和“信息量大”，實際上是同一個問題，卻分屬題項3和4。（a2）題項3中還有“講授內容熟練”，那我就不知道題項3和題項4究竟按照哪個標準評分了。（a2-2）同樣的問題也出現在題項5和題項7，題項5究竟是要對老師的語言表達能力進行評價，還是對教學方法進行評價（a3），我只能選擇我認為重要的那個。（a1-1，a3-3）8個題項并不多，關鍵是題項之間的關系不明確，量表不方便評委使用。

訪談編碼結束后，對訪談編碼進行匯總。將訪談者提到的內容按量表內容、量表尺度和量表形式歸類，找出原因和結果的對應關系，見表6。

（三）量表對評分的影響分析

1.量表內容對評委評分的影響

題項的測量內容和性質影響評委評分。如果一個題項同時包含兩個測量內容，評委既可能選擇他

認為重要的測量內容（a2-2），也可能隨意選擇一個測量內容（a1-1），導致多個評委評價的對象是不一致的，甚至同一個評委對不同的教師選擇了不同的測量內容進行評價。如果測量的內容本身不好把握（a1），評委對課程不熟悉、缺乏可參考的依據（c3），可能評委就選擇他認為重要的測量內容對教師的整體表現進行評分，而不會按題項的測量內容給分。題項2和題項8出現分數能力“倒掛”現象的次數最多，題項3和5出現 “倒掛”次數最少，可能與該題項測量內容容易觀察有關。

2.量表尺度對評委評分的影響

評委給出的評分不僅僅體現了教師的能力，還受到題項重要性程度的影響。一般情況下，題項越重要，題項分值越高。如果評委認為某教師在一個題項上的表現非常好，足夠給最高分，而該題項只有10分，那么評委也只能給10分。如果某教師在另外一個題項上表現一般，該題項最高分是15分，評委可能給出了12分，這個分數不僅僅是教師的能力，還包括了評委對該題項重要性程度的認可，結果是評委附加了新的評分標準（b1-1）。特別是評委認為重要的題項，分值比較低時，評委可能給表現不夠好的教師高于評委心理預期的分數（b1），而非常好的教師分數也得不到較高的分數，分數區分度不夠。題項6和8的分值為15分，是所有題項中分值最高的，也是分數能力“倒掛”次數最多的。

3.量表形式對評委評分的影響

量表只給出了各個題項的內容和尺度，未設置評分等級導致評委評分缺乏依據。評委有一個“心理量尺”（c1），評委用“心理量尺”給題項評分（c2），具體給出什么分數可能受到其他因素的影響（c1-1，c2-2），例如“人情”、“出場順序”等。由于記憶容量有限和背景差異，評委可能根據他認為重要的題項來確定心理量尺（a1-1，a3-3），評委的“心理量尺”可能存在差異，評委之間缺乏統一的評分依據。加上外界因素的影響，同一個評委對不同的教師可能使用了不同的“心理量尺”，每個分數應對的能力實際上是不同的，就可能出現分數能力“倒掛”現象。

四、課堂教學能力評價量表優化的建議

（一）利用多面Rasch模型對量表進行檢驗

1.構念效度檢驗

根據單維性來判斷量表的構念效度。如果檢驗結果顯示量表具有單維性，說明量表的題項可以用于教學能力評價。如果檢驗結果顯示量表不具有單維，說明量表中有部分題項不能用于教學能力評價，需要把部分題項剔除或將這些題項單獨測量。本次研究的量表具有單維性，現有題項可以保留。

2.性別功能差異檢驗

性別功能差異檢驗用于檢驗量表的公平性。如果量表具有性別功能差異，我們需要分析產生性別功能差異的原因。如果是男性和女性本身能力差異造成的，我們需要設置不同的評分標準。如果是群體特征差異造成的，我們需要剔除產生性別功能差異的題項或設置不同的題項。在本次研究的量表中，題項1和4具有性別功能差異，需要進一步分析產生性別功能差異的原因，本次研究沒有涉及到這個內容。

3.評分異常檢驗

評分異常的表現形式之一是分數能力“倒掛”。本次研究顯示，部分題項出現了分數能力“倒掛”，需要從量表的內容、尺度和形式三個方面分析產生這種現象的原因。

（二）課堂教學能力評價量表優化的具體措施

1.簡化每個題項的測量內容

研究結果顯示，每個題項包括多個測量內容，題項之間測量內容交叉可能導致分數能力“倒掛”現象出現。因此，簡化每個題項的測量內容，盡量保證一個題項只有一個測量內容，按測量內容的屬性歸類排列，便于評委明確評價對象，提高量表的使用效果。

2.分離尺度與權重

當題項的尺度包括權重在內時，評委的評分同時考慮了權重和能力。研究結果顯示，如果評委不認同量表的尺度時，評委就會各自在內心重新設置尺度，評分時綜合考慮“內心重新設置的尺度”與能力，分數與能力的偏離會更大。因此，分離尺度和權重是必要的。可以仿照體育評分的辦法，每個題項的尺度都是相同的，但權重另外設置。例如所有題項都設置為10分，評委只在0-10范圍內評分，每個題目的分值按照權重和尺度加權計算。

3.細化評分等級

研究結果顯示，評委評分有自己的“心理量尺”，并未嚴格按照量表進行評分。由于評委之間的“心理量尺”存在差異和外界因素的影響，評委的“心理量尺”失去了可比性。因此，細化評分等級，為評委評分提供相互比較的依據，有利于減少分數能力“倒掛”現象。對于容易觀察的測量內容，可以對每個評分等級進行關鍵行為描述。對于不容易觀察的測量內容，可以對每個評分等級進行總體描述。在此基礎上，管理方可以分類選擇一些課程建立可視化的模擬培訓庫[26]，加強對評委的培訓和反饋。

注釋：

①本文的量表均指大學教師課堂教學能力評價量表，教師均指大學教師。

參考文獻：

[1]李長青.構建平衡計分卡理論的高校教學質量評價指標體系[J].高教探索，2014（6）：137-141.

[2]呂少柳，劉曉.基于行動導向教學觀的課堂教學質量[J].學理論，2010（31）：242-243.

[3]錢存陽，李丹青，潘嵐.課堂教學質量評價中的效度和信度分析[J].中國計量學院學報，2004（2）：164-167.

[4]丁家玲，葉金華.層次分析法和模糊綜合評判在教師課堂教學質量評價中的應用[J].武漢大學學報（社會科學版），2003（3）：241-245.

[5]劉偉，孫林.基于支持向量機的課堂教學質量評價[J].合肥工業大學學報（自然科學版），2010（7）：968-971.

[6]紀紅.課堂教學質量評價的誤區與對策[J].中州大學學報，2004（7）：87-89.

[7]張克非.課堂教學質量評價數據客觀性處理及反饋機制探究[J].教學與管理，2014（3）：44-47.

[8]畢菁華.建立課堂教學質量評價體系的實踐性探索[J].北京大學學報（哲學社會科學版），2007（5）：295-297.

[9]Posthuma R A，Morgeson Frederick P，Campion M A.Beyond Employment Interview Validity：A Comprehensive Narrative Review of Recent Research and Trends [J].Personnel Psychology，2002（55）：1-82.

[10][30]Uggerslev K L，Sulsky L M.Using Frame of Reference Training to Understand the Implications Rater Idiosyncrasy for Rating Accuracy [J].Journal of Applied Psychology，2008，93（3）：711-719.

[11]Melchiers K G，Lienhardt N. Is More Structure Reality Better？ ?A Comparison of Frame of Reference Training and Descriptively Anchored Rating Scales to Improve Interviewers Rating Quality [J].Personnel Psychology，2011（64）：53-87.

[12][28]關丹丹.兩種評分量表的評分效應比較研究[J].教育研究與實驗，2011（4）：92-96.

[13]李航.評分員與評分量表間的交互作用對EFL作文評分結果與過程的影響[D].杭州：浙江大學，2012.

[14]Wang WC，Cheng Y Y.Measurement Issues in Screening Outstanding Teachers [J].Journal of Applied Measurement，2001（2）：171-186.

[15] [23][25]Linacre J M.A Users Guide to Facets Rasch-Model Computer Programs[M].Chicago，2014：279，185，204.

[16]漆書青，張厚粲.現代教育與心理測量學原理[M].北京：高等教育出版社，1998：33.

[17]L·赫林，F·德雷斯哥，K·帕森斯.項目反應理論在心理測量中的應用[M].東北師范大學教育咨詢中心，譯.武漢：湖北教育出版社，1990：15.

[18]Cason G J，Cason C L.A Deterministic Theory of Clinical Performance Rating[J].Evaluation and the Health Professions，1984（7）：221-247.

[19]Wu M，Adams ?R.Applying the Rasch Model to Psycho-social Measurement：A Practical Approach[M].Melbourne，2007：21-23.

[20][24]王文中.Rasch測量理論與其在教育和心理之應用[J].教育與心理研究，2004（4）：637-694.

[21]Holland P，Thayer D.Differential Item Performance and the Mantel-Haenszel procedure[C]//Paper Presented at the American Educational Research Association Annual Meeting.Francisco，1986.

[22]Linacre J M.A Users Guide to Winsteps Rasch-Model Computer Programs[M].Chicago，2011： 601-602.

[26]Sanchez J I，DeLa T P.A Second Look at the Relationship Between Rating and Behavioral Accuracy in Performance Appraisal [J]. Journal of Applied Psychology，1996，81（1）：3-10.

[27]陳社育.國家公務員錄用面試的效度研究[J].甘肅社會科學，2002（2）：40-44.

[29]Powell D M，Goffin R D.Assessing Personality in the Employment Interview：the Impact of Training on Rater Accuracy[J].Human Performance，2009（22）：450-465.