高校試卷分析研究的內容分析

2011-12-31 00:00:00趙永華李海櫻

考試周刊 2011年87期

　　摘要：作者利用內容分析法，對公開發表的期刊上與高校試卷分析相關的論文，從論文作者所在院校類別、學科背景、研究層次與內容、所發表期刊級別四個維度進行分析。結果表明：對高校試卷分析的關注主要來自醫學院校、師范院校和綜合性大學，主要內容研究包括經典測驗理論的研究及其在各學科的考試分析應用，以及考試分析系統軟件的開發。
　　關鍵詞：高校試卷分析內容分析研究層次與內容
　　
　　一、引言
　　近年來，高校教育教學質量受到了社會各界的廣泛關注。學校層面，為了確保達到教學目標，教師應能借助試卷分析來確定學生學習和發展的狀態，診斷教學中存在的問題，為正確的教學決策提供參考。
　　隨著學生學業評價的目標從“對學習”向“為了學習”［１］的轉移，試卷分析受到越來越多的關注。黃穎等人2005年對試卷分析的應用實踐狀況做了研究［2］，主要涉及我國教育測量學研究的沿革、試卷分析的內容、醫學院校試卷分析的實踐、試卷分析系統開發的狀況。本文借助內容分析法，對國內公開發表的期刊上高校試卷分析的相關論文進行分析，從論文作者所在院校類別、學科背景、研究層次與內容、所發表期刊級別四個維度，描述高校試卷分析的研究現狀，為進一步的研究提供參考。
　　二、研究過程
　　1.樣本來源
　　為了了解高校試卷分析的研究特點、研究熱點和實踐領域，本研究以中國知網收錄的與高校試卷分析相關的論文為研究對象。從2005年1月到2011年8月，以關鍵字集{“試卷”，“考試”，“成績”}和{“分析”，“評價”，“信度”，“效度”，“難度”，“區分度”}的組合，共檢索到論文581篇，從中隨機選取100篇作2.類目系統的建立
　　根據所確定的論文樣本，結合前人的相關研究，確定了初步的類目系統。隨機挑選部分樣本進行小規模測試和修改之后，向相關領域專家征詢意見，修改、測試之后形成了本內容分析研究的類目系統，如表2所示。
　　3.內容評判及數據統計
　　我們仔細閱讀每一篇論文，根據類目系統從四個維度對每一篇論文進行歸類。對于涉及多個方面的論文，按其主要研究方面進行歸類。
　　歸類結果數據借助Excel及SPSS進行數據統計及圖表生成，得出分析結論。
　　三、內容分析
　　1.基本信息
　　100篇論文樣本中，以理論建設與綜述和應用實例層次的研究居多，各占37%；設計開發研究類占26%。
　　2.研究層次與內容分析
　　（1）理論建設與綜述層次
　　37篇理論建設與綜述類論文中，主要涉及：（a）考試方式、制度和管理改進，（b）高校試卷分析的方法綜述，（c）試卷分析指標的改進，（d）利用其他學科的方法改進評價方法等方面。其中，a類占37.8%，主張應用多元評價、針對學生個性的評價，對網絡協作考試的構想，試卷分析的反饋信息利用現狀分析，音樂、體育等課程考核體系的構建，以及國外考試制度、明代科舉“策”試題的啟示，等等；b類占29.7%，主要涉及經典與現代教育測量理論的對比，教育評價的概念，國外及我國的實踐，試卷分析內容、指標及評估公式，等等；c類占16.2%，討論了信度指標及口語考試中信、效度［3］的問題，以及標準參照考試的評價標準，等等；d類占16.2%，研究了用貝葉斯網絡［4］、關聯規則數據挖掘［5］、模糊綜合評價法分析試卷［6］、六西格瑪方法［7］、評價試卷質量的調優函數［8］等方法改進試卷評價，也有研究涉及試卷分析系統的加密問題。
　　（2）設計開發層次
　　26篇設計開發類論文中提及的高校試卷分析系統近一半為單機版，反映出試卷分析的相關信息的共享程度較低，從而影響了信息的進一步利用。其中，系統結構方面，42.3%的研究所開發的試卷分析軟件為單機版的，34.6%為網絡版的，其余未指明系統結構；系統功能方面，69.2%研究開發了專用的試卷分析軟件，其余將試卷分析作為題庫管理系統的一個子系統來實現。所實現的功能主要是對反映試卷質量的指標的統計計算，對教學目標與學生學習狀態之間差距的診斷關注較少，因而難以有效地支持教師教學過程中的決策。
　　（3）應用實例層次
　　37篇應用實例類論文中，多數研究利用SPSS、Excel等通用數據分析工具，從成績分布、試卷質量、試題質量等層面，對不同科目單一課程進行分析。分析工具方面，27.0%使用SPSS或SAS作為分析工具，21.6%使用專門的試卷分析軟件，13.5%以Excel作為分析工具，其余未指明分析工具，從中可以看出專用試卷分析軟件所占份額不大，影響了試卷分析在高校的普遍開展；分析的樣本量方面，59.5%分析單一課程大樣本數據，35.1%對單一課程小樣本數據進行分析，其余對醫學實踐課程中多科目統一分析。由此可見，試卷分析的結果主要來自單一課程。然而高校的現實是課程之間相對獨立，造成單門課程的試卷分析結果被重用的可能性很小，因而也影響了試卷分析在高校的普遍開展。
　　大部分應用實例類研究均涉及試卷質量四度的分析，并提出了相應的可接受范圍。其中：
　　67.6%的研究分析了試題難度指標，大部分利用通過率（或正答率）統計試題難度P，部分研究涉及選擇題消除猜測影響的問題。這類研究將試題難度可接受標準分為5級或3級，考慮了整卷平均難度及選拔性考試與校內學業考試難度評價標準的不同，并主張試卷要有合理的難度比例。
　　64.9%的研究分析了試題區分度，主要采用極端分組法計算鑒別指數D，部分研究計算試題得分與試卷總分的皮爾遜（Pearson）相關系數。這類研究將試題區分度可接受標準分為4級、3級或2級不等，大部分選用美國測量學家伊貝爾（Ebel，L.）提出的鑒別指數標準［9］。部分研究分題型來統計難度和區分度，并結合難度與區分度來評價試題質量。
　　51.3%的研究討論了信度指標的統計，主要采用克龍巴赫（Cronbach）α系數或KR21公式統計同質性信度。這類研究將信度指標可接受標準分成5級、3級、2級不等，討論了客觀試題、主觀試題及教師自編試題的信度可接受標準。
　　27.0%的研究分析了試卷效度，認為內容效度一般通過學科專家對照測驗雙向細目表與試卷，通過邏輯分析法得到。這類研究一般通過計算考試分數與能體現考試分數目的的效標分數之間的相關系數得到效標關聯效度，將效標關聯效度的可接受標準分為3級或2級，或者進行顯著性檢驗。
　　43.2%的研究分析了試卷的題型及分值分布。
　　大部分應用實例類研究都分析了總體成績分布，給出了分數段頻數分布，少量研究對總體成績分布進行峰度、偏度或正態性檢驗。
　　大部分實例類研究用定量數據描述分析結果，輔以定性說明；近三分之一的研究以圖表描述分析結果，如分數段頻數分布圖或分布表，結合難度、區分度的試題質量評價圖等。
　　部分實例類研究從教學改進、促進學習、試題及題庫改進、教學與管理等方面給出了較為主觀的、表層的建議［１0］。
　　3.影響高校試卷分析研究的因素
　　通常，不同類型的高校對試卷分析有不同的規定和要求，這可能會影響到研究者對研究內容的選取。對作者單位和研究層次與內容進行x2檢驗的結果為：x2=28.084，df=8，Sig.=0.000，差異非常顯著，即不同類型院校的研究者所做的研究分布非常不一樣。理論建設與綜述層次的研究者主要來自師范院校，也有一部分來自綜合性大學，這表明師范院校對于考試過程有較多的規定和要求，并有較好的教育測量研究基礎；設計開發層次的研究者主要來自工科院校和綜合性大學；而應用實例層次的研究者則主要來自醫學院校，表明醫學類院校普遍重視對試卷的分析。另外黃穎等人2005年的研究表明醫學院校因專業的特殊性對試卷分析開展較普遍，并形成了一定的規模［2］。
　　
　　研究者所具有的學科背景也會影響研究內容和角度的選擇。對作者學科背景和研究層次與內容進行x2檢驗的結果為：x2=55.497，df=10，Sig.=0.000，差異非常顯著，即具有不同學科背景的研究者所做的研究分布非常不一樣。理論建設與綜述層次的研究者主要具有教育學背景，也有一部分具有工學背景和文學背景；設計開發層次的研究者主要具有工科背景，也有一部分具有教育學背景。所選樣本中，具有文學背景的研究者沒有發表設計開發層次的論文；應用實例層次的研究者則主要具有醫學背景，文學背景的研究者也占一定比例。
　　對期刊級別和研究層次與內容進行x2檢驗的結果為：x2=11.908，df=4，Sig.=0.018，差異顯著，即不同影響面的刊物上所發表論文的研究內容分布不一樣。一般刊物上發表的論文以應用實例層次居多，理論建設與綜述層次也占比較大的份額；核心期刊上發表的主要是理論建設與綜述層次的論文；而碩士論文則主要從理論建設與綜述層次和設計開發層次選題。
　　從四個分析維度看，對目前高校試卷分析的研究表現出一定的特征。100篇論文樣本中，對來自醫學院校，具有醫學背景的研究者在一般期刊上發表應用實例類高校試卷分析論文的支持度為18%；對來自師范院校，具有教育學背景的研究者在一般期刊上發表理論建設與綜述類高校試卷分析論文的支持度為9%。以上兩種關聯關系如圖1中實線箭頭所示；對其余關聯關系的支持度均為3%，如圖1中虛線箭頭所示。
　　四、研究中存在的問題與建議
　　理論建設方面，目前高校試卷分析研究中對校內考試的特點重視不夠。這一方面是受高考等高利害的傳統鑒別性考試的影響，另一方面是因為目前高校的課程考試主要是終結性考試，以及分析工具的可用性不夠、題庫系統沒有普遍建立等因素也影響和限制了對高校試卷分析的研究。另外，由于分數等值問題的限制，大部分分析局限于單一課程，對學校在中觀層次的決策中利用試卷分析信息造成困難。要改變這一現狀，需要轉變課程評價觀念，從關注考試的價值判斷轉向促進教師教和學生學，更多地關注考試的診斷與促進功能；需要將評價嵌入到教學過程，大量加強以診斷性、形成性考試為主的課堂測驗，從單一考試轉向健全的評價體系；需要研究如何通過試卷分析從測驗中獲得更多的關于教學目標和學生學習現狀之間差距的信息，以便有效地支持教師教學決策。
　　設計開發方面，高校試卷分析專用軟件的可用性不夠；分析得到的結果相對孤立，信息可重用性不高。要改變這一現狀，需要在相關理論的指導下，增強分析工具的可用性、信息的可重用性，建立完善的、具備試卷分析功能的題庫管理系統，為教師提供足夠的支持發展性評價的資源和工具，以確保在教學和評價環節的循環中信息是互補的、充足的、流暢的。
　　應用分析方面，目前的應用主要是針對單一課程試卷的分析，信息利用率不高，并且沒有廣泛開展試卷分析，因而未能為教學過程提供足夠的反饋控制信息。要改變這一現狀，一方面離不開相關試卷分析觀念的轉變、相關管理制度的確立及教師自身試卷分析素質的提高，另一方面也離不開相關理論及易于使用的專用試卷分析軟件的支持。
　　五、結論
　　1.高校試卷分析的研究特征
　　對高校試卷分析的關注主要來自醫學院校、師范院校和綜合性大學，研究人員一般具有教育學或計算機科學與技術學科背景，以及相應考試課程對應的學科背景。該領域的研究論文主要發表在一般刊物上。
　　2.高校試卷分析的研究內容
　　從研究內容上看，主要是經典測驗理論的研究及其在各學科的考試分析應用，以及考試分析系統軟件的開發。
　　理論建設與綜述層次的研究主要關注考試方式、制度和管理改進，高校試卷分析的方法綜述，試卷分析指標的改進，利用其他學科的方法改進評價方法等問題。
　　設計開發層次的研究采用程序設計語言作為工具，或對通用數據分析軟件進行二次開發，實現單機版或網絡版的專用試卷分析系統軟件或題庫管理系統。
　　應用實例層次的研究應用通用數據分析軟件或專門的試卷分析軟件，主要分析單一課程的試卷，大部分研究均涉及試卷質量四度的分析，并提出了相應可接受范圍，均分析了總體成績分布。大部分研究用定量方式描述分析結果，輔以定性分析，并以圖表描述分析結果。部分應用實例類研究提及分析結果的利用，提出較主觀的、表層的改進建議。
　　
　　參考文獻：
　　［1］崔允漷.基于標準的學生學業成就評價［M］.上海：華東師范大學出版社，2008：1-3.
　　［2］黃穎，林端宜.試卷分析研究現狀綜述［J］.西北醫學教育，2005，（1）：39-40.
　　［3］龐繼賢，陳嬋.外語口語考試的效度和信度研究述評［J］.外語與外語教學，2005，（7）：19-23.
　　［4］王娜.基于貝葉斯網絡的試卷分析［MA］.天津大學，2007：24-31.
　　［5］李雄飛.試卷分析系統的研究與設計［MA］.吉林大學，2006：19-21.
　　［6］王慶民.考試分析系統設計與實現［MA］.山東科技大學，2005：42-44.
　　［7］包美芳.考試質量分析中應用六西格瑪方法初探［J］.教育探索，2008，（7）：90-91.
　　［8］王美華，楊德貴.試卷評價系統算法設計與分析［J］.昆明理工大學學報（理工版），2006，（2）：37-40.
　　［9］張敏強.教育測量學［M］.北京：人民教育出版社，2005：90-91.
　　［10］張芊，汪利，丁國永.高校課程試卷分析的管理創新［J］.中國大學教學，2005，（9）：39-42.

考試周刊2011年87期

考試周刊的其它文章: 住宅建筑與設備安裝一體化設計; 亞式期權的定價; 文化創意企業融資問題及對策探究; 軍人社會支持與心理健康狀況的研究; 將幼兒成長記錄手冊進行到底; 建構積極和諧互