999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

美國州級測驗的特色及其對我國的參考價值

2021-01-02 20:15:55劉香東王一波于魯泉龔佑文
考試研究 2021年4期
關鍵詞:報告心理教育

劉香東 王一波 于魯泉 龔佑文

目前,我國心理與教育測量的關注重點在于高考改革,對中小學教育的研究并不多[1]。這是因為我國的中小學教育往往受高考評價指標影響,教育改革常常是依賴對中考、高考進行改革,進而影響中小學教育內容。在美國,雖然類似中國的高考SAT(Scholastic Aptitude Test) 和 ACT(American College Testing)也有一定的影響,但是州級(美國的州相當于中國的省)測驗(State Assessment)是教育問責制(Educational Accountability)主要的評價指標。美國州級測驗有三個核心特色,分別是同行評審(Peer Review)、技術報告(Technical Report)及(心理測量)技術咨詢委員會(Technical Advisory Committee,TAC)。在這三個核心特色上,具有教育測量學或相關領域的資深背景心理測量研究員(Psychometrician)發揮著關鍵作用。體現了心理測量專業的應用性。本文針對這三個方面的內容加以探討。

一、州級測驗中的同行評審

美國對州級測驗的重視要從聯邦《初等和中等教育法案》(The Federal Elementary and Secondary Education Act,ESEA)談起。從 2005 年開始,該法案要求每個州的教育廳對中小學3-8 年級及高中的語文、數學、科學三門課的州級測驗提交同行評審報告,同行評審報告包括六個方面的內容[2]:

第一,州課程標準與州測驗。要求證明州測驗與本州的課程標準(Curriculum Standards)相一致。一般來講,主要的證據包括州級測驗與州課程標準的一致性評估(Alignment Evaluation),而且一致性評估一般由外部專業的考試公司來進行,以實現評估的客觀性。

第二,州測驗的實施與管理。包括州測驗的設計與開發、試題開發、考試實施、考試實施的監測、考試安全等。主要提供的證據包含:州測驗的設計與試題的開發是否符合標準化的程序——教育與心理測驗標準(2014 版)[3],是否采用一致性評估的結果,是否有一套完善的考試政策來保障考試安全,是否采用一些工具來監測考試作弊等。

第三,州測驗的技術質量——效度(Validity)。包括州測驗總體效度、基于內容的效度、基于認知處理的效度、基于內部結構的效度、基于與其他變量關系的效度等。這些基于不同內容的效度來自教育與心理測驗標準(2014 版)對效度的定義。例如,在基于內部結構的效度方面,州教育廳要提供州測驗的維度分析(Dimensionality Analysis)、試題質量分析、項目功能差異(Differential Item Functioning)分析等來證明測驗的總體效度;在基于與其他變量關系的效度方面,如果一些4 年級的學生在州數學測驗中得到優秀(Advanced)的水平,而且他們的成績在國家教育進展評估((National Assessment of Educational Progress)4 年級數學考試中也取得好的成績,即州數學考試成績與國家教育進展評估數學成績高度相關,就會為州測驗的整體效度提供一個有利的證據。

第四,州測驗的技術質量——其他維度。包括州測驗的信度、公平性與可及性(Accessibility)、評分(Scoring)、測驗的多個試卷、測驗的不同版本等。例如,在州測驗的信度方面,州教育廳需要提供試卷的總信度(Test Reliability)、條件測驗標準誤差(Conditional Standard Error of Measurement)、判別準確性(Classification Accuracy)與判別一致性(Classification Consistency)等;在公平性與可及性方面,州教育廳需要提供證據表明試題的開發經過了偏見與敏感性審查(Bias and Sensitivity Item Reviews),在試卷開發過程中盡可能地避免了使用有項目差異的試題,以及在試卷使用后進行的項目差異分析;在州測驗的多個試卷方面,強調州測驗要保持成績說明的一致性,即跨年度的試卷是類似或者相當的(Comparable),這是因為以對學生成績跨年度的比較來作為教師業績評估指標之一,是教育責任制實施的基礎,如果跨年度試卷不同,而且沒有等值的設計,對學生成績跨年度的比較既不準確也不科學,因此州教育廳要提供證據證明每個試卷的開發都遵循一致的試卷藍圖(Test Blueprint)、具體而詳盡的等值與鏈接(Linking)的過程,以及對等值的評估;在州測驗的不同版本方面,如果有同一年級的紙質考試與計算機考試,教育廳要提供考試模式比較分析(Test Mode Effect Analysis)來證明紙質考試與計算機考試具有可比較性。

第五,包容所有學生(Inclusion of All Students)。要求證明州測驗考慮到殘疾學生、英語非母語的學生的特殊需要。州教育廳需要為殘疾學生提供調節性(Accommodation)政策,如提供州測驗的盲文版本。州教育廳需要證明對英語非母語的學生是否在州測驗上需要調節性政策進行了調查,以及這些調節性政策是否適合英語非母語的學生。

第六,課程標準與成績報告。包括采用嚴謹的學術課程標準、制定規范的標準設定(Standard Setting)、撰寫合理的成就水平描述(Achievement Level Description)及有意義的成績報告。以標準設定為例,同行評審要求標準設定的過程必須符合科學的設計方法,由具有代表性的專家小組討論決定。以撰寫成就水平描述為例,例如一個學生在4 年級的數學達到掌握(Mastery)的水平該具有什么樣的知識與技能,這些都是經過有經驗的教師組討論起草的。在成績報告(Reporting)方面,同行評審要求成績報告要能幫助家長、教師、教育政策制定者理解學生的成績。成績報告要體現不同成就水平(Achievement Level)學生的比例與人數。一些報告要包括試卷的每道試題的成績及子科目(Subcategory)的成績,有利于家長與教師有的放矢地針對學生需要提高的地方實施補救措施。成績報告要體現學校、學區、州整體在各個成就水平上的學生的比例,這有利于州教育廳與學區對薄弱學校實施有針對性的支持性政策。

值得一提的是,同行評審要求各州測驗除了在首次提交評審外,每次對州測驗的重點進行改革時都需要重新提交評審。一般情況下教育部的同行評審團給出的反饋是:通過、補充材料、不通過。如果不能通過同行評審,那么將會影響ESEA 法案對該州的撥款,因此各州教育廳對通過評審都非常重視。

二、美國州級測驗中的技術報告

州測驗的技術報告是各州教育廳提交同行評審的核心證據。技術報告是州測驗依據教育與心理測驗標準(2014 版)開發的重要證明。技術報告的內容通常包括:州測驗的設計與開發、州測驗的實施與考試安全、評分與成績報告、心理測量分析(Psychometric Analyses)、標準設定、州測驗的效度、測驗的信度等若干章節。在州聯盟中小學考試(Partnership for Assessment of Readiness for College and Careers,簡稱PARCC)的技術報告[4]中還包含質量控制(Quality Control)與量表分數(Scale Score)兩部分內容。一般來講3-8 年級與高中(9-12)年級的技術報告是單獨生成的。下面就技術報告的主要內容予以介紹,重點介紹同行評審中未詳細說明的部分。

在州測驗的設計與開發這一章節中,首先強調的是測驗與課程標準的一致性。美國目前有41 個州都使用共同核心州立標準(The Common Core State Standards)。測驗的開發由有經驗的教師、研究者、心理測量師和科目內容專家共同參與。測驗的開發過程包括:測驗的設計、試題與閱讀段落的審查、質量的監測以及公平性的審查等。其中試題的審查包括:試題內容的審查、偏見與敏感性的審查、編輯的審查(語法錯誤)、技術性審查(試題難易程度、年齡適宜性等)。試卷的組合(Test Construction)包括:試卷符合考試藍圖(Test Blueprint)、鏈接的設計(保證跨年度的不同試卷具有可比性),以及調節性試卷(Accommodation Form)。這一章還包括田野測試(Field Testing)的設計:隨機排列在正式考題中,還是單獨組成一部分放在正式考題之后。

在測試的實施與考試安全這一章主要包括適宜的調節性考試政策與考試安全。以內布拉斯卡州的技術報告[5]為例,針對考生安全,首先聘請了專門的網絡公司監測是否有考試內容在網絡與社交媒體上泄露,其次通過統計分析進行監測,具體監測方法有:響應時間(Response Time)、正式試題(Operational Items)與田野試題得分差異(田野試題通常是新的試題,如果差異很大表明考生提前知道試題內容)、試題表現的變化(如果試題在考試期間變得簡單,表明試題有可能已經泄露)、不尋常的提高(Unusual Gain)(通過統計方法監測出一個考點考生的成績比去年的考生成績意外提高)、雷同卷等。

在評分這一章,以州聯盟中小學考試的技術報告為例,分成三部分:機器評分(Machine-Scored)、人工評分(Human or Hand-scored)、智能化評分(Automated or AI Scored)。 對于評分來說,保證評分的質量與一致性非常重要,除了對人工評分者的培訓外,人工評分與智能評分都有10%-20%的重讀(Read Behind),同時對評分者間一致性信度(Inter-rater Agreement)也有嚴格的要求,如果一致性信度低于一定的比例,那么會增加對這個評分者的重讀比例或者重新培訓等。

在心理測量分析這一部分,州聯盟中小學考試的技術報告分為三章:經典測驗分析、項目功能差異分析、項目反應理論校準(Item Response Theory Calibration)與鏈接。而內布拉斯卡州的技術報告只把心理測量分析列為一章。這一章是心理測量師工作的核心部分。

在經典測試分析(Classical Item Analysis)上,以州聯盟中小學考試的技術報告為例,該章列舉了考試結束(Post Administration)后,對試題難度與區分度的分析。如果發現有問題的試題,心理測量師與科目專家等在數據分析結果的基礎上討論是否在評分時去除該試題。這些紅色警示的標準(Flag Criteria)與田野試驗的試題警示標準或者試卷組成的試題警示標準[6]可能略有不同。除此之外,技術報告還包括試卷總體的描述性統計結果(如試題的難度、區分度的平均值、最大與最小值)

以下是考試結束后,心理測量師與科目專家需要審視的試題紅色警示的標準[7]:

(1)客觀或主觀題試題難度低于0.25 或者高于0.95。

(2)試題的點二列相關系數(Item-total Corre-lation)小于 0.15。

(3)任何干擾選項的點二列相關系數(選項與總分)為正數的。

(4)對于總體考試成績前20%的考生,對某個試題干擾項的選擇超過對正確選項的選擇。

(5)任何一個試題,如果客觀題的放棄或未選擇的比例超過5%,主觀題放棄比例超過15%。

(6)主觀試題的任何一個分數(0,1,2,3 等等)的得分比例少于3%。

在項目功能差異分析這一章,主要介紹了項目功能差異的公式(客觀題與主觀題的公式不同)及警示線的標準。項目功能差異的分組一般分為:性別差異,男女考生的比較;種族差異,白人考生與黑人考生的比較、白人考生與拉丁美裔考生的比較;經濟水平,貧困學生(Economically Disadvantaged)與非貧困學生的比較;英語水平,英語非母語與英語第一語言考生的比較;殘疾考生與正常考生的比較。技術報告會包括目前試卷中含有項目功能差異試題的數量與嚴重程度(B or C)等。

在項目反應理論校準與鏈接這一章,首先主要介紹項目反應理論的公式,有采用Rasch 模型的,也有采用2PL 的。其次介紹項目反應理論的假設條件是否成立,包括單一維度(Unidimensionality)和局部獨立性(Local Independence)。第三,介紹模型擬合度,對于 Rasch 模型,Infit 和 Outfit 是 Winsteps軟件使用的兩個衡量Rasch 模型是否能很好預測學生成績的指標。對于2PL 或者3PL,Q1 統計數據和試題擬合圖表(Item Fit Plot)是判斷模型是否能很好預測學生成績的指標。第四,預測的試題難度參數(Difficulty Parameter)與試題區分度參數(Discrimination Parameter)的描述性統計結果。最后,鏈接參數估計,跨年度試卷的鏈接是把新的試卷的試題參數(難度參數與區分度參數)轉換到基準試卷的同一尺度上。這樣學生在跨年度的兩個試卷上的成績就可以直接進行比較。這個鏈接通常依賴的是兩個試卷擁有一部分共同的試題(Common Item Sets)。跨年度試卷的鏈接通常使用STUIRT(Kim & Kolen,2004)[8]這個軟件來完成。

在標準設定這一章,教育與心理測驗標準(2014 版)強調標準設定需要選擇一個適合州測驗的標準設定的方法。目前有兩個比較常用的標準設定方法:Angoff 和Bookmark 方法。州聯盟中小學考試在中小學設立了5 個成就水平:超越期望(Exceeded Expectations),符合期望(Met Expectations),接近期望(Approached Expectations),部分符合期望(Partially Met Expectations),未符合預期。標準設定的專家組根據標準設定的方法來設定每個成就水平分數線(Cut Score)。標準設定通常會在正式討論前舉行一個摸底調查(Pre-policy Meeting),從而使分數線的設定也考慮到教育政策制定者、一線校長與教師的聲音。在標準設定過程中,針對每個水平,標準設定的專家組起草政策與范圍成就水平描述。這樣使學生、家長、教師明確達到相應水平獲得什么樣的知識、技能,以及什么樣的學生需要幫助。

在成績報告一章,值得關注的是,技術報告包含了學生在每個成就水平上的百分比,以及對比上一年考試在每個成就水平的百分比的變化,例如學生人數在符合預期上是否比前一年更多了,有的州把學生在前兩個成就水平的百分比之和,即超越期望和符合期望,作為學校和教師評價的一個指標。技術報告還包含效度與信度兩章,因為這兩章在同行評審中已經介紹,這里不再贅述。

州教育廳每年花大約5-10 萬美元請考試機構撰寫技術報告(3-8 年級和高中),技術報告是心理測量師與內容專家共同合作的成果,技術報告確保州測驗的開發遵循了教育與心理測驗標準(2014版)的合理程序,保證了測驗開發的規范化,證明了測驗的質量(信度與效度),同時也為同行評審提供重要文件(當然同行評審不只需要技術報告,還需要其他文件材料的證明)。

三、美國州級測驗中的(心理測量)技術咨詢委員會

心理測量技術咨詢委員會與同行評審和技術報告密切相關,技術咨詢會的會議紀要可以作為提交同行評審的重要證據。在會議中如果討論了州測驗在等值和鏈接上的設計,那么這是保障州測驗跨年度試卷可比性的重要依據。心理測量師在技術報告中對州測驗效度與信度的數據或證據的收集,常常也是技術咨詢會討論的重要內容。下面主要介紹技術咨詢委員會的使命、組成與會議的形式等。

內布拉斯卡州教育廳技術委員會的宗旨是:“審視本州州測驗計劃,州測驗的質量,教育問責體系”[9]。智能平衡(Smarter Balanced)測驗是美國十四個州采用的考試,其(心理測量)技術咨詢委員會的目標是對州測驗的效度、信度、準確性和公平性方面提供技術指導。技術咨詢委員會的成員是來自心理測量領域有一定科研成果的專家。這些專家的研究領域包括:測驗設計,計算機自適應考試,對特殊教育學生的考試,考試的使用,數學及語文專業知識等。例如內布拉斯卡州教育廳技術委員會包括5 名大學心理測量學相關專業的教授與5 名考試機構或獨立咨詢人等。

美國各州基本上很少有自己開發的試卷,一般是通過外包的形式由專業的考試公司來進行。專業的考試公司一般都擁有由心理測量師與內容專家組成的團隊,而且有的公司承攬多個州測驗的合同,擁有規模化與專業化的優勢。技術咨詢委員會會議上一般由考試公司的心理測量師以PPT 的形式提出問題,這些問題一般都有一定的前期研究,建立在數據分析的基礎上,然后由技術委員會委員提出指導意見。技術咨詢委員會通常設一名會議主持人,同時負責記錄各委員的意見,會議結束后再監督各考試公司的心理測量師根據委員會的意見予以實施。一般來講,技術咨詢委員會每年春節(3-4 月份)和秋季(10-11 月份)召開兩次會議。由于疫情,今年許多州采取遠程視頻會議的方式舉行技術咨詢委員會會議。

實例問題一:內布拉斯卡州對學生增長百分比(Student Growth Percentile ,SGP)的方法比較感興趣,認為SGP 比量表分數(Scale Score)和Z-分數能更好地測量學生的成長。對技術咨詢委員會的問題:技術咨詢委員會的委員是否可以談談采用SGP作為評價學校和學區表現的優勢和劣勢?實例問題二:內布拉斯加州準備進行3-8 年級的標準設定,某某考試公司提交了標準設定的計劃書(包括標準設定的方法、專家組的招募等),請問技術咨詢會委員對這個計劃書(包括標準設定的方法及過程)有什么反饋意見?委員對范圍成就水平描述草案有什么反饋意見?請委員對于設定分數線需要三輪判決(Judgment)還是一輪判決提出指導意見。值得一提的是,有的問題專家委員會會一直跟蹤及反饋。例如教育責任制的模型問題,是內布拉斯卡州技術委員會連續3-4 年討論的主題。

四、我國教育考試改革可借鑒的經驗

從教育政策制定者的角度來看,首先要重視中小學3-8 年級的教育問責制。我國當前中小學教育受高考、中考的影響較大,這導致有的地方教育主管部門過度關注高考與中考的升學率,而忽視低年級學生的成長。美國3-8 年級的教育問責體系是一個參考,美國有的州甚至把學前班至小學二年級也放入教育問責體系當中。跨年度試卷(Across Year Form)的等值是教育問責體系的基礎,否則第一年的試卷簡單,而第二年的試卷難,這樣就無法衡量學生的學習成績是否有進步。開發具有高質量(效度與信度)的測驗,并通過等值與鏈接保證跨年試卷的可比性需要大量的投入,這不是一個省教育考試院能完成的,最好通過國家層面推動,由幾個省教育考試院共同參與或聯盟。如美國州聯盟中小學考試與智能平衡測試都是美國教育部投巨資啟動,然后多個州參與資助運行的。其次,探索省級測驗的同行評審制度與技術報告要求。美國教育部把州測驗是否通過同行評審與教育資金撥款聯系起來,使各州教育廳必須重視州測驗的質量,從而保證了教育問責制的有效實施。我國教育部或教育部考試中心,也可以在幾個省試驗與探索同行評審制度與省級測驗的技術報告制度。需要明確的是,如果沒有撥款或資金的鼓勵,很難調動省級考試院對省級測驗進行改革(如推行跨年度試卷的等值等)的積極性。對省級測驗的改革需要有3-5 年試驗、探索、總結和完善的過程。在這個過程中,來自教育一線的反饋和心理測量專家的跟進指導都是必不可少的,待經驗成熟后才能推廣至全國。

從各省級教育考試院的角度來看,首先可以開發有質量的省級測驗。應當認識到3-8 年級教育問責制的重要性(發現薄弱的學校,及時予以支持與幫助),認識到提高省級測驗的質量與跨年度試卷等值對實施教育問責制的重要性。推動跨年度試卷等值的難度不小,這需要各省級教育考試院進行探索,而且需要心理測量師在測驗的設計開發、等值與鏈接上進行大量的工作。其次,改革需要循序漸進。跨年度試卷開發后,先在小范圍的地方進行試驗,待跨年度試卷等值的模式比較成熟、效果也很好的情況下再在省級范圍內推廣,推廣也要循序漸進,例如先從初一示范,然后第二年推廣到小學六年級與初中二年級,然后推廣到小學三年級至初中三年級,最后推廣到高中。最后,有條件的教育考試院可建立(心理測量)技術咨詢委員會。國內目前的模式常常是考試院與某大學的心理學系達成合作框架協議,或者共同創建考試研究中心。這是一個很好的開端,同時,亦可考慮聘請外國教育測量專家。

最后,需要推動我國心理測量學科的發展。美國有大約135 所教育測量學博士、碩士授予點,而我國心理測量學博碩士授予點并不多。以美國醫生資格考試認證中心(National Board of Medical Examiners,NBME))為例,該中心擁有 30 多名心理測量及相關專業博士學位的心理測量師。如果師資力量缺乏,可以考慮聘請海外教育測量專家遠程授課。也可以由教育部考試中心牽頭建立一個心理測量國內外專家庫,向海內外招募(心理測量)技術咨詢委員會的后備人員,然后向各個教育考試院推薦。只有在心理測量專家指導下,才能保證開發出高質量的省級測驗。

猜你喜歡
報告心理教育
看見具體的自己
光明少年(2024年5期)2024-05-31 10:25:59
國外教育奇趣
華人時刊(2022年13期)2022-10-27 08:55:52
心理“感冒”怎樣早早設防?
當代陜西(2022年4期)2022-04-19 12:08:54
題解教育『三問』
當代陜西(2022年4期)2022-04-19 12:08:52
心理感受
娃娃畫報(2019年11期)2019-12-20 08:39:45
教育有道——關于閩派教育的一點思考
辦好人民滿意的首都教育
一圖看懂十九大報告
報告
南風窗(2016年26期)2016-12-24 21:48:09
報告
南風窗(2015年22期)2015-09-10 07:22:44
主站蜘蛛池模板: 成人国产精品视频频| 亚洲水蜜桃久久综合网站 | 国产日本一线在线观看免费| 国产精品亚洲а∨天堂免下载| 欧美视频在线第一页| 成人免费黄色小视频| 日韩黄色在线| 国产第一页免费浮力影院| 人妻精品全国免费视频| 暴力调教一区二区三区| 青青极品在线| 丰满人妻中出白浆| 国产区免费| 国产一区二区三区夜色| 欧美午夜理伦三级在线观看| 国产精品极品美女自在线网站| 欧美一级特黄aaaaaa在线看片| 无码区日韩专区免费系列| 成人精品在线观看| 久久精品丝袜高跟鞋| 欧美无遮挡国产欧美另类| 日本国产精品| 香蕉视频在线观看www| 国产精品视频a| 中文字幕欧美日韩| 99re热精品视频国产免费| 午夜精品影院| 综合色婷婷| 亚洲视频免费播放| 国产在线一区视频| 91在线日韩在线播放| 亚洲精品自产拍在线观看APP| 亚洲精品无码久久久久苍井空| 国产日韩久久久久无码精品 | 高清免费毛片| 久久永久视频| 成人午夜视频网站| 欧美日韩国产一级| 午夜啪啪网| 欧美精品啪啪一区二区三区| 日本人妻一区二区三区不卡影院| 亚洲性视频网站| 中文字幕1区2区| 日韩美一区二区| 丝袜无码一区二区三区| 成人伊人色一区二区三区| 国产精品免费福利久久播放| 无码高潮喷水专区久久| 久久精品中文字幕免费| 2018日日摸夜夜添狠狠躁| 午夜在线不卡| 伊人久久福利中文字幕| 亚洲av无码成人专区| 日本www在线视频| 视频二区亚洲精品| 色婷婷综合激情视频免费看| 中文字幕日韩欧美| 亚洲αv毛片| 久久亚洲黄色视频| 中国毛片网| 亚洲成在线观看| 91精品国产自产在线老师啪l| 久久久久人妻精品一区三寸蜜桃| 国产精品网址你懂的| 九九精品在线观看| 高h视频在线| 国产剧情无码视频在线观看| 幺女国产一级毛片| 欧美日韩高清在线| 91免费国产高清观看| 青青草一区二区免费精品| 久久综合结合久久狠狠狠97色| 最新日韩AV网址在线观看| 波多野结衣视频网站| 国产微拍一区二区三区四区| 亚洲第一在线播放| 国产97视频在线观看| 亚洲v日韩v欧美在线观看| 欧美日韩专区| 国产精品免费p区| 在线视频精品一区| 日韩欧美国产综合|