時晨晨
(中國人民大學教育學院,北京 100872)
自1978 年改革開放以來,我國教育改革已持續了40 余年,并將繼續進行下去(吳康寧,2012),“建設高質量教育體系”便是國家持續深化教育改革這一意志的集中體現。在當下教育改革全面推進與持續深入階段,隨著我國教育事業發展主要矛盾的變化—從“有學上”到“上好學”再到“公平而有質量的教育”以及“更加公平更高質量的教育”,教育改革的理念與重心也開始發生轉向,逐漸由此前對合法性、正當性和價值性的追求轉向對科學性、有效性和可行性的追求。為了有效響應和推進這一改革重心的轉向,近年來教育政策、項目或實踐評估研究開始不斷成長與發展,以期為科學、有效和可行的教育改革政策、項目或實踐的制定或實施提供來自教育科學研究的證據。基于此,本文將對美國基礎教育項目效果評估較為成熟的實踐經驗進行研究,希望能為我國教育政策、項目或實踐評估研究的實踐發展提供有效的經驗參考。
為了有效推進教育領域的知識生產,美國教育科學研究院(Institute of Education Sciences,IES)與國家科學基金會(National Science Foundation,NSF)于2013 年合作編制出《教育研究與開發指南》(Common Guidelines for Education Research and Development),將教育領域的科學研究分為三大類—基礎性和探索性研究(foundational and exploratory research)、設計和開發研究(design and development research)以及效果評估(impact evaluation),三者依序筑就了一條完整的教育知識生產“管道”。其中,位于“管道”最后一環的效果評估,是指對那些以基礎性和探索性研究為知識基礎而被科學設計與開發的政策、項目、產品或服務達成其預期結果和最終目標的能力進行可靠估計,以生產效果證據(Earle et al.,2013,p.49)。就基礎教育項目而言,效果評估最為主要的目的是判斷項目的績效或價值,利益攸關者可將這一判斷結果用于多種用途,包括項目采納決策、項目研發或項目管理的改進與完善,等等(Fitzpatrick,Sanders,&Worthen,2011,p.16)。
而這種對項目在現實世界情境(real-world settings)中的實施效果進行評估的特殊研究目前也已發展成為美國新近興起的循證教育改革(evidence-based reform in education)的證據來源(時晨晨,2020,第55 頁)。所謂循證教育改革,是指教育政策制定者和教育實踐者基于教育研究者循證教育研究的證據結果,尤其是利用嚴格實驗研究方法開展的高質量效果評估研究的證據整合結果,來決策和實施“被證據證實”(evidence-proven)的教育項目、產品或服務的教育改革政策與實踐。與美國以往的教育市場化與標準化等制度性改革不同,這場新近興起的循證教育改革運動將變革的著眼點聚焦在學校與課堂層面上,變革的核心要素有四—項目研發、效果評估、證據整合和學校改進,它們分別構成了循證教育改革的首要前提、證據來源、直接依據和實踐落地(時晨晨,2020,第1 頁)。由此也不難看出,項目效果評估在整個循證教育改革中具有承前啟后的重要意義。
盡管項目效果評估的教育研究價值與教育改革意義重大,但實施一項高質量的評估研究并非易事。從項目方這一角度而言,需要周全考慮評估研究的資源前提、人力輸入、開展過程以及成果輸出等諸多環節。那么,實踐發展根基相對堅實的美國基礎教育項目效果評估目前在這些環節上到底積累了哪些較為成熟的實踐經驗?
相較于包括中國在內的世界許多國家,美國基礎教育項目效果評估的實踐起步較早。諸多文獻均指出,其實踐源頭可以追溯至19 世紀以前。不過,其現代意義上的效果評估則是伴隨著1965 年《初等和中等教育法》(Elementary and Secondary Education Act,ESEA)的頒布而出現的。該法案推動美國聯邦政府為基礎教育事業的發展投入了大量的經費(例如學前教育的“開端計劃”項目),但隨之而來的擔憂是,這些經費投入的效果到底如何?所以,提議經費接受者需提交效果評估報告的聲音開始不斷涌現(Fitzpatrick et al.,2011,pp.44-45)。
在此后的20 世紀70—90 年代,效果評估開始茁壯成長與發展。它的實踐表現主要有:首先,在評估的專業人員上,高校爭相開設相關學科、專業、學位項目和課程,培養與訓練評估研究人才。第二,在評估的專業社群上,美國教育研究協會(American Educational Research Association,AERA)評估分部(Evaluation Division)、教育評估標準聯合委員會(Joint Committee on Standards for Educational Evaluation,JCSEE)、美國評估協會(American Evaluation Association,AEA)等組織先后成立。第三,在評估的專業期刊上,《教育評估研究》(Studies in Educational Evaluation)、《評估季刊》(Evaluation Quarterly)、《評估新動向》(New Directions for Evaluation)、《教育評估與政策分析》(Educational Evaluation and Policy Analysis)、《美國評估期刊》(American Journal of Evaluation)等先后被創辦。第四,在評估的專業規范上,教育評估標準聯合委員會于1981 年發布首版《項目評估標準》(Program Evaluation Standards),1995 年美國評估協會發布首版《評估人員指導準則》(Guiding Principles for Evaluators)。
“21 世紀是評估的時代。進入新世紀后,項目效果評估迎來了激動人心的發展階段(Fitzpatrick et al.,2011,p.V)。”在2002 年《不讓一個孩子掉隊法》(No Child Left Behind,NCLB)時期,一方面由于教育問責體制的建立與需求,美國基礎教育項目效果評估開始更為關注研制效果測量指標,并評估項目在這些指標上的具體效果表現(Fitzpatrick et al.,2011,pp.53-54)。另一方面由于對教育研究事業強有力的經費支持,美國基礎教育項目效果評估逐漸采用嚴格揭示因果關系的實驗與準實驗研究方法(Borman,2002),為此,不少學者認為美國教育研究的軌道開始發生轉向(Angrist,2004)。
在2015 年《每個學生都成功法》(Every Student Succeeds Act,ESSA)這部新修訂的聯邦教育法頒布后,美國基礎教育項目效果評估也開始獲得了新的實踐發展:第一,證據等級界定。該法之于效果評估的重要意義之一就在于其對“證據”的明文定義與等級劃分。第一等級的“強有力”(strong)證據和第二等級的“中等的”(moderate)證據分別是指來自精心設計且被良好實施的實驗研究和準實驗研究的統計顯著積極效果,這為高質量效果評估的研究設計指明了明確方向。第二,經費資助提升。其典型表現是美國教育科學研究院對效果評估的研究資助不斷提升,2021 財年的單項立項資助上限已上調至380 萬美元(U.S.Institute of Education Sciences,2020,p.5)。第三,管理系統建立。2018 年10 月31 日,美國教育科學研究院與美國教育效能研究學會(Society for Research on Educational Effectiveness,SREE)聯合推出“效力和效能評估研究注冊系統”(Registry of Efficacy and Effectiveness Studies,REES)。它鼓勵評估人員在該系統中提前登記即將開展的因果推斷性效果評估,具體包括隨機對照實驗(randomized controlled trial,RCT)、準實驗設計(quasi-experimental design,QED)、斷點回歸設計(regression discontinuity design,RDD)和單個案實驗設計(single-case experimental design,SCED)等四種研究方法,目的是為了增加效果評估開展過程的透明度以及成果使用的開放度。不少評估人員將其視為效果評估發展歷程上一項具有里程碑意義的政策支持(Slavin,2018)。
在2015 年《每個學生都成功法》對學生出勤這一教育問題的重視與問責背景之下,美國約翰·霍普金斯大學教育研究與改革中心(Center for Research and Reform in Education,CRRE)①的“《每個學生都成功法》證據庫”(Evidence for ESSA)②目前已經完成了對全美境內基礎教育階段學生出勤改進項目效果評估的證據整合(evidence synthesis)③。
具體而言,該庫基于如下十條嚴格的篩選標準④,篩選出如表1 所示的18 個學生出勤改進項目的25 項高質量效果評估研究(Shi et al.,2019,pp.8-11)。第一,研究應對美國基礎教育階段的學生出勤改進項目進行效果評估,且所評估的項目需是校本的、能夠被傳統公立學校自主采納和實施的。第二,研究的撰寫語言須為英語,發表時間在1990 年之后。第三,研究必須使用隨機對照實驗或準實驗設計的研究方法。如果是匹對分配,分配需在項目干預實施前完成,事后匹配(post-hoc)或回顧性(retrospective)研究不予考慮。第四,研究中項目干預的實施時長不能低于12 周。第五,研究必須設置有同實驗組相似的對照組,以接收替代性項目干預或正常教育教學。第六,研究中的實驗組和對照組必須包含30 名以上的學生。如果分配水平是在班級水平或學校水平上,實驗組和對照組必須均包含2 個及以上的班級或學校。實驗組和對照組的流失率不能超過50%,兩組之間的流失率差距不能大于15%。第七,研究需展示實驗組和對照組初始樣本的基線等值(baseline equivalence),即不超過0.25 個標準差。此外,兩組流失后的最終樣本的基線等值也不能超過0.25 個標準差。如果研究中沒有呈現兩組學生的出勤率基線數據,那么必須要提供兩組樣本在人口統計學和學業成績上的基線等值,亦即,兩組樣本的人口統計學基線等值不能超過0.50 個標準差,學業成績的基線等值不能超過0.25 個標準差。第八,研究必須定量測量學生的學校出勤(school attendance)效果,比如出勤率或缺勤天數,而不是學生的項目出勤(program attendance)結果。研究中出勤數據的收集必須來自學校記錄或教師報告,不能來自家長或學生自己的匯報。第九,研究對出勤效果的分析必須要使用意向處理分析(intent-to-treat,ITT),而不是處理中的處理分析(treatment-on-the-treated,TOT)。第十,研究必須要提供充分的數據分析結果以計算出項目出勤效果的效應值(effect size)和統計顯著性(statistical significance)。

表1 25 項高質量學生出勤改進項目效果評估研究
為了有效解答上述研究問題并得出可信的研究發現,本文不僅以表1 中的25 項高質量學生出勤改進項目效果評估研究個案作為文本分析對象,而且還對它們進行了深入的主題文本分析(thematic text analysis)。作為質性文本分析(qualitative text analysis)的基本方法之一⑤,主題文本分析是指對文本中的相關內容(如話題、論斷、經驗等)進行主題式探究,例如探究文本中“人們關于氣候變化的看法”,具體分析過程則通常包含有初步閱讀文本、建構主要主題、初始編碼過程、整理主要主題編碼、確定次要主題、二次編碼過程、分析主題與呈現結果等七個典型階段(Kuckartz,2014,pp.41+70)。
就本文而言,25 項高質量學生出勤改進項目效果評估研究的主題文本分析過程主要表現為:第一階段,通讀紙質文本。將25 項評估打印出來之后,帶著研究問題、有目的地閱讀紙質文本,并在文本中的相應地方進行標記、注釋、評論以及備忘記錄。第二階段,演繹一級主題。在對25 項評估文本有了整體了解之后,立足研究問題,并以“評估研究的實踐邏輯(包括資源前提、人力輸入、開展過程和成果輸出等)”為依據,自上而下演繹式建構⑥出“評估經費”“評估人員”“評估開展”與“評估成果”這四個互斥的一級主題,作為“美國基礎教育項目效果評估實踐經驗”的核心分析框架。第三階段,初始人工編碼。由于25 項評估文本的撰寫語言為英語,且數量也并不算多,為了有效地進行中文編碼,筆者在經過反復深入地閱讀、理解與挖掘后,采用人工編碼的方式,從文本中提取同四個一級主題相關的描述或信息,手動記錄在編碼單中。第四階段,分析一級主題。在初始編碼工作完成后,開始對四個一級主題的編碼單進行粗略的系統分析。具體的分析路徑主要有三:一是事實統計,如評估經費項數;二是實體識別,如評估人員來源組織;三是語義分析,如評估問題表述。第五階段,歸納二級主題。基于一級主題的初步聚類分析結果,在各個一級主題之下自下而上地歸納式凝煉出三個互斥的二級主題,亦即,進一步細分出“評估經費來源”“評估經費籌措”“評估經費使用”“評估人員來源”“評估人員選擇確定”“評估人員角色定位”“評估規劃”“評估設計”“評估實施”“評估發現”“評估結果”和“評估產品”等十二個二級主題。第六階段,二次人工編碼。重新梳理此前一級主題編碼單上的已有編碼,并合理歸類與放置在各個二級主題之下。第七階段,分析二級主題并呈現研究發現。不同于一級主題,該階段對二級主題編碼單的聚類分析更加細致、全面,并且還是在一定理論指導之下進行的。最后,按照一二級主題分析框架這一最為常見的主題文本分析呈現方式⑦,有序撰寫并清晰勾勒出如下美國基礎教育項目效果評估實踐經驗的研究發現。
項目效果評估的財力、人力、物力和時間成本巨大,其成功開展離不開充足的經費支持這一首要資源前提與條件保障。目前美國基礎教育項目效果評估的經費支持具體在經費來源、經費籌措以及經費使用上積累出以下實踐經驗。
美國基礎教育項目效果評估的經費支持一般來源于四大渠道:聯邦政府、州政府和地方政府,社會上的基金會、公司和企業、研究機構等組織,高校和研究人員個人,以及項目研發或管理組織。
第一,聯邦政府通常是項目效果評估的首要政府經費來源。25 項高質量學生出勤改進項目效果評估研究尤其得到了來自聯邦教育部(Department of Education)、聯邦衛生與公眾服務部(Department of Health and Human Services)、聯邦司法部(Department of Justice)和聯邦農業部(Department of Agriculture)這四個聯邦行政部門(Executive Department),以及國家藝術基金會(National Endowment for the Arts,NEA)和國家與社區服務公司(Corporation for National and Community Service,CNCS)這兩個聯邦獨立機構(Independent Agency)的經費支持。州政府和地方政府的公共經費也通常是項目效果評估的次要政府經費來源。第二,社會上一些對教育事業投資感興趣的基金會、公司和企業、研究機構等組織也會為項目效果評估提供捐贈,是項目效果評估的重要社會經費來源。第三,如果項目效果評估的研究人員來自高校,那么其所在高校的相關部門及其個人的研究經費也是評估的潛在經費來源。第四,項目研發或管理組織有時也會對自己項目的效果評估提供一定經費支持。盡管這一情況在25 項高質量學生出勤改進項目效果評估研究中并不多見。
美國基礎教育項目效果評估的經費支持不僅來源豐富,具體的籌措工作也別具特色。25 項高質量學生出勤項目效果評估研究的經費籌措尤其展現出如下經驗做法。
首先,就籌措的主體而言,項目效果評估的經費籌措通常是多位作者的集體行動。所謂“集體行動”(collective action),是指評估研究的多位作者為了研究的集體利益,充分利用自己的資源與優勢,共同承擔經費籌措任務(Savage,2000,pp.13-16)。其次,就籌措的路徑而言,項目效果評估的經費籌措往往會呈現出一定的針對性、競爭性與就近性特征。“針對性”,是指根據項目干預類型、發展成熟度以及效果評估目的等有目標有針對地籌措評估經費。“競爭性”,是指項目效果評估的經費申請往往會經歷一個同行評審的、差額的、競爭性的評選過程,尤其是在申請政府這一渠道的評估經費時,更是如此。“就近性”,是指項目效果評估就近尋求評估開展地的經費資助,尤其表現在尋求社會這一渠道的評估經費上。最后,就經費籌措的結果而言,匯聚與整合來自各個渠道的各項評估經費,以全力支持評估開展,是項目效果評估經費籌措的最終結果。
美國基礎教育項目效果評估所獲的經費支持,每一項少則數十萬美元,多則數百萬美元。那么,這些金額巨大的研究經費到底用在了哪些方面?事實上,美國基礎教育項目效果評估的時間戰線通常較長,25 項高質量學生出勤改進項目效果評估研究中最長的歷時六年,經費使用基本上貫穿整個項目效果評估的研究全程,尤其使用在如下四個方面上:
第一,評估啟動。項目效果評估的啟動具體是指評估開展過程中啟動階段的評估規劃與設計工作。第二,評估實施。項目效果評估的實施主要包括評估開展過程中實施階段的樣本招募與分配、干預培訓與實施、效果數據收集等。第三,評估結果撰寫。項目效果評估的開展過程固然重要,但之后的效果數據分析、評估發現解釋、評估結果撰寫等工作也不容忽視。第四,評估產品傳播。如前所述,項目效果評估的目的是為了判斷與使用。所以,將評估產品分享給教育政策制定者、教育實踐者等利益攸關者以充分發揮評估的價值與意義,是整個項目效果評估的最后一站。
項目效果評估的人力成本極高,尤其需要兩大類核心群體的人力輸入—評估人員和利益攸關者。而作為評估研究的領導者與開展者,前者因其專業的知識與技能更是會對評估研究產生重要影響。目前美國基礎教育項目效果評估的評估人員輸入具體在人員來源、選擇確定以及角色定位上表現出如下實踐經驗。
美國基礎教育項目效果評估的評估人員主要來自高校、社會研究機構、政府機構中的相關評估部門等三類專業組織。
第一,高校。25 項高質量學生出勤改進項目效果評估研究中有14 項是由高校研究人員領頭開展的。具體來看,有的是由來自同一家高校的研究人員共同開展,有的是由來自多家高校的研究人員合作開展,也有的是由高校研究人員一人獨立開展。這些來自高校的評估人員大多為熟練掌握項目效果評估研究方法與技術的教授、副教授、助理教授、博士后研究員和博士生。第二,社會研究機構。余下11 項則是由一些提供項目效果評估服務的社會研究機構領頭開展,其中較為知名的有蘭德公司(RAND Corporation)和美國研究所(American Institutes for Research,AIR)等。這些社會研究機構中評估人員的技術職稱多為研究員和研究助理。第三,政府機構中的相關評估部門。盡管25 項評估中沒有一項是由政府評估部門領頭開展的,但“第二步”項目高質量效果評估研究(Neace &Mu?oz,2012)的第二作者是來自杰斐遜公立學校系統(Jefferson County Public Schools)問責、研究與規劃部(Department of Accountability,Research and Planning)的評估專員(evaluation specialist)。
盡管能夠領導和開展項目效果評估的評估人員來源廣泛,但具體到某一特定項目上,如何選擇與確定合適的評估人員仍是一門值得深思的學問。
對25 項高質量學生出勤改進項目效果評估研究的評估人員的選擇與確定進行分析后發現:第一,對于那些由評估人員自行發起的項目效果評估(11 項),評估人員就是他們自己,不會經歷項目研發或管理組織或者學區對其的選擇與確定。他們自籌經費、組建團隊開展對某一特定項目的效果評估,主要是出于專業發展的需求或興趣。第二,對于那些由項目研發或管理組織或者學區基于項目研發或管理改進或者學區教育改進等目的而發起的項目效果評估(14 項),評估人員的選擇與確定往往會經歷一個全面考量的過程,并且會重點思考以下因素:項目類型與特征,項目研發或管理組織所在地、內部自我評估能力、外部評估資源與合作基礎,學區所在地,效果評估開展地,外部評估人員所在地、專業知識與技能,經費支持方的要求與限制尤其是其推薦合作的外部評估資源,等等。
評估人員確定后,從項目方角度來看,他們可以被劃分為三類—內部評估人員、外部評估人員和內外合作評估人員。這些不同類型的評估人員角色定位會對整個項目效果評估產生不同的潛在影響。
1.在地的內部評估人員
內部評估人員(internal evaluator),也被稱為在地評估人員(on-site evaluator),是指項目效果評估的開展者來自項目研發或管理組織內部,是組織雇員(Giancola,2014,p.3)。25 項高質量學生出勤改進項目效果評估研究中有5 項是由項目研發或管理組織的內部評估人員領導與開展的。例如,“早期預警干預和監督系統”項目高質量效果評估研究(Faria et al.,2017)的七位評估人員均是項目研發組織美國研究所的雇員,其中,該評估的首席研究員還是項目的研發人員之一。
內部評估人員的“在地性”角色屬性,會對項目效果評估產生一些潛在的積極影響:第一,熟悉和了解項目以及項目研發或管理組織,有利于評估工作的迅速啟動;第二,熟悉和了解評估的利益攸關者以及他們在這項評估中的利益、關切點和影響力,有助于促進最終評估結果的最大化使用;第三,即便評估工作結束,內部評估人員本身在項目研發或管理組織中的存在也能夠時刻提醒他人這項評估結果,有益于增強評估結果的長遠影響力。此外,內部評估人員也會產生一些潛在的消極影響:第一,由于內部評估人員距離項目太近,很可能會導致他們不能夠客觀地認清項目;第二,盡管一些成功的內部評估人員能夠克服來自視角上的障礙,但難以克服職位上的障礙(Fitzpatrick et al.,2011,pp.28+274)。
2.第三方的外部評估人員
外部評估人員(external evaluator),也被稱為第三方評估人員(third-party evaluator)、獨立評估人員(independent evaluator)、評估顧問(evaluation consultant)或評估承包商(evaluation contractor),是指項目效果評估的開展者來自項目研發或管理組織外部而非內部雇員。由外部評估人員開展的評估研究,通常也被稱為“第三方獨立評估”(independent third-party evaluation)(Fitzpatrick et al.,2011,p.271)。25 項評估中有18 項是由非項目研發或管理組織雇員的外部評估人員領導與開展的。
外部評估人員由于他們遠離項目研發或管理組織的角色屬性以及過硬的專業技能(如果選擇正確的話),會給項目效果評估帶來一些潛在的積極影響。第一,外部評估人員通常具有更大的行政和財政獨立性,因而社會公眾會普遍認為其開展的評估是公正的、客觀的和可信的。第二,外部評估人員能夠為某一特定項目的效果評估帶來新鮮的外部視角,以及更廣和更深的專業知識與技能。第三,利益攸關者有時更愿意將一些敏感信息暴露給外部評估人員。第四,外部評估人員能更無負擔地全面呈現評估結果、揭露不受歡迎的消息、倡議項目改革(Fitzpatrick et al.,2011,pp.28+273)。但是同樣也由于外部評估人員的非“在地性”,不僅使其不能具備上述內部評估人員對評估研究的潛在積極影響,甚至還會因此增加評估研究的時間成本和差旅成本(Hatry,Winnie,&Fisk,1973,p.119)。
3.取長補短的內外合作評估人員
項目的內部評估人員與外部評估人員并非互斥,可以共同合作,組建成內外合作評估人員團隊,這被認為是確保評估質量以及結果使用的最佳安排(Giancola,2014,p.5)。25 項評估中有2 項是由項目研發或管理組織的內外部評估人員合作開展的。
內外合作評估人員不僅可以取長補短,對共同合作的評估產生潛在積極影響。例如,內部評估人員可為外部評估人員補充項目的背景性信息;由內部評估人員負責收集數據可以有效節約外部評估人員在此的時間成本和差旅成本;敏感的評估結果由外部評估人員負責向利益攸關者解釋更容易被接受與認可;即便外部評估人員撤離后,內部評估人員也能繼續引導對評估結果的使用。而且從長遠來看,外部評估人員與內部評估人員的合作也有助于增進項目研發或管理組織內部的自我評估能力(Fitzpatrick et al.,2011,p.275)。
項目效果評估的經費支持與評估人員到位后,關鍵的評估過程便提上日程。盡管評估研究的開展過程非常復雜,但目前美國基礎教育項目效果評估的科學開展在評估規劃、評估設計和評估實施這三個核心環節上均積累了豐富的實踐經驗。
項目效果評估的評估規劃通常會明確和定位評估研究的類型與問題。
1.不同評估目的之下的評估類型
效果評估的研究類型可被細分為三種—效力(efficacy)評估、效能(effectiveness)評估和推廣(scale-up)評估。三者的主要區別在于評估目的、評估中的項目實施情境、項目研發或管理組織工作人員對項目實施的支持程度以及評估所面向的學生群體(Earle et al.,2013,p.9)。
第一,效力評估。效力評估允許項目的效果評估發生在“理想”的“溫室”情境中,此時項目研發或管理組織工作人員參與和支持項目實施的程度高于通常情況,他們也會選擇將研究限制在所感興趣的某類學生群體上。為此,效力評估通常適用于新近研發的項目以初步測試項目效力(Flay et al.,2005),也常被用來將項目此前的評估研究復制到不同的實施情境中或學生群體里。25 項高質量學生出勤改進項目效果評估研究中的絕大多數是效力評估。第二,效能評估。效能評估是對“典型”學校教育教學情境中項目的實施效果進行評估,這主要考慮到學校里的教育教學實踐并非發生在嚴格控制的實驗室里,而是在現實世界情境中(Giancola,2014,p.25)。此外,項目研發或管理組織工作人員參與和支持項目實施的程度與通常情況并無二致。一般而言,被效力評估證實有效的項目會進一步開展效能評估,以證實其在現實世界情境中的真實效果。25 項評估中僅有3 項為效能評估。第三,推廣評估。同效能評估一樣,推廣評估是在項目研發或管理組織工作人員沒有過多參與和支持的“典型”情境中開展的,主要評估項目在更廣地域范圍上和更加多樣化學生群體里的效果。它的存在,主要是因為被效能評估證實在現實世界情境中有效的項目并不一定做好了大規模推廣的準備(Gottfredson et al.,2015)。所以,評估那些已經被效能評估證實有效的項目在大規模推廣時的效果,能夠為推廣決策提供重要參考依據。25 項評估中尚未有任何一項屬于推廣評估。
2.有益效果證據獲取的評估問題
項目類型的多樣性以及評估類型的多樣性也在一定程度上決定了評估問題的多樣性。盡管評估問題可以多種多樣,但高質量的項目效果評估研究一般會提出盡可能開放的評估問題,避免“是或否”的封閉式問題,例如“某項目有效嗎”,因為這類問題會限制評估研究的信息獲取(Giancola,2014,p.24)。
就25 項高質量學生出勤改進項目效果評估研究的評估問題而言,它們均含有一個核心或根本要素,即“項目效果或項目影響”。有些評估問題會在這一核心要素基礎之上繼續突出評估的研究方法,有些會強調評估中的項目實施情境與時長,還有些會指出評估的研究樣本或者效果指標。
項目效果評估的評估設計會思考和厘清評估研究的理論基礎、評估方法與效果指標。
1.以項目理論為首選的理論基礎
項目效果評估的研究設計通常會首先考慮用項目理論(program theory)作為評估研究的理論基礎。而這種在項目理論驅動下的評估,也會被稱為基于理論的評估(theory-based evaluation)或者理論驅動式評估(theory-driven evaluation)(Fitzpatrick et al.,2011,p.160)。所謂項目理論,其實質是對項目研發之初所建構的邏輯模型(logic model)的深入,是在要素式的邏輯模型基礎之上進一步揭示出項目發生作用的因果機制或變化過程。因此,項目理論能夠為整個評估研究提供一個結構性的理論框架,指導評估人員更好地確定后續評估方法與效果指標,以及解釋最終評估發現(Fitzpatrick et al.,2011,pp.161-162)。
例如,“閱讀、寫作、尊重和解決”項目的高質量效果評估研究(Jones,Brown,&Lawrence,2011)明確指出其所依賴的理論基礎是該項目的“多水平項目理論”(multilevel program theory)。它揭示了:第一,該項目的作用變化過程發生在多種水平上,如學生個體、課堂以及學校等;第二,該項目的核心作用領域(即社會—情感)會對項目的次要領域(即學業學習)產生影響;第三,該項目是在動態系統中、在多種水平上、多個領域里隨著時間的推進而不斷發生作用效果的變化。在這一項目理論的指導下,評估人員對評估研究的設計是:第一,分別測試該項目在學生水平、課堂水平和學校水平上的效果;第二,同時測試該項目在社會—情感作用領域的效果、學業學習作用領域的效果以及兩個作用領域的交互效果;第三,連續測試該項目在實施第一年、第二年和第三年的效果。
2.以實驗為黃金標準的評估方法
項目效果評估的研究方法多種多樣,包含質性研究方法、定量研究方法和混合研究方法等。它們各有各自的突出優勢:質性研究和定量研究中的相關性研究對于項目效果的定性描述或各關聯因素之間的理論建構十分有益;而實驗研究更能理想地揭示項目干預實施與項目效果產生之間的因果關系,是項目效果評估的黃金標準(Slavin &Cheung,2017)。
具體而言,在實驗研究中,自變量即為在一定情境中實施的項目,因變量為期待產生的項目效果(Mertens &Wilson,2019,p.63)。高質量的實驗研究通常會設置實驗組和對照組兩組樣本,實驗組樣本接受項目干預,而對照組樣本則接受其他替代性項目干預或正常教育教學。根據實驗組和對照組的分配策略,高質量的實驗研究還可被進一步細分為隨機對照實驗與準實驗設計。隨機對照實驗的分配策略是隨機分配,即樣本以同等的機會被隨機分配到實驗組和對照組,這有利于將兩組的分配偏差控制到最低程度。而準實驗設計的分配策略則是匹對分配,即首先確定實驗組,然后再根據一些關鍵變量(如人口統計學變量、學業成績等)為實驗組樣本匹配相似的對照組樣本。因此,相較于隨機對照實驗,準實驗設計在實驗組和對照組的分配上存在一定的分配偏差,通常被視為前者的替代性方案,適用于無法隨機分配樣本的情況。除此之外,在高質量的實驗研究中,實驗組和對照組樣本的分配水平也有兩類,一是學生、教師等個體水平上的分配,二是班級、學校或學區等群組水平上的分配。“《每個學生都成功法》證據庫”對高質量項目效果評估的篩選條件之一即是利用隨機對照實驗或準實驗設計的研究方法,在最終篩選出的25 項高質量學生出勤改進項目效果評估研究中有24 項是隨機對照實驗,其中有14 項是學生水平上的,余下10 項是學校水平上的;而僅有的1 項準實驗設計的分配是在學校水平上。
3.客觀、可測量、非自制的效果指標
項目效果到底如何測量?這尤其是利用了隨機對照實驗和準實驗設計方法的項目效果評估在設計階段需要重點思考的一個問題,它直接關系到后續實施階段的效果數據收集以及評估問題最終能否被有效解答。為此,評估人員通常會在此階段明確制定項目預期作用結果(outcome)的測量指標(measure),即能夠指示出項目在一定情境中對實施群體產生預期作用的程度的變量(variable)。總的來說,高質量的效果測量指標應該是客觀的、可觀察的、可測量的、非項目研發人員或項目評估人員自制的,許多既有研究表明自制指標會對實驗組有利進而夸大項目效果(Slavin,2019)。
25 項高質量學生出勤改進項目效果評估研究中的效果測量指標也是緊緊圍繞如何有效解答評估問題來確定,均是客觀的、可測量的、非自制的。它們中既有同項目類型⑧相關的效果測量指標,如學業成績、社會—情感、輟學、犯罪逮捕等,也有出勤效果測量指標。就其中的出勤效果測量指標而言,25 項評估又確定了多種形式的子指標,如學年度的出勤率、缺勤率、出勤天數、缺勤天數、無故缺勤天數、出勤率在95%以上的學生比例或者慢性缺勤的學生比例等。
項目效果評估的評估實施也會重視并做好樣本招募、干預實施以及數據收集。
1.首先進行的樣本招募與分配
在利用了隨機對照實驗和準實驗設計研究方法的項目效果評估中,樣本招募與分配是評估正式實施階段的首項重要工作。
第一,就學校水平上的實驗組和對照組樣本招募而言,“積極行為”項目的一項高質量效果評估研究(Bavarian et al.,2013)首先根據評估開展地點和項目干預對象,將樣本學校鎖定為芝加哥公立學校系統(Chicago Public Schools)中的483 所K-6/8 年級學校。然后,依據六條標準篩選出68 所待招募學校。經過溝通,18 所學校同意參與評估。最后,基于諸多人口統計學變量確定了7 對人口統計學特征相似的、最優匹配的實驗組與對照組學校。第二,至于學校水平上的實驗組和對照組的隨機分配程序,“積極行為”項目的這項評估研究在確定了7 對最優匹配的實驗組與對照組學校后,利用電腦的隨機數字生成器(computer-based random number generator)賦予每對學校中第一所學校“0”或“1”的數字編號。被賦予“0”的學校自動歸入實驗組、“1”為對照組,它們所配對學校則相應被歸列為對照組或實驗組。至此,該評估研究的隨機分配工作全部完成。最后,再來看學校水平上的實驗組和對照組的匹對分配程序。“第二步”項目的高質量效果評估研究(Neace &Mu?oz,2012)以杰斐遜縣公立學校系統中已實施該項目的學校為實驗組,從學區余下未實施該項目的學校中挑選出同實驗組學校人口統計學特征較為相似的對照組學校。為了進一步縮小因匹對分配而導致的實驗組學校和對照組學校的基線差異,評估人員還進一步基于學生的五大人口統計學變量對實驗組學校和對照組學校里的學生進行個體層面的匹配。
2.培訓之后的干預保真實施
在利用了隨機對照實驗和準實驗設計研究方法的項目效果評估中,項目干預在實驗組中的實施也非常重要,它直接關乎到項目效果目標的實現以及后續效果數據的收集。
首先,就項目干預的實施時長而言,高質量的項目干預實施至少持續12 周。已有大量研究表明,較短的干預時長會夸大干預效果。其次,項目干預實施的主體會因干預路徑不同而不同。有的是學校任課教師,有的是學區或學校管理人員,有的是家長和社區伙伴,有的是項目研發或管理組織工作人員,還有的是由多種不同身份的人員組成的干預實施團隊。再次,項目研發或管理組織或者學區一般會對實驗組的項目干預實施提供一定的培訓與支持。例如,在“追求公平和恢復性社區”項目的高質量效果評估研究(Augustine et al.,2018)中,項目研發組織恢復性實踐國際研究所(International Institute for Restorative Practice,IIRP)在項目實施前組織了一個為期四天的專業發展培訓,實驗組學校的全體教職員工被要求必須完整參加前兩天培訓,余下兩天可自主選擇;在實驗組學校兩年的項目干預實施期間里,項目研發組織一方面為教職員工發放教材、影像、海報以及其他支持性材料,組織兩周一次的專業發展活動;另一方面還為每位校長配備了一名來自項目研發組織的教練,每月定期與校長領導的項目實施團隊進行會議溝通,以監督項目干預的實施進展并幫助解決實施過程中所遇到的難題與挑戰。除此之外,匹茲堡公立學校系統(Pittsburgh Public Schools)也為實驗組學校的項目干預實施提供了相應的學區資源。最后,項目干預實施的保真度(fidelity)評估也通常包含在項目效果評估中。例如,“出勤和曠課干預及普遍程序”項目的高質量效果評估研究(Berg,2018)還專門開發了針對該項目干預實施保真度的評估工具。
3.反復充分的效果數據收集
在利用了隨機對照實驗和準實驗設計研究方法的項目效果評估中,項目效果的數據收集是評估實施的最后一個關鍵方面,其核心依據是先前設計的效果測量指標,它決定了收集哪些數據、從誰那里收集以及借助什么工具收集等問題。
25 項高質量學生出勤改進項目效果評估研究中的項目效果數據收集對象主要有學生、家長、教師和其他教職員工、學校和學區管理人員以及其他項目干預實施人員等。項目效果數據收集工具則包括州、學區和學校官方記錄、問卷、量表、觀察、訪談、測試等。值得注意的是,項目效果數據收集并非一次完成的,需要在多項效果測量指標、多類數據收集對象、多種數據收集工具、前測與后測以及各學年度等多個時間節點上進行反復收集,以確保收集到充分的數據信息并計算出項目效果。
項目效果評估最后的重要終端就是輸出評估成果,這同樣不容忽視。目前美國項目效果評估在評估發現、評估結果和評估產品這三個層次評估成果的輸出上,也有豐富的經驗。
在利用了隨機對照實驗和準實驗設計研究方法的項目效果評估中,效果數據收集后的效果數據分析與評估發現解釋更是至關重要。
1.恰當的效果數據分析
通常而言,效果數據分析的方法選擇標準能夠有效回答評估問題。25 項高質量學生出勤項目效果評估研究中絕大多數采用的是多層線性模型(hierarchical linear modeling,HLM)這一統計分析技術。除此之外,25 項評估也均采用了專門針對樣本流失問題的意向處理分析路徑。所謂意向處理分析,是指評估人員獲取和使用所有參與了前測的樣本的后測數據,即便部分樣本在實驗過程中已經流失。它被認為是隨機對照實驗的嚴格數據分析,能夠避免因樣本流失而造成的對實驗組或對照組任何一方有失公平的有利或不利影響(Slavin &Cheung,2017)。在進行了意向處理分析之后,25 項評估中也有部分評估對流失后的最終樣本進行處理中的處理分析⑨。
效果數據分析的最終結果是計算出項目效果的效應值和統計顯著性。前者也被稱為實踐顯著性(practical significance)或教育顯著性(educational significance),揭示的是項目實施在效果測量指標上的真實結果,效應值越大,項目效果越好。后者則揭示的是項目實施與項目效果之間因果關系成立的可能性,P 值越小,因果關系成立的可能性就越大。二者共同決定了項目效果的最終判定。25 項評估的效果數據分析結果顯示,“星火”項目在改進學生出勤上的效應值最高且統計顯著(ES=0.25*),達到了《每個學生都成功法》的“強有力”證據等級。
2.合理的評估發現解釋
如果效果數據分析是對收集到的數據進行信息組織與總結的話,那么評估發現解釋則是在一定理論視角或概念的指導下,對效果數據分析結果的進一步探究、判斷與意義賦予,以便得出評估結論、回答評估問題(Fitzpatrick et al.,2011,p.446)。在評估發現解釋中,錯誤解釋(misinterpretation)和過度解釋(overinterpretation)是兩種需要避免的常見錯誤,而有利益攸關者參與的聯合解釋(co-interpretation)備受鼓勵。
25 項高質量學生出勤項目效果評估研究也基本上都做到了合理解釋評估發現,而且大多數是從項目自身的理論基礎以及項目干預的保真實施等角度對項目效果數據分析結果進行了更加深入的解釋與討論。
盡管“文本寫作同評估研究中的其他技術性任務一樣,也是一項艱難的挑戰”(Weiss,1998,p.295),但通過正式的書面文本輸出項目效果評估結果十分必要,而且一般會進行規范撰寫與多樣呈現。
1.規范的文本撰寫結構
項目效果評估結果文本的撰寫結構沒有一個統一的固定格式,需要評估人員根據多方面因素來確定。不過,令受眾信服的規范文本基本上均包含以下七個核心部分:
第一,導言。25 項高質量學生出勤改進項目效果評估研究在導言部分主要回顧了項目干預所針對的教育問題以及解決或改進這一問題的其他同類項目,重點介紹了該評估的目標項目(包括其邏輯模型、干預路徑等)、評估開展地的教育情境以及對這一項目進行效果評估的背景、目的、類型與問題等。第二,設計。25 項評估在設計部分主要描述了評估的方法設計(包括具體的數據收集與分析方法以及效果測量指標等),評估的倫理審查,評估的樣本招募、選擇與分配,項目干預的培訓與實施。第三,發現。25 項評估在發現部分主要以圖表的形式客觀揭示項目效果數據分析的發現。第四,討論。25 項評估在討論部分主要是進一步解釋評估發現。有些評估還會在這一部分討論項目干預實施存在的問題。還有些評估會討論項目干預實施與項目效果之間的因果機制。第五,總結。25 項評估在總結部分主要概述了評估的結論,評估的創新與局限,相關啟示與建議,如對未來相關評估研究與項目實踐發展方向的建議以及對教育政策制定者和教育實踐者的建議等。第六,致謝與聲明。25 項評估在致謝部分主要對評估所獲的經費支持以及給予評估幫助和奉獻的所有相關人士表示感謝。此外,還通常會聲明評估研究的發現與總結僅是作者的研究結果,不代表評估研究利益攸關者中任何一方的官方立場。第七,附錄。25 項評估在附錄部分主要補充了樣本知情同意書,樣本分配工具,項目干預實施的培訓材料和保真度評估工具,問卷、量表、訪談、觀察等數據收集工具,數據分析的統計模型,以及其他補充性數據分析等。
2.多樣的文本呈現形式
項目效果評估結果的文本撰寫完成之后,以何種形式呈現給評估受眾也需要評估人員深思。就25 項高質量學生出勤改進項目效果評估研究而言,其文本呈現形式主要有以下四種:
第一,技術報告。25 項評估中有15 項以技術報告(technical report)的形式呈現。技術報告也被稱為工作論文(working papers),通常被視為同行評審期刊論文的底稿。因此,相較于期刊論文,技術報告一般會詳細地呈現整個項目效果評估的各個方面,篇幅較長。此外,技術報告也特別重視內容與視覺上的雙重吸引力,通常會有一個精心設計的封面,便于廣告和營銷、吸引受眾(尤其是非專業受眾)閱讀其內容。值得注意的是,雖然評估研究的技術報告大都由評估人員所在組織發布,但有時也會交由項目研發或管理組織或者評估經費支持組織來發布。第二,期刊論文。25 項評估中有8 項以期刊論文的形式呈現。相較于技術報告,正式發表的期刊論文因期刊載體的限制,篇幅大都比較精簡。但考慮到細致呈現評估研究的必要性,許多期刊也在官方網站上開設了網絡附錄,即將評估的支持性信息、補充性材料或附錄的電子版添置在期刊的網站上,受眾可自行查閱并下載。第三,學位論文。25 項評估中有1 項以俄勒岡大學(University of Oregon)博士學位論文的形式呈現。第四,會議論文。25 項評估中也有1 項以美國教育效能研究學會2016 年年會論文的形式呈現。
以各種形式呈現出的評估研究結果即為評估研究的最終產品。但這個產品的完成并不意味著評估的結束,它會被進一步大力傳播與有效使用。
1.媒介助力的產品傳播
評估產品面向社會公眾的宣傳與傳播一般會借助新聞發布、網站公告、博客和社交軟件、郵件訂閱、研究簡報、宣傳手冊、網絡研討會、項目研發或管理組織的年度會議、其他專業社群年會等多種媒介與途徑。
例如,在25 項高質量學生出勤改進項目效果評估研究中,“學校中的社區”組織對《“學校中的社區”芝加哥伙伴項目對學生學業成就影響的實驗證據》(Figlio,2015)這一評估產品的宣傳與傳播主要借助的是該組織的季度簡報這一媒介。而“星火”項目的研發組織“男孩女孩俱樂部”(Boys &Girls Club)主要通過組織的領導人會議、年度會議和網絡信息系統對《“星火”早期讀寫項目的隨機對照實驗評估結果》(Jones,Christian,&Rice,2016)這一評估產品在全美范圍內進行宣傳與傳播。
2.實用本位的產品使用
美國教育評估標準聯合委員會發布的《項目評估標準》首先將“實用”(utility)列為判斷評估研究質量的第一大類標準。因此,通過報告會等多種途徑與形式,同項目研發或管理組織方、評估經費支持方等利益攸關者反復溝通與交流評估產品以充分發揮產品的功能與作用,十分必要且重要。具體來看,評估產品的使用主要包括五種核心類型:第一,工具性使用(instrumental use),指評估產品被直接用來決策或解決問題;第二,概念性使用(conceptual use),指評估產品用來影響受眾的思維觀念;第三,象征性使用(symbolic use),指評估產品無意被真正使用,其意義僅是象征性的存在;第四,勸服性使用(persuasive use),即對評估產品進行選擇性使用,以支持某種既存的立場。第五,辯護性使用(legitimate utilization),指評估產品被決策者用來為某種已定決策辯護(Mertens &Wilson,2019,pp.485-486)。
僅就其中的工具性使用而言,評估產品可被直接用來應對利益攸關者的問責,指導教育政策者與實踐者對項目的采納決策,敦促項目的改進與完善,助力市場營銷與經費申請,等等(Giancola,2014,pp.68-73)。例如,在25 項高質量學生出勤改進項目效果評估研究中,《通過干預家長觀念來減少低年級學生的缺勤》(Robinson et al.,2018)和《通過干預家長錯誤觀念來大規模減少學生缺勤》(Rogers &Feller,2018)這兩個“每日在校實驗室”項目評估產品就被項目評估人員(同時也是項目研發人員)用來推進與項目同名的管理組織的建立。
盡管目前美國基礎教育項目效果評估積累了豐富的實踐經驗,但毋庸諱言,美國基礎教育項目效果評估尤其是利用隨機對照實驗和準實驗設計方法開展的效果評估還存在諸多問題:首先,實驗研究方法本身并非完美無缺;其次,在開展過程中,實驗研究還存在耗費大量財力、人力、物力、時間成本的問題,這從25 項高質量學生出勤改進項目效果評估研究的經費、人員、項目干預培訓和開展時長中可以看出;最后,也還存在研究質量不高的問題,這從25 項高質量學生出勤改進項目效果評估研究篩選自2000 余項同類研究中也能夠看出來。⑩
不過值得注意的是,目前美國基礎教育項目效果評估在正視問題、努力提升質量的同時,也開始不斷迸發出新的發展趨勢:第一,激勵學校參與實驗評估。針對“隨機分配是不公平的,剝奪了對照組學校實施項目干預的機會”的批評,以及學校不愿意參與實驗研究尤其是作為對照組的現實問題,項目效果評估項目開始采取一些激勵舉措,譬如,待實驗研究結束后,在對照組學校中補償實施項目干預,或者直接給予對照組學校一定的經費補貼(Slavin &Cheung,2017)。第二,開展復制性效果評估。效仿物理、生物、化學等硬科學領域的科學研究,教育領域同樣也需要對早期階段的效果評估,尤其是顯示出項目積極效果的效果評估,進行復制、驗證與延伸。目前,復制性效果評估在美國也得到了許多引導與資助,例如,2018 年美國教育科學研究院和國家科學基金會又合作推出《教育研究的復制與再現指南》(Companion Guidelines on Replication &Reproducibility in Education Research),以作為2013 年《教育研究與開發指南》的補充。與此同時,美國教育科學研究院在年度教育研究立項資助中還專門設置了針對效力評估復制性研究和效能評估復制性研究的立項資助。第三,開展推廣性效果評估。許多循證教育改革的批判者都表達過“在一些學校里開展的項目效果評估無法推廣到其他不同類型學校”(Slavin,2020)的擔憂,所以,相比于在“理想”和“典型”學校教育教學情境中的效力評估和效能評估,開展在更廣地域范圍內和更加多樣化的學生群體里的推廣性效果評估,更有利于確保被其證實有效的項目在日后的大規模推廣。第四,在效果評估之后繼續進行經濟評估(economic evaluation)。在對項目進行效果評估、判斷項目的實施是否帶來了更好的結果之后,繼續進行成本分析(cost analysis)、成本—效益(cost-benefit)分析、成本—效能(cost-effectiveness)分析等經濟評估,更有利于項目成效的全面評估以及大規模推廣的明智決策。
綜上所述,雖然美國基礎教育項目效果評估的實踐經驗無法完全移植到我國,但為我國教育政策、項目或實踐評估研究的實踐發展提供了如下有益啟發:第一,政府等社會各界需要重視并加大對評估研究的經費支持力度。評估研究并非一日之功,充足的經費會帶來一定的激勵與保障。第二,高校等專業組織需要不斷加強對專門評估人才的培養與訓練。譬如,開設相關學科、專業、學位項目和課程,成立專業社群,創辦專業期刊,發布專業規范。第三,各類評估研究人員需要努力建設科學規范地開展評估研究的能力,尤其是設計和實施高質量實驗研究的能力。第四,相關利益攸關者不僅需要有效使用評估研究成果、充分發揮評估研究價值,也需要盡可能參與到評估研究過程中去。最后,也可嘗試進一步整合教育政策、項目或實踐評估研究的證據發現,建立證據庫,推進科學、有效、可行的循證教育改革。
(致謝:感謝匿名評審專家給本文提出的修改建議。時晨晨工作郵箱:cshi92@ruc.edu.cn。)
注釋:
①美國約翰·霍普金斯大學教育研究與改革中心(https://education.jhu.edu/crre/)的核心業務正是項目效果評估與循證教育改革。
②在2015 年《每個學生都成功法》頒布之后,美國約翰·霍普金斯大學教育研究與改革中心在其原有的“最佳證據百科全書”(Best Evidence Encyclopedia,http://www.bestevidence.org/)基礎之上,于2017 年新建“《每個學生都成功法》證據庫”(https://www.evidenceforessa.org/)。截至目前,該庫已經完成了對全美境內PK-12 年級閱讀、數學、社會-情感學習、學生出勤等領域項目效果評估的證據整合,此外也正在進行科學、寫作、放學后教育、暑期教育等其他PK-12 教育領域項目效果評估的證據整合。
③本質而言,項目效果評估是由評估人員在現實世界情境中開展的一場與多方利益攸關者不斷磋商、妥協與共識的“政治性”(politics)研究。也正是由于其復雜的“政治性”內核屬性,不同評估人員在不同時間與地點開展的對同一項目的效果評估,會存在研究質量不一、效果證據不一等問題。因此,基于嚴格標準篩選出高質量的評估研究,并對它們的證據發現進行系統性綜述(systematic review)和元分析(meta-analysis)十分必要。而整合后的證據結果才是美國這場新近興起的循證教育改革的直接依據。
④這十條嚴格的篩選標準是美國約翰·霍普金斯大學教育研究與改革中心Robert Slavin 教授及其團隊自20 世紀80 年代以來開展的諸多項目效果評估與證據整合研究的經驗產物,能夠有效確保最終篩選出的評估研究是高質量的。而本文以這些高質量評估研究為文本分析對象,是有助于達成研究目的的,因此也是合理的。
⑤除了主題文本分析以外,質性文本分析的基本方法還包括評估文本分析(evaluative text analysis)和類型建構文本分析(type-building text analysis)兩種。評估文本分析是指對文本中的相關信息(如現狀、程度、情感等)進行等級性評估,例如,評估文本中“教師的失業表現”是“高度自信”“一般自信”還是“不自信”等。類型建構文本分析則是指對文本中的相關概念(如模式、屬性、行為等)進行類型學總結,例如,將文本中“失業社群應付失業的心態”總結為“不屈服型”“放棄型”“失望型”和“漠然型”等四種類型。由此可見,本文選擇主題文本分析這一質性文本分析方法是適切的,是有益于解答研究問題并得出研究發現的。
⑥在主題文本分析中,主題建構的方式主要有兩種。一種是基于研究問題、相關理論或者先驗知識以及已有經驗,自上而下的演繹式建構,通常用于主要主題的建構;一種是基于實證數據或資料自下而上的歸納式建構,通常用于次要主題的建構。
⑦主題文本分析的分析與呈現方式主要有七種。除了最為常見的主要、次要主題分析與呈現以外,其余六種分別是:主要主題之間的關系分析與呈現,主要主題之下各次要主題之間的關系分析與呈現,資料呈現、圖示與可視化展示,質性與量化交叉表,案例綜述,對所選案例進行深度詮釋。
⑧盡管18 個學生出勤改進項目均包含有學生出勤干預,但有些項目的核心干預并不在此。所以,如果從核心干預角度來看,這些項目中有些還可以被視為早期讀寫項目、放學后教育項目、社會—情感學習項目、輟學預防項目、暴力預防項目,等等。
⑨所謂處理中的處理分析,是指評估人員僅獲取和使用流失后的最終樣本的后測數據。它能夠解決意向處理分析中使用已經流失樣本的后測數據所存在的問題,但在隨機對照實驗中則會威脅到其原本的隨機分配。
⑩那些被篩選掉的學生出勤改進項目效果評估研究的低質量問題突出表現在:第一,在評估研究設計上,缺少對照組,沒有為實驗組樣本匹配相似的對照組樣本;或者在實驗組實施干預之后為其事后匹配相似的對照組并加以分析;采用項目研發人員或者項目評估人員自制的效果測量指標。第二,在評估研究實施上,樣本量低于30 人每組;項目干預實施時間低于12 周;項目由評估人員實施,或者評估人員對項目實施給予過多支持;缺少對項目干預實施保真度的數據收集。第三,在評估研究結果上,要么沒有使用正確的數據分析方法,例如,沒有根據樣本的分配水平使用正確的統計分析技術,沒有使用針對樣本流失問題的意向處理分析路徑;要么沒有提供充分的數據分析結果以計算出項目出勤效果的效應值和統計顯著性。