凱西·奧尼爾 馬青玲

這個故事開始于1983年,美國一家瀕臨停刊的雜志《美國新聞》決定開展一個規模龐大的項目:評估全美1800所學院和大學,按優秀度為這些學校做一個排名。如果進展順利,這個項目的成果會成為一個有用的工具,可以用于指導數百萬年輕人做好人生中第一個重大的選擇。對于許多人來說,這個選擇將決定他們的職業道路、終身的好友圈,通常還包括終身伴侶。此外,雜志編輯也希望這個大學排名項目能帶動雜志銷量——沒準在推出大學排名的那一周里,《美國新聞》的銷量能追上《時代》和《新聞周刊》呢!
但是,要基于什么數據進行大學排名呢?起初,《美國新聞》的工作人員完全依靠他們寄給各大學校長的調查問卷所得到的反饋結果進行評分。結果,斯坦福大學位居全美綜合性大學之首,阿默斯特學院則是排名第一的文科學院。排名結果雖然很受讀者歡迎,但也令很多大學的校領導憤怒。雜志社收到了排山倒海般的投訴,內容都是控訴排名結果有失公正的。許多大學的校長、在校學生和已畢業的校友堅持認為自己的學校應該獲得更高的排名,雜志社應該再去仔細研究一下有關的數據。
接下來的幾年,《美國新聞》的編輯一直在思考他們具體可以測量什么數據。許多模型誕生了,但其中大量的評估因素僅僅來自直覺。模型確立的過程并不嚴謹,統計分析也缺少根據,模型建立的依據僅僅是人們憑空想象的對教育而言最重要的因素,然后,去尋找可以測量的相關變量,最后隨意地在公式中賦予每個變量一定的權重,模型就完成了。
在大部分領域,模型確立的過程通常是比較嚴謹的。比如,農業學科的研究者會比較投入(土壤、陽光和化肥)和產出(收獲后,具有特定特征的農作物的產量)。然后,他們就可以按照目標,比如一定的成本、口感或者營養價值等進行下一步的試驗和優化。但是,《美國新聞》的編輯所做的是“教育優秀度”排名,這是比糧食成本或者每個麥粒的蛋白質含量更加抽象、模糊的價值。這些編輯沒有直接的方法來量化4年的大學學習過程是如何影響某一個學生的,更不用說數千萬個學生了。他們不可能測量一個學生在4年大學生活中的學習、幸福、信心、友誼等全部方面。美國前總統林登·約翰遜對高等教育的定位是:“高等教育是深化自我實現、擴大個人生產力和增加個人回報的途徑”,但不管是其中的哪一條都不適合放在大學排名模型中。
《美國新聞》的編輯只是挑選了一些和評估目標看似相關的變量。他們研究了高中生的SAT(學業能力傾向測驗)成績、學校的學生教師比和錄取率。他們統計了順利進入大二的新生占總數的百分比和順利畢業的學生占總數的百分比。他們計算仍在世的已畢業校友為母校捐款的人數占總數的百分比,依據是他們給母校捐款很可能表明他們喜歡母校的教育。排名結果中占3/4權重的分數都來自一種算法,這種算法就包含以上那些變量;另外占1/4權重的分數則來自全美各地的大學校長的主觀評價。
當這一排名發展成全美標準時,惡性循環出現了
《美國新聞》第一次依據數據確定的大學排名于1988年出爐,當這一排名發展成全美標準時,惡性循環出現了。排名會自行鞏固,如果一所大學在《美國新聞》所發布的排名中名次靠后,它的聲譽就會下降,生源情況就會惡化。優秀的學生會避開這所大學,優秀的教授也一樣。已畢業的校友將減少捐款。由此,這所學校的排名就會繼續下跌。簡單來說,排名決定了大學的命運。
以前,大學有各種方法可以宣揚學校教育的成功,許多是靠傳聞逸事。例如,某些教授得到了眾多學生的一致好評;一些學生在畢業后走上了杰出的職業之路,成為外交官或者成功的企業家;還有一些學生出版了一流的小說。這些正面事跡經由口口相傳廣為人知,學校的聲譽也由此提升。但是,麥卡利斯特學院就比里德學院好嗎?或者艾奧瓦大學就比伊利諾伊大學好嗎?這很難說。不同的大學就像不同類型的音樂或者不同的飲食習慣,對于某所大學的評價眾說紛紜,好壞兩方面都可以列出充分的理由。而現在,大學的整體聲譽被一組數字蒙上了陰影。
如果你站在大學校長的角度思考這件事情,你會發現大學排名其實是很糟糕的。毫無疑問,絕大多數校長珍惜自己的大學經歷,因為從某種程度上來說,正是大學經歷激勵他們攀登學術階梯,成為一所大學的校長。但是現在,這些正處在事業高峰期的校長需要投入巨大的精力提高與學校教育優秀度有關的15個考核項的分數,而這15個考核項是由一個二流雜志社的一組編輯定義的。他們就好像又回到了學生時代,每天都在祈求老師給高分。如果《美國新聞》發表的大學排名只在小范圍內流行,倒也不會造成什么麻煩。但是,這個排名的影響力發展迅速,很快成為一個全美標準。教育界一下子緊張起來,迅速給大學校長和學生都設定了嚴格的任務清單。《美國新聞》的大學排名模型規模巨大,造成了大范圍的損害,導致了幾乎是無盡的惡性循環。
一些大學的校領導想盡一切辦法提高排名。貝勒大學設立獎金激勵大一新生再次參加SAT考試,希望再考一次能提高他們的成績以及貝勒大學的排名。有些名校,包括賓夕法尼亞州的巴克內爾大學和加利福尼亞州的麥肯納學院,則給《美國新聞》反饋了假數據,夸大了其學校新生的入學分數。2011年,位于紐約的愛納學院承認其學校教師幾乎捏造了所有的數據:考試成績、錄取率和畢業率、新生保留率、師生比和校友捐贈額。但謊言起效了,至少在一段時間之內。據《美國新聞》估算,假數據將愛納學院從東北地區大學排名第50名提升至第30名。
更多的校領導則試圖尋找一種更常規的方式來提高他們的學校排名——努力提升學校在影響最終分數的每一個變量上的表現。他們可能會認為這是效率最高的資源利用方式。畢竟,只要他們努力去迎合《美國新聞》的模型,得到更高的排名,他們就能籌集到更多的資金,吸引來更優秀的學生和教授,然后進一步提高排名。除此之外,還有別的選擇嗎?
大學為了排名展開“軍備競賽”,但排名模型把成本排除在算法外
羅伯特·莫爾斯從1976年起就在《美國新聞》雜志社工作,他是這個大學排名項目的組織者,他在采訪中稱進行大學排名有利于推動大學制定更有意義的目標。如果他們能因此致力于提高畢業率或者把學生分成更小的班級上課以提高教學效果,那就說明排名是件好事情。他承認雜志社拿不到與大學教育優秀度最相關的數據,即每個學校學生的學習內容。但是,基于替代變量建立的《美國新聞》大學排名模型也足夠反映問題了。
但是,當你基于替代變量建立模型時,鉆模型的漏洞會變得容易很多。這是因為替代變量比起它所代表的復雜事實更容易操控。舉個例子,假設有一個網站要聘用一個社交媒體專家,人事經理決定選定一個變量——重點考慮推特粉絲數排名靠前的應聘者。推特粉絲數是社交媒體參與度的標志之一,沒錯吧?但是想象一下,應聘者很快就會無所不用其極地增加推特粉絲。有人會花費19.95美元直接“購買”大量由機器操控的粉絲。因為人們鉆了招聘系統的漏洞,替代變量失去了效力。
在《美國新聞》大學排名事件中,從高中畢業生到大學校友再到公司的人力資源部,人們很快接受了該排名是大學教育質量的一個體現。因此,各個大學只能選擇配合,他們不得不努力提高排名所涉及的每一個考核項的分數。其實,許多學校最焦慮的是那不能控制的占排名結果1/4權重的因素,即聲譽分數,來自各個大學、學院的校領導給出的問卷調查反饋。
2008年,沃思堡市的得克薩斯基督教大學(TCU)排名猛降。三年前,該校的名次是97,之后三年名次遞降為105、108和113。該校的校友和支持者為此感到很憤怒,校長維克多·博西尼也因此陷入尷尬境地。他堅稱得克薩斯基督教大學在每個指標上的表現都在進步,“我們的新生保留率在提高,我們的籌款等所有方面都在改善”。
博西尼的申辯有兩個問題。首先,《美國新聞》排名模型并不是對各個大學進行孤立的判斷。即使是各指標分數均有所提升的學校在排名中也會落后于其他分數提升得更快的學校。用學術術語來說,《美國新聞》的評估模型是一種分布模型。這導致了一場學校間的“軍備競賽”。另一個問題是,得克薩斯基督教大學無法控制占1/4權重的聲譽分數。招生主任雷蒙德·布朗指出,聲譽是模型中權重最大的變量,“這很荒謬,因為它完全是主觀的”。新生招生主管威斯·瓦戈納則指出,為了提高聲譽分數,各大學都在紛紛為自己打廣告。
盡管如此,得克薩斯基督教大學仍然決定著手提升那可控的占3/4權重的分數。這所大學發起了一個2.5億美元的籌款活動。到2009年,學校已募集到4.34億美元,遠遠超過目標額度。由于籌款額是排名的指標之一,僅此一項成績就提升了排名。得克薩斯基督教大學花費了其中的大部分資金用于校園設施改善,其中1億美元用于興建中央商場和學生活動中心,努力讓得克薩斯基督教大學的校園看上去更具吸引力。這些做法本身沒有什么不對,但其初衷是迎合《美國新聞》的排名模型。
也許更重要的是,得克薩斯基督教大學興建了一個其時最高水準的體育訓練場館,并將大量的資源投入到足球項目之中。在接下來的幾年里,得克薩斯基督教大學的角蛙足球隊成為國家強隊。2010年,他們在玫瑰杯足球賽中打敗了老牌強隊威斯康星隊,取得了全美總冠軍。
這次勝利為得克薩斯基督教大學帶來了所謂的“弗洛特爾效應”(the Flutie effect)。1984年,在一場極為精彩的大學橄欖球比賽上,波士頓大學隊的四分衛道格·弗洛特爾在最后一秒完成了一個扭轉敗局的超長距傳球,打敗了邁阿密大學隊。弗洛特爾由此成為一個傳奇。這場比賽結束后的兩年內,波士頓大學的大學申請率上漲了30%。喬治城大學也曾擁有帶來過同樣的宣傳效果的傳奇。該校由帕特里克·尤因帶領的籃球隊三次打進全美錦標賽。看來,贏得體育比賽是吸引學生申請某所大學的關鍵因素。當大批體校的高三學生在電視上觀看大學體育比賽時,球隊實力強勁的學校對他們形成了極大的吸引力。這些學生會為自己是該校的學生、身著寫有該校校名的隊服而感到驕傲。這些大學接到的入學申請因此暴漲。隨著更多的學生申請入學,招生處就可以提高入學門檻,以提高大學新生的SAT平均分,而這有助于提高大學排名。另外,學校拒絕的申請學生越多,其錄取率就越低,對排名就越有利。
得克薩斯基督教大學的策略奏效了。到2013年,該大學已成為得克薩斯州學生選擇度排名第二的大學,排在第一的是著名的休斯敦萊斯大學。這一年,得克薩斯基督教大學的新生高考和入學考試平均成績均達到史上最高水平,其在全美的排名也因此大幅上升。2015年,該校全美排名76,也就是說,僅用了7年時間,該校就上升了37個名次。
現在,我們終于發現《美國新聞》大學排名模型最大的缺陷是什么了。我們不能說《美國新聞》的編輯為評判“教育優秀度”選擇的替代變量是無效的,但他們犯下的更大的錯誤來自他們沒有納入考慮的變量:學雜費、學生助學金。這些變量被該排名模型遺漏了。
這引出了我們將會頻繁討論的一個關鍵問題:建模者的目標是什么?在大學排名這個案例里,你需要站在1988年《美國新聞》編輯們的角度來考慮。當他們在建立第一個統計模型的時候,他們怎么知道這一模型是否有效?首先,如果模型能反映一些已有定論的大學排名,這就表明其有一定的可信度。比如,如果哈佛大學、斯坦福大學、普林斯頓大學和耶魯大學在大學排名模型中位居前列,這就在一定程度上證實了《美國新聞》編輯設計出的大學排名模型是有效的。而要建立這樣一個模型,他們只需要去研究那些一流高校,思考這些大學的特殊之處是什么就可以了。優秀大學的共同點是什么?這些學校與其隔壁鎮的保底學校差距何在?他們發現:優秀大學的新生SAT成績都很高,而且絕大部分都能順利畢業;已畢業的校友都很有錢,會不斷給學校捐款;等等。就這樣,《美國新聞》的大學排名項目組通過分析名牌大學的優勢,建立了一個測量教育優秀度的評估指標體系。
現在,如果該項目組將教育成本納入算法,則其模型輸出也許會發生奇怪的變化——學費便宜的大學很可能因此闖入優秀大學之列,而這一結果將遭到廣泛的質疑。由于公眾可能會把《美國新聞》最終公布的大學排名看得特別重要,因此采取保守、常規的算法,保證一流大學位于排名輸出結果的前列,是一種更安全的做法。當然,高成本也許正是優秀的代價,這也不是沒道理。
《美國新聞》的排名模型把成本排除在算法外,這就好像是給大學校長們遞了一本鍍金支票簿。后者要遵循的唯一指令,就是最大限度地提高15個考核指標的評分,而降低成本則不在其列。事實上,提高學費反而能讓他們有更多的資源用于提升考核項目的表現。
從此,學費一路飆升。從1985-2013年,高等教育的學費上漲了5倍以上,差不多是通貨膨脹率的4倍。為了吸引頂尖的學生,各大學都像得克薩斯基督教大學一樣,紛紛開始大力投入校園基礎建設,建造有玻璃墻的學生中心、豪華的宿舍,以及帶攀巖墻和漩渦浴缸的健身房等。從表面來看,這對學生來說是好事,這些設施可以豐富他們的大學體驗——前提是他們不需要以助學貸款的形式承擔這些費用,償還助學貸款的壓力可能會跟隨學生幾十年的時間。不過我們不能把一切都歸咎于《美國新聞》的大學排名。我們整個社會不僅認同了大學教育是必不可少的這一觀念,而且欣然接受了排名靠前的學校的文憑能幫助學生快速進入特權階層這一事實。《美國新聞》的排名模型以由此而生的恐懼和焦慮為養分,成長為一個龐然大物。排名模型有力地刺激了各方在教育上的不斷投資,而飆升的學費則被忽視了。
(摘自2018年9月21日《文匯報》)