編譯 喬琦
經濟學家斯蒂法諾·德拉維尼亞(Stefano Dellavigna)、德文·波普(Devin Pope)和伊娃·維瓦爾特(Eva Vivalt)倡導將研究發(fā)現同科學界、政策制定者和普羅大眾的觀點聯系起來,用預測的方法改善社會科學研究,他們推出了收集社會科學研究結果預期的在線平臺。
在經濟學、心理學、政治學、醫(yī)學等諸多研究領域,人們對那些能夠提高研究嚴謹度和可信度的研究新設計——比如自然實驗、實驗室實驗、隨機對照實驗——越來越感興趣了。同樣令人們越發(fā)感興趣的還有那些能夠提升學術透明度的方法,比如各項假說和方法的預登記制度。這些方法旨在緩解人們對改進研究方法自身無法解決的問題的擔憂,比如“發(fā)表偏見”和“p值操控”。不過,雖然這些努力的確提升了研究結果的信息性和解釋性,但人們卻對同樣可以達成這個目標的另一種手段不怎么關注,即將研究發(fā)現同科學界、政策制定者和普羅大眾的觀點聯系起來。我們認為:研究結果預期的系統收集在如下的三種主要方法中應該是有用的:提升研究結果的解釋性、削弱對無效結果的偏見、改進可預期的準確性和實驗設計。
截至目前,只有一小部分研究收集了對研究結果的預期,包括預計原始研究結果的最近工作和學術研究的重復性。人們對學術研究成果預期的關注相當有限,這點和社會科學領域浩如煙海的相關文獻形成了鮮明對比。這些文獻既探索了人們對一般事務的預測能力,也探索了對宏觀經濟、地緣政治、體育賽事、政治決策等的預測能力。
在這里,我們要強調更加系統性收集研究結果預期的三大主要動因。第一條關系到科學進步的本質。某個領域新研究成果有時建立在共識之上有時卻沒有共識,而人們則是通過它的結論令人驚訝或平淡無奇來評判。反過來,新奇的研究成果又會促使人們更新自己的觀點。然而,我們目前還沒有形成系統程序在研究前捕捉對其預期結果的科學觀點,也沒有能在前期預期基礎上更新觀點。人們對這項研究發(fā)現的預期是什么?知道這個結果會如何影響對未來相關研究結果的預期?
當然,從非正式的角度上說,人們會根據已知事物按常規(guī)評估科研成果的新穎性。然而,他們通常是在事后做這種分析,也就是在已經了解新研究的成果之后。遺憾的是,一旦知道了結果,后見之明(“我早就知道了!”)的偏差會讓研究人員難以準確掌握人們對結果的期待究竟是什么。這就凸顯了事先系統收集結果預期的重要性。
舉個例子,大家現在對各種行為因素和動作的激勵效果爭議很大。如果想推動別人做某件事,禮物的激勵效果會比適度的金錢刺激更好還是更差?為了回答這類問題,研究人員開展了一項實驗,測試了18種不同的行為和刺激手段(比如禮物、社會規(guī)范、金錢刺激)對被試者產生的激勵效果。值得注意的是,研究人員在開始實驗之前就獲取了學術專家、大學學生等群體對每種手段的效果預期。
平均來說,專家的預期還是很準的。此外,借助這些豐富的數據資料,研究人員還能探索各類預期結果的各種特點,比如:“集體智慧”現象的強度、不同專業(yè)背景預測者的相對準確度差別。例如,在上面的例子中,高被引的教師的表現并不比其他教師好,而博士生的表現最好。
另一項研究則提供了一個示例:如何將預期應用于審視和改善研究結果基礎上的信念更新。在與政策制定有關的例子中,一組政策制定者對“有條件扶貧”(conditional cash transfer,即不僅根據被資助家庭的貧困情況,而且還考慮其投資教育等等情況給與幫助的計劃)和“學校餐飲項目”(school meals programs,一個針對公共和非營利學校的聯邦校餐資助計劃)的效果作了預期。他們的觀點非常重要,不僅因為他們是提出和監(jiān)管這些干預手段的人,還因為他們很可能要學習和運用這些干預結果。政策制定者比研究者和實踐者更樂觀,但更不確定。此外,政策制定者、實踐者和研究者都更愿意依據正面的意外新聞而非負面的新聞,對于較大置信區(qū)間的結果和較小置信區(qū)間的結果,三者的反應沒有大的差別,盡管有研究表明應該有差別存在。
收集預期的第二個好處是,它們不僅可以揭示研究結果何時與研究界同行們的期望有大的背離,并改進對研究成果的解釋,而且還可能有助于減少“發(fā)表偏見”。聲稱研究發(fā)現不新奇的例子并不罕見。當研究人員發(fā)現無效結果時,情況尤其如此,即使作者使用的方法嚴謹、回答的問題重要,這些結果也很少發(fā)表。不過,如果在開展研究之前就收集到了預期,那么研究結果肯定會與專家事先的平均預期比較,而不會認為那是沒有結果的無效假設。這樣,研究人員就能確認其結果是在某些意料之外的,而這些結果也可能更加有趣、更有信息量,因為它們與研究界的事前預期不一致。這就有助于減少對無效結果的出版偏見。

系統收集預期的第三個好處是,它提高了預期的準確性。反過來,這可能有助于實驗設計。例如,設想一個行為研究小組,幫助一個城市招募更加多元化的警察部門。該團隊有十幾個想法來接觸少數族裔申請人,但由于樣本數量少要達到足夠的統計功效只能用三階段測試方法。幸運的是,該團隊已經記錄了幾年的預期,跟蹤預期的準確性,他們了解到,他們在整合團隊成員的預期可以給“超級預測者”更高權重。根據預期的縱向數據,該團隊可以得出每個潛在項目的預期,并排除那些被認為成功概率較低的干預措施,或側重于信息價值較高的干預措施。此外,如果與根據常識能夠更好解釋研究結果的預期配合,那么那些研究結果將進一步具有更大影響力。
上述三種預期的廣泛使用突出了兩個重要內容。其一,要想得出具有普遍意義的結論,系統收集預期數據是十分關鍵的一步。例如,既然在任務績效激勵的研究和預期中高級研究員的專業(yè)技能對沒有幫助,那么,什么時候高級研究員的預期比初級研究員更準確?在何種情況下,政策制定者會在過去經驗的基礎上,以類似貝葉斯式的方法更新自己的預期?我們需要一定范圍的預期,包括同一預測者群體隨時間的縱向預期,以確定可能的超級預測者,并檢查對以往預期提供反饋是否有助于提高預期準確性。
其二,與事前分析計劃類似,要在知曉研究結果之前建立預期集,以避免事后偏見的影響。考慮到這些特點,收集未來研究成果預期的集中平臺可以發(fā)揮重要作用。為了實現這一目標,我們同伯克利社會科學開放倡議(Berkeley Initiative for Transparency in the Social Sciences,BITSS)合作,建立了收集社會科學研究結果預期的在線平臺(www.socialscienceprediction.org)。借助這個平臺,個人也能追蹤各項干預的預期結果,研究影響預期準確性的決定因素(比如預測者和干預措施的特征),確認超級預測者。
集中平臺還有一個優(yōu)點。由于收集預期越來越受歡迎,一小部分研究者可能會收到大量預期請求。而集中平臺可以杜絕這種情況,這就類似于編輯在期刊內追蹤審稿申請的方式。只不過集中平臺做得更好,因為編輯不能在不同期刊間追蹤審稿申請。集中平臺的另一項好處是它能提供第三方認證:即預期如何收集及如何與研究人員分享(和用于預登記的平臺類似)。
這個平臺的宗旨是整合從其他預期工作中吸取的經驗教訓,例如:心理學和經濟學領域的重復實驗、“優(yōu)秀判斷計劃”中對地緣政治事件的預期、“專業(yè)預測者調查”中對宏觀經濟指標的預期等。“開放研究和證據系統化信心”(Systematizing Confidence in Open Research and Evidence,SCORE)計劃的目標是開發(fā)專業(yè)工具,用來預期社會-行為科學研究結果的可重復性和可再現性。
這個平臺的細節(jié)還有很多值得推敲的地方。例如,參與項目的預期者是否應該得到報酬(就像某些期刊會給予審稿人酬勞一樣)?我們期望后續(xù)的工作和實驗能夠為這類設計問題提供更清晰的答案。
雖然在本文中,我們把重點放在了事前預期對改善研究結果解釋性的益處,但這類預期在研究和政策中還有許多其他潛在作用。有些研究人員會運用它們探索:何時的預期可以信賴,如何提高預期的準確性。還有一些研究人員則把重點放在了貝葉斯解釋或者研究預期更新上。這類預期對政策制定者可能還有實際價值,他們需要在缺少學術研究可靠證據的情況下做出決策。如此之多的潛在用途很好詮釋了這個工具的使用價值。