編譯 姚人杰

2018年時,我們著手評估巴西的生物醫(yī)學(xué)論文的可重復(fù)性,從而開始一項(xiàng)多中心的協(xié)作,共有60多家實(shí)驗(yàn)室重復(fù)了巴西科研人員于最近20年發(fā)表的論文中的60個實(shí)驗(yàn)。我們隨機(jī)選擇了一些使用三種常見實(shí)驗(yàn)室技術(shù)的實(shí)驗(yàn),這三種技術(shù)分別為用于測量細(xì)胞活力的MTT實(shí)驗(yàn)、用于檢測特定信使RNA的RT-PCR實(shí)驗(yàn)和用來估定嚙齒類動物焦慮程度的高架十字迷宮實(shí)驗(yàn)。
每個實(shí)驗(yàn)會在三家實(shí)驗(yàn)室進(jìn)行重復(fù)性驗(yàn)證,每家實(shí)驗(yàn)室都依據(jù)原始論文中撰寫的方法擬定出重復(fù)性實(shí)驗(yàn)規(guī)程。協(xié)調(diào)團(tuán)隊(duì)和實(shí)驗(yàn)室之間的溝通過程中,光這些規(guī)程的建立、審議和預(yù)先備案過程就耗費(fèi)了數(shù)月的時間。圍繞著正調(diào)控和負(fù)調(diào)控的意義、定義重復(fù)性實(shí)驗(yàn)成功與否的不同衡量標(biāo)準(zhǔn)的優(yōu)點(diǎn),我們發(fā)生了激烈的爭論。我們也花費(fèi)許多時間在平凡的任務(wù)上,譬如研究不同品牌的博洛尼亞香腸的營養(yǎng)成分,以便更好模仿一個實(shí)驗(yàn)中飼喂大鼠的飲食。
這些僅僅是我們迄今為止作為“巴西可重復(fù)性行動計(jì)劃”協(xié)調(diào)員所面臨的部分障礙:巴西的實(shí)驗(yàn)室由于新冠疫情以及巴西貨幣雷亞爾幣值驟降而大規(guī)模關(guān)閉。由于這些不利條件,實(shí)驗(yàn)進(jìn)度緩慢,目前預(yù)計(jì)項(xiàng)目會在2022年底完成。
盡管如此,我們還是得出一些結(jié)論,而這些結(jié)論不僅僅適用于巴西科研圈。作為一個寬泛的解決方案,更嚴(yán)密的規(guī)程和更詳盡準(zhǔn)確的方法描述很重要,但是對于論文可重復(fù)性來說,這樣的措施并不夠——也許并非對于每篇論文都可行。一部分問題出在當(dāng)前對論文的要求上,也就是要求單篇論文進(jìn)行廣泛的實(shí)驗(yàn)。要解決這些問題,必須改變對于科研論文的期望。
生命科學(xué)的論文比以往更加雄心勃勃。過去20年里,高影響力期刊的數(shù)據(jù)總量已經(jīng)翻番,而大家越來越期望基礎(chǔ)科學(xué)的論文能包括研究結(jié)果如何轉(zhuǎn)化至臨床應(yīng)用的證據(jù)。因此,《自然》之類期刊上的一篇論文最終代表了好幾個人的好幾年研究工作。
然而,這并不是論文可重復(fù)的保證。迄今為止,“可重復(fù)性工程:癌癥生物學(xué)”在17篇高引用論文中,僅僅成功重復(fù)了5篇論文中的主要結(jié)論,而對《科學(xué)》和《自然》中的21篇社會科學(xué)論文的重復(fù)性驗(yàn)證成功率介于57%到67%之間。
許多人呼吁改善這一狀況。已提出的措施包括提高樣本規(guī)模、預(yù)先備案規(guī)程和采用更嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)分析。另一項(xiàng)提議是在實(shí)驗(yàn)方法和模型中引入異質(zhì)性來評估穩(wěn)健性——譬如說,采用一種以上的方法來抑制多種細(xì)胞株或嚙齒類動物品系的基因表達(dá)。在我們的工作中,我們已經(jīng)漸漸體會到,對于單個實(shí)驗(yàn)要遵循這些規(guī)程就要付出極大努力,更毋論一整篇論文了。
甚至在一次RT-PCR實(shí)驗(yàn)中,實(shí)驗(yàn)方法可能在幾十個步驟上有所變動,還有眾多評估材料純度、完整性和特異性的控制手段。將這些步驟統(tǒng)統(tǒng)預(yù)先指定的話,代表一個詳盡徹底、有時徒勞無用的過程,因?yàn)橐?guī)程無可避免地要隨著實(shí)驗(yàn)的進(jìn)行而調(diào)整適應(yīng)。假如對于每個實(shí)驗(yàn)都以可審計(jì)的方式記錄下整個方法,最終會產(chǎn)生擁有數(shù)百行數(shù)據(jù)的電子表格。
我們確實(shí)認(rèn)為,可重復(fù)性方面的努力會帶來回報。但假如“發(fā)現(xiàn)的科學(xué)”(discovery science)中的每篇論文都要采用這種心態(tài),一篇典型的備受矚目的論文可能輕松耗費(fèi)十年的工作和龐大預(yù)算。這使得我們思考起其他更加有效、能夠?qū)崿F(xiàn)可靠科學(xué)的方法。
一般來說,對于實(shí)驗(yàn)科學(xué)中的一流論文主要有三個期望:首先,報告探索性研究中的獨(dú)創(chuàng)性發(fā)現(xiàn);其次,通過不同方法的進(jìn)一步實(shí)驗(yàn)來驗(yàn)證它們代表的穩(wěn)健現(xiàn)象;最后,提出能解釋實(shí)驗(yàn)結(jié)果的理論機(jī)制。然而,這三項(xiàng)代表科研過程的不同方面,并沒必要全部立刻實(shí)現(xiàn)。
事實(shí)上,要在5頁篇幅的論文中試圖達(dá)成這三個期望,可能結(jié)果是無法好好實(shí)現(xiàn)其中任何一個期望。迫使探索性研究和驗(yàn)證性研究放入同一篇出版物中,可能削弱兩者,要么是扼殺探索性研究,要么是侵蝕驗(yàn)證性研究。研究人員要確證一個首次發(fā)現(xiàn)、激動人心的觀察結(jié)果,受此壓力影響,會對隨后的數(shù)據(jù)和分析產(chǎn)生成見,尤其是若要讓論文被接受,進(jìn)一步實(shí)驗(yàn)需要得出某些結(jié)果的話。許多研究者會自然而然地不信任或無視那些之后得到的、推翻他們的假設(shè)、并妨礙論文發(fā)表的數(shù)據(jù),而不是去懷疑最初的觀察結(jié)果。
此外,單篇論文就要求做大量實(shí)驗(yàn)的話,工作就難以做到嚴(yán)謹(jǐn):因?yàn)樗鼘⒐ぷ髁哭D(zhuǎn)移至許多脆弱的實(shí)驗(yàn),而不是若干穩(wěn)健的實(shí)驗(yàn)之上。研究早已顯示,隨著期刊影響力的增加,單個實(shí)驗(yàn)的統(tǒng)計(jì)功效或報告質(zhì)量都沒有改善。眾多實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)總量龐大,各色各樣,能壓倒同行評議者檢查證據(jù)的能力。
最終,獨(dú)立工作的研究團(tuán)隊(duì)在實(shí)驗(yàn)方法、模型或條件方面的變動程度不可避免地受到限制,所以大多數(shù)論文最終都基于受約束的數(shù)據(jù)而得出結(jié)論,沒有評估其通用性。在我們的“巴西可重復(fù)性行動計(jì)劃”中,研究人員用不同方法填補(bǔ)原始論文規(guī)程中實(shí)驗(yàn)描述的空白之處,而我們一再對此感到驚訝。以小鼠腹腔中獲取的巨噬細(xì)胞所做實(shí)驗(yàn)為例。一些實(shí)驗(yàn)室使用藥物來提高這些白細(xì)胞的數(shù)量,而其他實(shí)驗(yàn)室因?yàn)閾?dān)心這會改變細(xì)胞的反應(yīng)而避免使用藥物。大多數(shù)研究團(tuán)隊(duì)評估培養(yǎng)的細(xì)胞中有活力的巨噬細(xì)胞的比例——但是對于怎么樣的比例算是足夠高,能讓實(shí)驗(yàn)繼續(xù)進(jìn)行下去,各個團(tuán)隊(duì)并無一致看法。在這些不同條件下獲得相似的實(shí)驗(yàn)結(jié)果能激勵信心,讓研究者相信某個現(xiàn)象是穩(wěn)健的;然而,在實(shí)驗(yàn)室方法中引入這樣的變化常常超出一家實(shí)驗(yàn)室的能力范圍。
因此,單個研究團(tuán)隊(duì)發(fā)表的論文應(yīng)該被默認(rèn)為初步研究結(jié)果。假如大家期望每一篇論文的結(jié)果都在其他背景、模型或種群下顛撲不破,那么論文可重復(fù)性的危機(jī)看來就不可避免。與其要求每位作者進(jìn)行十年之久的驗(yàn)證實(shí)驗(yàn),以其他機(jī)制來確定一項(xiàng)主張的有效性也許更有益于科學(xué)事業(yè)——而這或許超出一篇論文的范圍。

一名研究人員準(zhǔn)備檢測特定信使RNA的RT-PCR樣本
有什么其他方法能評估科研發(fā)現(xiàn)是否足夠穩(wěn)健呢?可選的一個辦法是綜合已發(fā)表的文獻(xiàn),吸收不同科研團(tuán)隊(duì)所做研究的成果。大多數(shù)臨床研究的指導(dǎo)準(zhǔn)則中早已這么做,那些研究通常都源自對現(xiàn)存證據(jù)的薈萃分析。然而,薈萃分析的方法遭受原始研究的發(fā)表偏差和不完全報告的損害。因此,用薈萃分析方法評估可重復(fù)性的話,依然需要解決廣泛存在的問題。
一個可能更好的辦法是組織驗(yàn)證性實(shí)驗(yàn),這些實(shí)驗(yàn)是專門設(shè)計(jì)用來評估穩(wěn)健性和通則性的。理論上,這些實(shí)驗(yàn)會結(jié)合不同實(shí)驗(yàn)室的多個實(shí)驗(yàn)方法和實(shí)驗(yàn)?zāi)P停ㄆ┤缧∈笃废祷蚣?xì)胞型)。在研究團(tuán)隊(duì)之間進(jìn)行協(xié)調(diào),能夠讓數(shù)據(jù)收集標(biāo)準(zhǔn)化,保證獲取結(jié)果,從而讓整合工作更容易,消除發(fā)表偏差。
在各個不同的科學(xué)領(lǐng)域中早已建立起多種類型的合作。幾十年以來,制藥行業(yè)早已設(shè)法進(jìn)行多中心的臨床試驗(yàn)。遺傳流行病學(xué)領(lǐng)域的協(xié)作共享來自不同種群的樣本,從而提升統(tǒng)計(jì)功效。學(xué)術(shù)性的心理學(xué)實(shí)驗(yàn)室早已相互合作,推進(jìn)社群研究項(xiàng)目,譬如“可重復(fù)性工程:心理學(xué)”“多實(shí)驗(yàn)室項(xiàng)目”和“心理科學(xué)加速器”項(xiàng)目。神經(jīng)科學(xué)的行動計(jì)劃包括國際大腦實(shí)驗(yàn)室、人類連接組計(jì)劃和“通過薈萃分析增強(qiáng)神經(jīng)成像遺傳學(xué)”(ENIGMA)聯(lián)盟。
這類項(xiàng)目在經(jīng)費(fèi)和勞動力方面的支出巨大,無法對每項(xiàng)已發(fā)表的科研發(fā)現(xiàn)都進(jìn)行這樣的操作。然而,要驗(yàn)證關(guān)鍵現(xiàn)象的話,比起等待未經(jīng)協(xié)調(diào)的研究嘗試來生成數(shù)據(jù),它們是一種更有效的方式。而且,付出精力來提高精選的驗(yàn)證性項(xiàng)目的嚴(yán)謹(jǐn)性大概比要求每份生物醫(yī)學(xué)出版物都能夠重現(xiàn)、具備通則化和臨床相關(guān)更加可行。
其他作者主張,應(yīng)當(dāng)更加明確區(qū)分產(chǎn)生試驗(yàn)性結(jié)論的探索性研究與評價上述結(jié)論的驗(yàn)證性項(xiàng)目,借此改善研究過程的兩端。探索性工作和驗(yàn)證性工作之間的獨(dú)立能允許科學(xué)家獲得更大的探究假說的自由,在那些假說接受檢驗(yàn)時,維護(hù)嚴(yán)謹(jǐn)性,避免偏差。另外,每個研究方法都要求一組不同的能力,應(yīng)當(dāng)根據(jù)不同的衡量標(biāo)準(zhǔn)來評價。
假如編輯方針減少對新實(shí)驗(yàn)的要求,不再要求給出臨床應(yīng)用潛力的證據(jù),那么探索性的基礎(chǔ)科學(xué)研究會得到助益。假如討論會上能發(fā)表局限性的孤立結(jié)論以及中立性的實(shí)驗(yàn)和分析,那么探索性研究也能從中受益。這有助于同行評議,減少偏差,促進(jìn)傳播,同時降低走捷徑者將探索性研究偽裝為驗(yàn)證性工作——或者將不成功實(shí)驗(yàn)的描述予以改頭換面——的動機(jī)。
相比之下,大規(guī)模的驗(yàn)證性研究需要基礎(chǔ)設(shè)施作為支持,而那是極難獲得的。還需要對科研人員進(jìn)行培訓(xùn)、撥款和獎勵,讓他們集中精力管理合作、參與大型實(shí)驗(yàn)和整合數(shù)據(jù)——尤其是因?yàn)檫@涉及在某種程度上犧牲學(xué)術(shù)自由。假如協(xié)調(diào)研究項(xiàng)目、驗(yàn)證已發(fā)表的結(jié)論變成例行做法,它們也能激勵一般的科學(xué)家在發(fā)表論文前評估研究結(jié)論時更加嚴(yán)謹(jǐn),最終改進(jìn)探索性研究的質(zhì)量。
然而,以上所有手段都要求重新組織科學(xué)勞動,我們的行動計(jì)劃給予我們的一條經(jīng)驗(yàn)是,學(xué)術(shù)研究人士并不適應(yīng)在他人的命令下執(zhí)行任務(wù)。因而,大規(guī)模協(xié)作需要有足夠的集中化程度,保證嚴(yán)格遵守指導(dǎo)準(zhǔn)則,但也應(yīng)該維持一定的靈活性,以便適應(yīng)每個實(shí)驗(yàn)室自身的工作慣例。
我們采取的策略一直是提出正確的問題,而不是發(fā)號施令。要求科研人員意識到他們要如何以雙盲方式進(jìn)行研究的做法比強(qiáng)迫他們那么做更具彈性,但依然能起到消除偏差的作用。另一個關(guān)鍵要點(diǎn)是開發(fā)出讓最佳實(shí)踐做法(包括培養(yǎng)皿中樣本分布自動隨機(jī)化和數(shù)據(jù)收集的標(biāo)準(zhǔn)化電子表格)成為可能的工具。
盡管有以上措施,我們?nèi)匀粨?dān)心,像我們的行動計(jì)劃那樣的基礎(chǔ)工作或許無法擴(kuò)大規(guī)模。行動計(jì)劃不僅讓協(xié)調(diào)團(tuán)隊(duì)在過去三年里全身心投入,還常常與合作實(shí)驗(yàn)室的其他要務(wù)相沖突。
一種更好的機(jī)制或許是在機(jī)構(gòu)或撥款方的驅(qū)策下,建立管理合作性項(xiàng)目的正式體系。這樣的合作體系早已存在于特定領(lǐng)域,譬如美國國立衰老研究所、美國國防高級研究計(jì)劃局和德國聯(lián)邦教育與研究部所做出的榜樣。然而,這些合作體系依然有擴(kuò)展的空間,或許還可以像補(bǔ)助金申請或同行評議一樣,成為生物醫(yī)學(xué)的一部分。
縱然我們有機(jī)會讓論文大體上更加嚴(yán)謹(jǐn),但是對個別論文和它們的可重復(fù)性的過分強(qiáng)調(diào)不應(yīng)該使得我們忽視達(dá)成可靠結(jié)論的其他方式。與其期望每一篇論文會確立可靠的現(xiàn)象,更可行的做法也許是改進(jìn)對于初步結(jié)論的系統(tǒng)性驗(yàn)證。
若要落實(shí)這個做法,需要去說服生物醫(yī)學(xué)界相信一些資源應(yīng)當(dāng)轉(zhuǎn)移給更大型的項(xiàng)目,調(diào)查更少的科研構(gòu)想。撥款方和科研機(jī)構(gòu)必須更主動協(xié)調(diào)科學(xué)工作者,選擇關(guān)鍵的研究問題來攻關(guān),而不是將資源分散于相互競爭的多家實(shí)驗(yàn)室。這牽涉到構(gòu)建激勵體系(也就是資助、職業(yè)提升和贊許),以便鼓勵科研人員在大型項(xiàng)目中承擔(dān)不那么自主的研究者角色。科學(xué)社團(tuán)和期刊也能發(fā)揮作用,判定某個研究領(lǐng)域中哪些科研發(fā)現(xiàn)被認(rèn)為至關(guān)重要,需要重復(fù)性驗(yàn)證。
將論文可重復(fù)性驗(yàn)證的重?fù)?dān)從科研人員個體身上轉(zhuǎn)移到有組織的科研群體肩上,此舉最終能提高“什么能被視為科學(xué)事實(shí)”的門檻,也能對科學(xué)的公眾傳播產(chǎn)生有益作用。實(shí)現(xiàn)這些目標(biāo)的最理想方式依然是開放性的,有待我們探索實(shí)踐。但我們至少能在一點(diǎn)上達(dá)成共識:科研這件事比一篇論文所承載的內(nèi)容龐大得多。
資料來源 Nature