王炳順
(上海交通大學基礎醫學院生物統計學教研室,上海 200025)
近幾年,《自然》和《科學》等許多國際學術期刊圍繞美國著名學府杜克大學發生的一起重大學術問題事件持續進行探討和反思,[1-3]甚至連《紐約時報》及哥倫比亞廣播公司電視新聞雜志欄目《60分鐘》等各路新聞媒體紛紛跟進報道,一時間,杜克大學“波蒂事件”進入公眾的視線,吸引了廣大公眾的眼球,一些雜志與媒體甚至不客氣地稱之為杜克丑聞與杜克欺騙。[4-6]目前尚未見到國內學術期刊介紹該事件的來龍去脈及其引發的學術反思與啟示。本文對杜克事件進行了初步梳理,并對醫學研究的復雜性與可重復性問題進行探討。
惡性腫瘤是嚴重危害人類健康的重大疾病。經過數十年的艱苦探索,腫瘤基礎研究取得了很大進展,然而,成果轉化到臨床應用及臨床腫瘤治療效果方面一直沒有太大突破。近些年來,采用有效手段對不同患者準確篩選敏感化療方案的腫瘤個性化治療成為一個熱門領域。2006年10月杜克團隊以阿尼爾·波蒂(Anil Potti)為第一作者、約瑟夫·內文斯(Joseph Nevins)為通訊作者在《自然-醫學》雜志(Nature medicine)發表研究結果,[7]聲稱基于腫瘤細胞系藥敏試驗與基因表達譜成功建立了腫瘤對化療的敏感性預測模型,根據腫瘤基因特征可為患者選擇針對性的敏感化療藥物。杜克大學研究團隊的研究引起了同行極大興趣與關注,其中包括美國德克薩斯大學安德森癌癥中心(MD Anderson Cancer Center,MDACC,Texas University)的臨床研究者,他們在跟進前出于慎重,邀請基思·巴格利(Keith Baggerly)和凱文·庫姆斯(Kevin Coombes)這兩位專長生物信息研究的生物統計學家對杜克團隊的《自然-醫學》論文加以核實。兩位生物統計學家不曾想到,幾經周折,隨之而來的是影響學界的一場大風波。
2006年11月起,巴格利和庫姆斯反復聯系杜克團隊,雖然得到作者有關原始數據和研究方法的一些澄清說明,但是仍然不能重現論文中的結果。深入探查后,他們在杜克團隊論文中發現了一些低級錯誤,包括看似不屬于數據清單中的基因、數據錯位及混亂的標簽分組等。2007年11月,庫姆斯和巴格利的對杜克團隊文章的擔憂發表在《自然-醫學》期刊上。[8]而波蒂和內文斯只承認是一些筆誤并予以修正,[9]否認了巴格利等人指出的其他主要問題,并認為自己的方法是穩健可重復的。
波蒂-內文斯團隊在一些著名期刊發表了基于同樣方法的一系列論文。在波蒂-內文斯團隊在《自然—醫學》論文發表一年后,杜克大學根據波蒂-內文斯預測方法啟動了三個臨床試驗項目。巴格利2009年獲知臨床試驗早已開始后感覺事態嚴重,擔心那些滿懷希望投奔杜克的癌癥患者可能在承擔更大的風險,于是決定采取另外一種措施:發表自己的論文。聯系生物醫學期刊碰壁后,2009年9月,他們將論文發表在統計學專業雜志《應用統計學年刊》上。[10]
幾乎同一時間段,美國國家癌癥研究所(National Cancer Institute,NCI)的生物統計學家也在嘗試查證杜克團隊的工作,后來和巴格利與庫姆斯一樣并沒有驗證出杜克團隊已發表論文的研究結果。為了回應安德森癌癥中心和NCI研究人員的質疑和擔憂,2009年10月,杜克大學的管理層對波蒂-內文斯團隊的研究工作進行了審查,并暫停了三項臨床試驗。然而杜克大學管理層在審查時沒有把巴格利博士等人的批評意見遞交到獨立審查委員會,該委員會只收到了研究方自己所提供的材料,導致獨立審查委員會沒有發現問題。杜克大學的審查算是通過了,但審查過程沒有公開,三項臨床試驗于2010年2月重新開始。2010年7月,《癌癥通訊》的有關波蒂涉嫌簡歷造假的報道讓整個杜克事件出現戲劇性的轉折。7月19日,33位資深生物統計學家和生物信息學專家聯名寫信給NCI主任同時轉發杜克大學及其他管理機構,反映杜克臨床試驗問題。杜克大學隨即讓波蒂停職休假接受調查。幾天后,33位著名的生物統計學家和生物信息學專家聯名寫信給NCI主任哈羅德·瓦默斯(Harold Varmus),表達了對于杜克大學臨床試驗中應用其預測模型的擔憂,極力主張獨立審核結果出來前先暫停杜克的三個臨床試驗。隨后NCI和杜克大學邀請美國國家研究院下轄的醫學研究所(Institute of Medicine,IOM)成立外部獨立審查委員會調查杜克臨床試驗的科學基礎。經過幾番調查與聽證后,IOM成立的專門委員會最終在2012年3月公布了報告《組學轉化研究的演變:吸取教訓與前行之路》。[11]
2010年底,杜克大學永久停止了那三項臨床試驗。波蒂博士最終從杜克大學辭職,他承認簡歷造假,但聲稱自己并沒有意識到數據處理與分析存在錯誤。一團亂麻的杜克事件,留給本研究領域一片陰云,留給同行一面黃色警告牌,留給杜克大學研究體系整頓及應對訴訟糾紛等無數折騰。
杜克事件后,據負責臨床研究的杜克大學副校長、轉化醫學研究院院長羅伯特·卡利夫(Robert Califf)教授估計:波蒂團隊的撤稿陸陸續續可能會達到20多篇。需要警示的是,正如IOM的報告《組學轉化研究的演變:吸取教訓與前行之路》中特別指出的,杜克事件暴露的系列問題并不局限于杜克大學。[11]從全球生物醫學研究論文的撤稿率就可見一斑。在PubMed搜索1990~2009年“已撤稿”的論文記錄,結果顯示:20年來論文發表總數在不斷增加的同時撤稿率不斷快速上升。由于論文發表到撤稿聲明需要些時日,可以預見,后幾年的撤稿比例將會提升。
撤稿是學術自我糾錯的反映,不難理解撤稿數量位居前列的是全球科研人員關注度極高的《自然》、《科學》和《新英格蘭醫學》、《柳葉刀》等高水平學術期刊。難道其他雜志錯誤率少因而撤稿少?看看著名學者Ioannidis在《PLoS-醫學》發表文章分析的《為什么大多數發表的研究結果是假陽性》,[12]也就能理解撤稿只是有心發現了論文中的問題而糾錯,整個學術出版界還有大量的問題論文被“冷落”了,撤稿數量反映的只是問題的冰山一角。
撤稿率的上升某種程度上體現了現代醫學研究中生命現象與人類疾病的復雜性。就像美國在20世紀70年代掀起攻克癌癥的戰爭,雄心勃勃實施“國家癌癥計劃”,然而,幾十年過去了,盡管投入了大量人力和物力,卻沒有取得人們所預期的成果,因為癌癥生物學復雜性遠遠超過了人們當時的理解。又如,2001年人類基因組工作草圖的發表是人類基因組計劃的里程碑事件,人們以為打開了遺傳天書,能夠解碼生命、可以征服癌癥等重大疾病了。然而十年后,《自然》雜志于2010年3月刊文慨嘆《人類基因組十年:生命太復雜了》。[13]而且,相比前十年,2001年后撤稿比例上升的更快,這一有趣現象有待進一步分析。它是否提示由結構基因組學向功能基因組學過渡、轉化的過程中,人們就像陷入了更大的科學迷宮,更難找到出口、更容易迷失犯錯?生物醫學研究具有不同層面與各個階段,越是靠近發現與探索階段越像是盲人摸象,每個研究組都抱著自己的靶標,以為目標明確、問題有解了。尤其當生物醫學研究產生海量數據,人們在數據挖掘過程中往往變成了數據打撈、數據揉搓或數據拷問,“屈打成招”的陽性結果紛紛冒出,矛盾的、沖突的結論更顯示醫學研究問題的復雜性。
生命現象的復雜性和醫學研究中的不確定性,促使我們懂得謙卑,敬畏生命;促使我們了解得越多,越需要去了解更多;促使我們不斷發現與驗證,探索與確證。我們承認自身知識有限和工具有限,需要解決的是如何在有限認知基礎上一步一步向前推進。例如撤稿是學術凈化與科學進步的反映,撤稿背后的原因就值得甄別,從而有針對性地逐步解決問題。已有多位研究者對此進行了深入分析,[14-16]其中Wager等人調查了1998~2008年間被撤稿論文,[14]對其中312篇文章撤稿原因進行仔細分析與分類,第一類占40%:包括研究工具、數據源與計算方面的錯誤,結果不能重復;第二類為學術不端,占28%,如剽竊、捏造與弄虛作假;隨后17%為重復發表,15%為其他原因。
杜克事件發端于波蒂團隊的研究結果不能被重復與重現。由此,有必要厘清醫學研究的重復性問題。
重復是科學研究的基本準則,不能重復則無法確認研究結果,可重復的結果才是真實可信的?;诓煌暯牵貜托源笾驴梢苑譃槿齻€層面。
生物醫學研究一個重要特點是研究對象的個體變異性。常識告訴我們個別現象不能代表普遍規律。為了區分事實和偶然性,生物醫學研究要重復觀察一定數量的獨立樣本,而樣本量取決于效應值大小、變異程度、研究把握度及對假陽性錯誤的控制水平。當然,當研究成本高昂,或者就像前面漆黑一片,明眼人也要靠“拐杖”試探著前進,有的時候仍可能會進行類似一個組別只設兩三只小鼠的探索性研究。
這里需要注意各獨立個體的重復觀察數據與同一個體重復測量值的區別。后者解決的是技術上測量精度需要,前者才能解決統計學推斷問題。這類似生物醫學基礎研究中常說的“生物學重復”與“技術重復”。技術重復不是完全獨立的,不能消除系統誤差與生物個體變異。已有文章強調基因組學研究中隨著測序技術應用的推廣和成本降低,不能忽略了生物學重復的重要性。[17]如果實驗設計沒有生物學重復,或者生物學重復的樣本量不足,將不能得到有統計學意義的結果;所獲得的差異表達基因很可能只是少數個體差異的表現,并不能反映疾病或者特定生理狀態下的群體本質特征。這警示我們絕不能讓高新技術的光芒迷障雙眼,而忽略了醫學科研中需要貫徹的統計學基本原理。
這里所指的重復不是一模一樣的克隆性復制,而是指針對同一問題,兩個或多個相對獨立的研究能否達到一致結論。例如,對于企業創新藥物注冊申請,美國FDA通常要求申辦者提交相對獨立的兩個關鍵臨床試驗證據,確保上市藥物安全、有效。又如,在某個熱門研究領域,一個實驗室的結果能否被另一團隊重復出來。通常說的重復就是這個意義上的相互印證。
2012年3月,《自然》雜志發表來自企業界的資深研究員C·格倫·貝格利(C.Glenn Begley)的一篇評論文章《提高臨床前癌癥研究標準》。[18]文中報道:為了在一些突破性癌癥研究的基礎上研發新藥物,研究小組選擇了一流雜志上53份癌癥基礎研究“里程碑式”研究論文,試圖重復他們的研究工作以重現論文結果,即企業在巨額投入前需要確保這些研究發現的真實性。然而令作者震驚的是:有47篇論文,即約九成的研究不能被重復??梢姴荒軐σ寻l表的結果一概信以為真,重復是鑒別真偽的試金石。
基于同一原始研究資料,既可以由作者自己的分析工具生成該論文展示的研究結果,也可以由他人在別的平臺中用相似的分析過程重現一樣的結果。這方面越來越得到一些雜志的認同,[19-21]尤其對于組學方面的研究,除了需要作者提交芯片等原始數據,今后將會逐步要求提供分析流程及所用的程序代碼。
前述巴克利等人為了重新再現杜克大學波蒂團隊所發表論文的結果,雖然可以獲取波蒂團隊提交的數據,但由于缺乏具體分析過程,他們的核查工作耗費了近兩千個小時??梢姙榱藢W術自身凈化與及時糾錯,數據共享與程序提交很有必要,為了原始研究結果出來后高效率地流程化分析及確保此后重現性,值得花費大量時間與精力用于程序代碼的編寫與調整。例如在臨床試驗統計分析時,常常采用SAS軟件ODS功能結合Report過程自動生成統計分析報告;組學海量數據分析時可以結合R語言Sweave函數或采用整合的knitr包生成動態報表。[22]若條件許可,重大項目的大數據分析最好能得到所在大學或機構獨立的統計中心進行重現性驗證和確認。
一般來說,單項研究本身樣本量越大,結論越有說服力,在與其他同類研究比較時證據強度越大;在數據和分析流程固定的情況下,一項研究自身的結果能被很好重現,那么他人就能鑒別研究結論的可接受程度;自身重現性好的研究更有可能被同類研究所重復,從而確認研究結果的真實性和結論的穩健性,增進人類對本質規律的認識。
杜克大學波蒂重大學術丑聞并非偶然性事件,面對復雜的生命現象探尋醫學本質規律,既要鼓勵創新、寬容失敗、勇敢探索,又要強調研究所必需的“可重復性”、避免急躁冒進,以免危害學術體系,甚至導致公眾的信任危機。只有基于經得起考證的確鑿數據,堅實的基礎研究,才會高效轉化成臨床應用成果,造福人類健康。
[1]Couzin-Frankel J.Cancer research.As questions grow,Duke halts trials,launches investigation[J].Science,2010,329(5992):614-615.
[2]Samuel Reich E.Cancer trial errors revealed[J].Nature,2011,469(7329):139 -140.
[3]Kaiser J.Clinical medicine.Biomarker tests need closer scrutiny,IOM concludes[J].Science,2012,335(6076):1554.
[4]Goozner M.Duke scandal highlights need for genomics research criteria[J].J Natl Cancer Inst,2011,103(12):916 -917.
[5]Ince D.The Duke University scandal—what can be done[J].Significance,2011,8(3):113-115.
[6]Deception at Duke:Fraud in cancer care?CBS News 60 Minutes[EB/OL].http://www.cbsnews.com/8301 -18560_162 -57376073/deception-at- duke,2012-9-29.
[7]Potti A,Dressman HK,Bild A,et al.Genomic signatures to guide the use of chemotherapeutics[J].Nat Med,2006,12(11):1294 -1300.
[8]Coombes KR,Wang J,Baggerly KA.Microarrays:retracing steps[J].Nat Med,2007,13(11):1276-1277.
[9]Potti A,Nevins JR.Reply to Microarrays:retracing steps[J].Nat Med,2007,13(11):1277-1278.
[10]Baggerly KA,Coombes KR.Deriving chemosensitivity from cell lines:Forensic bioinformatics and reproducible research in high-throughput biology[J].The Anna of Appl Stat,2009,3(4):1309-1334.
[11]IOM(Institute of Medicine).Evolution of Trans-lational Omics:Lessons Learned and the Path Forward[M].Washington,DC:The National Academies Press,2012:239 -280.
[12]Ioannidis JPA.Why most published research findings are false[J].PLoS Med,2005,2(8):696-701.
[13]Check Hayden E.Human genome at ten:Life is Complicated[J].Nature,2010,464(7289):664-667.
[14]Wager E,Williams.Why and How Do Journals Retract Articles?An Analysis of Medline Retractions 1988 - 2008[J].J Med Ethics,2011,37(9):567-570.
[15]Van Noorden R.Science publishing:The trouble with retractions[J].Nature,2011,478(7367):26-28.
[16]Fang FC,Steen RG,Casadevall A.Misconduct accounts for the majority of retracted scientific publications[J].Proc Natl Acad Sci USA,2012,109(42):17028- 17033.
[17]Hansen KD,Wu Z,Irizarry RA,et al.Sequencing technology does not eliminate biological variability[J].Nat Biotechnol,2011,29(7):572-573.
[18]Begley CG,Ellis LM.Drug development:Raise standards for preclinical cancer research[J].Nature,2012,483(7391):531 -533.
[19]Laine C,Goodman SN,Griswold ME.Reproducible research:moving toward research the public can really trust[J].Ann Intern Med,2007,146(6):450-453.
[20]Baggerly KA,Coombes KR.What information should be required to Support Clinical“Omics”Publications[J].Clin Chem,2011,57(5):688-690.
[21]Ince DC,Hatton L,Graham -Cumming J.The case for open computer programs[J].Nature,2012,482(7386):485 -488.
[22]Yihui Xie.knitr:Elegant,flexible and fast dynamic report generation with R[EB/OL].http://yihui.name/knitr/,2012 -9 -29.