非田
超四分之一的臨床試驗數據可能有問題,甚至是完全編造的?這不是故意散播的聳人聽聞言論,而是權威科學雜志《自然》在7月一篇調查報道中的結論。
在這篇名為《醫學受到不可信的臨床試驗的困擾》的文章中,作者講述了多個臨床數據存疑甚至造假的“經典案例”。以英格蘭國家衛生局的麻醉師約翰·卡爾斯利為例,他本身也是《麻醉學》雜志的編輯,以擅長在醫學試驗中發現可疑數據而聞名。
從2017年起,他開始整理自己曾處理過的500多項隨機對照試驗(RCT)論文手稿。經過長達3年的研究,他拿到了150項試驗的匿名個體參與者數據(IPD),有44%存在數據缺陷。在他的推算下,約有26%的論文存在明顯問題,涉嫌偽造數據。
嚴謹的學術殿堂里,造假等行為屢見不鮮,甚至連斯坦福大學校長都在不久前都被指稱學術不端。正如《自然》所稱,“雙盲、可大規模重復、可標準量化”等基礎科學邏輯,正在被屢禁不止的造假所挑戰和摧毀。
1948年,一位咳聲不止、面色蒼白的英國人走進了皇家布朗普頓醫院。在那個年代,晚期肺結核無異于死亡的代名詞。被診斷為患上該病的他,只好抱著試試看的態度來到國內最好的心肺病醫院。
為了驗證鏈霉素治療肺結核的療效,在英國醫學研究委員會的牽頭下,英國正在開展一場被后世載入史冊的醫學試驗:在上述醫院等醫療機構中,肺結核患者將被分為鏈霉素組和對照組,兩組除鏈霉素外其余治療措施全部相同—在半年時間里,對照組的死亡率為27%,而鏈霉素組僅為7%。
在期刊不強制要求論文作者提供IPD數據的情況下,編輯很難發現論文的漏洞。
日本麻醉專家藤井善隆插畫
論文打假網站PubPeer
這是人類歷史上第一個隨機雙盲對照臨床試驗,他不僅驗證了鏈霉素的有效,更讓RCT成為后世驗證藥物效果的準繩。1970年起,美國食品藥品管理局(FDA)要求制藥商提交新藥申請時,必須附上RCT結果。
RCT被譽為臨床研究皇冠上的明珠,往往被認為是驗證更為可靠數據的手段,而大量的分析推演,也都是建立在RCT基礎上的。可一旦造假者將目標瞄準了RCT,不僅造假的事實更難被發現,其產生的危害也更為劇烈。
卡爾斯利將那些偽造RCT結果的試驗稱為“僵尸試驗”—乍一看和正常的研究沒有太大區別,但無法提供任何有科研價值的信息。
即便經驗豐富如卡爾斯利,在無法拿到IPD的情況下,也只能確認2%的研究存在問題,只有1%能被認定為是“僵尸試驗”,這與此前提到的44%和26%的比例相差極大。
這也就意味著,在期刊不強制要求論文作者提供IPD數據的情況下,編輯很難發現論文的漏洞,這些“僵尸試驗”很可能順利刊發。
RCT隨機對照雙盲實驗
諷刺的是,嚴于律己的卡爾斯利不止一次拒絕被他認為是有問題的論文,但無法期待所有從業者都能像他這般自律。他悲哀地發現,盡管自己已經寫信提醒過同行們,但那些被他拒絕的論文,大多會在不久后發表在其他期刊上,不少數據和他看到時存在差異,很可能是又“編”了一次。
更嚴重的是,大量的“僵尸試驗”不僅會間接坑害后來的研究者,甚至直接影響治療—因為RCT是評估臨床治療的重要依據,醫療指南往往會引用這些評估,而這也是國外醫生進行治療時的重要參考依據之一。
《自然》雜志舉出了多個血淋淋的教訓。在新冠疫情期間,有大量關于伊維菌素可以治療新冠的RCT試驗,認為其療效顯著,但去年的一項研究發現,這些試驗中,有40%以上結果并不可信。
日本學者佐藤能啟是骨科專家,他在被發現造假后選擇自殺,但論文的遺禍卻并未隨著他離去而消失。據統計,他偽造了數十個預防骨折的藥物或補充劑的試驗數據,共計有113篇論文被撤稿,其中27篇論文被88篇系統評價和臨床指南引用,其中一些已經成為了日本骨質疏松癥的治療參考。
與之相似的還有氨甲環酸。這是一種常用于治療產后大出血的藥物,但據倫敦衛生與熱帶醫學學院的流行病學家調查,該藥物的26項RCT中,有許多存在嚴重缺陷。今年4月,美國一項涉及1.1萬人的RCT顯示,氨甲環酸“只有輕微的、沒有統計學意義的益處”。
而澳大利亞墨爾本莫納什大學的學者在對比了36項關于氨甲環酸的研究后發現,只有2021年法國一項涉及4000多名患者的研究顯示,氨甲環酸減少了16%的嚴重出血,但其余35項研究中,卻稱這一藥物有效率高達93%。如此異常的數據的背后,或許存在造假問題。
“目前尚不清楚這些不可信的研究是否影響了臨床實踐”,《自然》雜志寫道。受此影響,世界衛生組織也只能選取“折中方案”,建議使用氨甲環酸治療分娩后失血,但并未推薦用于預防。
即便權威如《自然》,同樣也沒少被論文造假所困擾。去年7月,《科學》發布調查稱,2006年,一篇刊載于《自然》上的論文涉嫌造假—該論文被認為是阿爾茨海默病領域的“開山論文”,外界基于第一作者西爾萬·萊斯內提出的假說,投入了天文數字般的資金。
如今這一假說被質疑,雖不至于直接顛覆全部研究,但對學術研究和藥品研發領域而言,都是一次沖擊。
大量論文數據造假背后,暗藏著一個個專業制假的“論文工廠”(paper mill),只要支付數百到數千美元不等的金額,就能為客戶提供從論文撰寫到刊發的一條龍式服務。《自然》雜志統計,過去十年里,許多領域的期刊發表了數以萬計的可疑假論文,不少就是由這些“論文工廠”一手炮制的。
AI已經能生成假的顯微鏡圖像,但想要證明圖像是AI生成的,并不容易。
西爾萬·萊斯內的作假論文被認為是阿爾茨海默病領域的“開山論文”
德國麻醉專家Joachim Boldt
與這樣龐大且成規模的組織相比,學術打假人難免顯得形單影只。以歐美學術界最出名的打假網站PubPeer和Retraction Watch為例,前者成立于2012年,主要依靠科研人員匿名對已發表論文進行評論和質疑,而后者關注學術撤稿領域,雖有專職團隊但人數不多,資金也主要依賴幾個基金會支持。
總體而言,學術打假更像是個體在對抗龐大的團隊,大有雙拳難敵四手之感。“用愛發電”已成為學術打假的常態,2017年,一份針對1200多名《自然》審稿人的問卷顯示,71%的受訪者表示,并不指望從審稿中獲得報酬。
但面對日益嚴重的論文造假問題,“用愛發電”的模式顯然不是長久之策。Retraction Watch創始人曾發文指出,2000年至2010年間,全世界被撤稿的論文從每年40篇增長到400篇左右;而到了2015年,這一數字已經激增至700篇左右,這對于審核者提出了相當高的要求。
更何況,如今涉嫌學術不端者的地位也越來越高,想要看穿造假并不容易。截至今年7月,Retraction Watch的《撤稿排行榜》上已有5人被撤稿超過100篇,其中排名前二的,分別是約阿希姆·博爾特與日本人藤井善隆,兩人都是本國麻醉領域專家。
《自然》雜志也曾發文稱,面對海量論文,期刊編輯很難找到樂意效勞的同行評審人。
除了團隊人數完全不對等外,隨著ChatGPT、NewBing等AI技術的成熟,學術打假人或評審人如今正面臨著AI批量生產論文的新挑戰。
在今年5月《自然》舉辦的一場關于“論文工廠”問題的峰會上,不少專家均認為,ChatGPT等的大規模應用,會讓“論文工廠”更加泛濫,“有了AI之后,論文工廠對原始數據的造假能力將再上一個臺階”。目前,AI已經能生成假的顯微鏡圖像,但想要證明圖像是AI生成的,并不容易。
愈發嚴重的學術造假,歸根結底還是社會問題。當錯誤的代價由別人承擔時,犯錯是容易的;當造假者未必會得到相應的懲罰,學術造假變得普遍,自然也就不稀奇了。
以前文提到的西爾萬·萊斯內為例,在那篇涉嫌造假的論文發表前,他不過是一個名不見經傳的學術新人,但在文章橫空出世后,他旋即被多家知名醫藥公司追捧,可謂是名利雙收。但事發后,他卻沒有受到多大的影響。
日本科學家小保方晴子的經歷也與之相似。在宣稱發現“萬能細胞”前,她只是一個資歷平平的普通科學家,在對女性科研人員不算友好的日本科研圈并不受重視。但那篇造假的論文,卻讓她獲得“日本居里夫人”“下一個諾貝爾獎獲得者”的美譽。
東窗事發后,她不僅沒有銷聲匿跡,反而將學術不端的經歷寫成書,把責任全部推到了已經自殺的導師身上。小保方晴子在訪談中表示,這本書收獲了百萬冊銷量,自己還收到了來自國外的研究邀請。
日本科學家小保方晴子
事后追責效果不佳,更凸顯預防的重要性。卡爾斯利認為,要想解決學術造假問題,必須從源頭抓起,他所在的《麻醉學》雜志已經開始要求論文作者提供臨床試驗的IPD。他也呼吁,期刊應該假定所有論文都有潛在的缺陷,并要求編輯在發表RCT內容前審查IPD數據,敦促各方務必加強審查。
可惜的是,這一做法并未得到普及。2016年,國際醫學期刊編輯委員會(ICMJE)提議,要求對隨機對照試驗進行強制性數據共享,但遭到了反對。此后,ICMJE也“服軟”了,僅鼓勵數據共享而非硬性要求。
由此可見,面對這一困境,業內似乎并沒有很好的解決方法。在巨大的利益與顯赫的名聲面前,指望所有人都能不迷失自我,顯然并不現實。從社會層面而言,要改變“唯論文論”的評價體系,嚴厲打擊“論文工廠”,或許還有很長的路要走。
責任編輯吳陽煜 wyy@nfcmag.com