,,
隨著科學研究進入數據密集型范式,科學大數據不僅僅是科學研究的結果,也成為科學研究活動的基礎和起點[1]。
為促進臨床數據共享,WHO臨床試驗注冊平臺于2015年8月發布了關于支持臨床試驗數據共享的聲明,國際醫學期刊編輯委員會于2016 年1月20日發布了關于臨床試驗數據共享的建議。中國臨床試驗注冊中心亦決定從2016年3月14日起,要求公開原始數據(包括原始記錄數據和研究計劃書)共享計劃、數據保存和管理規劃、在知情同意書中加入公開原始數據內容[2],旨在進一步推動臨床試驗透明化,履行醫學研究者的社會責任。
新藥研發具有復雜程度高、周期長、投入高、成功率低等特點,平均每5 000~10 000 個化學或生物分子中可篩選出250個先導化合物進入臨床前研究階段,最終僅有1個能獲批上市。1種新藥從發現到成功上市通常需要10~15 年[3],平均投資13.95億美元[4]。
研發過程中,從藥物發現到新藥申請,從臨床前試驗到上市后的臨床效果評價,無不建立在翔實而可靠的科學數據基礎上。有效的數據挖掘和模型開發需要有代表性的、經過處理的大數據集,但是以往按照嚴格的臨床試驗指南產生的高質量臨床前安全數據由于項目特點、知識產權保護或競爭優勢保護等原因而不會公開,僅有少量上市藥物的安全性數據有時會以概要的形式發布[5]。因此獲得并共享高質量、高賦值的新藥研發數據存在較多障礙。而破解這一難題,是提高藥物研發效率的關鍵。為此,本文介紹并分析了歐洲制藥工業聯合會支持的2個藥理學、毒理學數據共享平臺的解決方案,為我國新藥研發數據共享平臺建設提供參考。
我國對新藥研發平臺建設高度重視,“十一五”期間啟動了“重大新藥創制專項”,在全國范圍內布局15 個“綜合性新藥研究開發技術大平臺”,旨在全面提升我國的新藥創制能力[6]。如國家十一五“重大新藥創制”科技重大專項——“ 精神藥物新藥臨床評價研究技術平臺”獲得了2008-2020年的滾動支持。目前該平臺建立了精神藥物臨床試驗協作網,由具有較高精神疾病診療和科研水平的單位自愿聯合組成學術團體,實現了電子化數據管理并獲國際認可[7]。但該平臺不直接涉及任何一項具體臨床試驗的實施,只是一個純粹的學術協作網絡。
科技部于2003年將科學數據共享工程作為重大項目立項,2010年國家人口與健康科學數據共享平臺面向社會開放提供服務[8],目前該平臺已有20T的科學數據在線開放。
其中,由中國醫學科學院藥物研究所負責的藥學科學數據中心,在國家科技基礎條件平臺項目的支持下,成為實質上的國家藥物研發共享平臺[9]。
藥學科學數據中心作為國家人口與健康科學數據共享平臺的重要組成部分,目前提供數10個藥學數據庫的資源共享,包括藥物靶點數據庫、藥用天然提取物活性庫、中國天然產物化學成分庫、虛擬化合物庫、藥物分析方法數據庫、中藥及天然產物質量控制庫等數據庫等藥物研發類數據庫,以及藥物資源類數據庫、藥品使用類數據庫、藥事管理類數據庫等,為開展“創新藥物研究”專題服務奠定了基礎。
為確保數據資源量,增強服務創新藥物研發的能力,平臺定期征集、整合數據實體,匯交到藥學數據中心進行初篩、分類、標識,制作對應元數據并在平臺門戶網站共享。
國家人口與健康科學數據共享服務平臺藥學數據中心主頁如圖1所示。

圖1國家人口與健康科學數據共享服務平臺藥學數據中心主頁
其中,“新藥研發動態數據庫”“新藥動態”信息定期發布。“新藥研發動態數據庫”整合國外多個著名新藥研發數據庫中的信息,包括Thomson Integrity、CORTELLIS、Pharmaproject等藥物信息數據庫,PubMED、Embase等文摘數據庫,Elsevier Sciencedirect、Springer 等全文數據庫,Thomson Innovation、Derwent Innovation Index等專利數據庫;“新藥動態”每月發布國外特別是美國FDA新審批的新分子實體藥物和生物制品藥物信息,總結歸納藥物的研發歷程,系統梳理藥物理化特性、合成路線、細胞試驗信息、動物試驗信息、Ⅰ期、Ⅱ期、Ⅲ期臨床試驗信息、審批上市信息,使國內科研人員能及時了解國外藥物審批動態及研發歷程。
可見,當前我國新藥研發知識服務都是源于各種數據庫中可直接利用的知識和信息,權威、可靠的藥物研發初始數據尚無共享利用渠道,尚未提供知識識別和知識推理服務[10],距離新藥研發數據多學科、多層次和多級別共享的目標還有很大差距。從實踐結果看,近10年來各種基金資助的數據平臺很多,但達到預期目的并投入使用的寥寥無幾。
FDA 2000-2012年的回溯性綜述報告顯示,在藥物研發的所有階段,毒性相關的副作用一直是新的候選藥物夭折、影響新藥開發的主要原因[11],因此需要在藥物研發的臨床前階段更早預測其安全性。各種預測模型的質量在不斷改進,但預測的可靠性仍然有待提高,如心血管毒性很多要到大規模的Ⅲ期臨床試驗才能發現。分析、探究之前失敗的原因有助于改進新藥臨床開發效率及其安全性[12]。
2010年,在創新藥物計劃的驅動下 ,歐洲制藥工業協會聯合會(EFPIA)啟動了eTOX項目,其全稱是“用于計算機毒性預測專家系統開發的整合生物信息學和化學信息學方法 ”。由11所院校、6家中小企業和13個制藥公司組成公-私聯盟,共同建立了eTOXsys平臺,包括數據庫整合和全部預測模型,旨在實現知識共享,為候選新藥的設計提供新的工具。其目標是從論文或PDF文檔中提取和共享13家制藥公司毒理學研究部門產生的臨床前毒性研究數據,并利用這些數據建立一個翔實的數據庫,作為藥物研發參照數據源,即通過類似的結構和/或效果比較早期評估候選藥物的潛在毒性,以及進行預測模型訓練。目前平臺提供13家制藥公司的逾4 000項研究,對應1 400多個化合物。
eTOX數據庫除包括藥理學安全性、藥代動力學、藥效學、藥物分布、生殖毒性和致癌性研究數據以及之前的各種毒物基因組學和毒理學項目外,還從文獻和公開出版物中篩選可用于eTOX的數據、工具、方法或者討論。這些經過篩選的數據存儲于eTOXlibrary,對公眾開放[13-15]。其成功運行有以下幾個原因。
eTOX臨床前研究數據共享的主要障礙之一是如何將參與項目的制藥公司數千個充分劑量毒性研究中的臨床前數據整合成公眾可以利用的數據源,以及從生物醫學文獻中進行文本挖掘。2010年以前,這些專有信息都由每個制藥公司各自擁有。eTOX使這些信息轉化為機讀數據,并且在保護知識產權和敏感信息保密的前提下,在聯盟內共享。由每個公司確定所擁有數據的敏感性分級、是否提供給eTOX、數據是否需要保護、是否自由分享。
各參與機構提供的數據按敏感性分為公開、非保密、保密、非共享4級(表1)。

表1 eTOX項目的數據敏感性分級
傳統報告經過公司內部審查,由公司自己或者提交給合同研究組織(CRO)進行數據提取。每個EFPIA伙伴都有權修訂CROs的工作,進行質量檢查,然后分別將文檔上傳給可靠的關系數據庫服務商。數據庫服務商收到數據后,把數據傳到內部產品數據庫,或者將保密信息存儲到獨立的數據庫。之后按照統一的數據納入標準和指導原則進行質量確認和糾錯,保證不同公司數據格式的一致性。進入eTOX數據庫后,確認新的術語并加入該項目開發的術語管理工具—人工處理優選術語(術語盡量標準化以增加互操作性,確保整體統一)。
每個EFPIA伙伴需每月提交“報告跟蹤”工作表,每份報告都包括物質ID號、報告ID號、信息質量評估結果、報告進入eTOX數據的提取過程、保密分級、上傳給CRO/Lhasa有限公司的時間、在數據庫的公開時間等詳細信息。
為保護知識產權,由私立非盈利性組織Lhasa公司維護保密性數據,基于其信譽保證安全共享。eTOX數據庫模式由其開發,包含多個數據模塊:化學數據模塊如結構、id、藥理學作用等,研究設計信息模塊如種系、族株、性別、劑量,毒物代謝動力學模塊如劑量、Tmax、Cmax,一般毒性作用信息模塊如劑量、死亡率、體重,臨床化學發現模塊如劑量、臨床化學參數,臨床血液學發現模塊如劑量、血液學參數,組織病理學發現模塊如劑量、影響的器官、影響的動物,ADME模塊如吸收、分別、CYP450 、代謝產物、排泄平衡和清除信息。
2.3.1 構建統一的臨床前藥物發現標準本體
統一的本體是與其他數據庫實現互操作的基礎。eTOX參照國際統一命名法和診斷標準努力使其術語具有兼容性,將逐字術語轉換成聯合體使用的標準術語。迄今為止,共有800多萬個自然術語被指定為優選術語,意味著eTOX 數據庫中97%的逐字術語已經標準化。這項龐大的工作是獲得高質量和可用數據的保證。
創建指南和數據處理工具,建立本體標準,使eTOX數據庫內容與OntoBrowser 工具的受控詞表相兼容。兼容映射和處理工作是允許對eTOX數據庫內容進行高質量交叉參照分析的必要條件。
具體做法是由一個本體管理核心團隊負責分配不同的本體模塊,利用諾華公司開發的基于網絡的本體管理工具OntoBrowser(開放源代碼),處理代碼表和本體生成/映射/管理,對從傳統報告中提取的術語進行綜合處理。進入eTOX數據庫的新術語被轉入OntoBrowser工具,使其與本體映射,隨后由有審批權限的科學家檢查和確認每個特別的映射,最后將優選的詞匯整合進eTOX數據庫,因此用戶可以同時看到自然詞匯和優選術語。
通用本體是eTOX 項目成功的關鍵,構建了本領域稀缺的臨床前藥物發現標準本體。這些努力使共享的數據質量可信、一致,進而根據內容產生可靠的、能夠交叉參照和開放類似定量結構-活性關系(QSAR)或其他預測模型。
2.3.2 提供以建模為目的的數據分析
eTOX數據庫的主要目的是通過數據分析建立預測藥物誘發毒性的計算機模型,允許進行精確的結構、亞結構和結構相似性檢索與挖掘。然而共享的毒理學研究數據最初并不是為產生預測模型而設計的,各種發現、觀察的數據集用于模型構建有3個困難:一是對某些遺傳生物學性質需要之前的觀察條件參照,如是否在非常高的劑量觀察的、動物數量是否有意義、效果是否顯著不同于對照組、動物是否瀕死等;二是不同劑量、不同動物或不同的給藥途徑觀察到的性質不能直接比較;三是大多數明顯的表型 (如膽汁郁積)可能有多個毒性機制,不能簡單地被單個模型覆蓋。
2.3.3 建立數據預測系統eTOXsys
eTOXsys是整合各種工具、數據庫的網絡軟件平臺,由分子網絡GmbH開發。通過統一的用戶交互界面,允許用戶使用預測模型和數據庫進行候選藥物危險識別和風險評估。系統由4個主要部分組成,接受用戶關于毒理學終點預測查詢(由預測服務提供)和數據庫檢索(eTOX數據庫服務提供),收集來自web服務器的結果并反饋給終端用戶。
終端用戶可以對數據庫進行查詢和結果預測,并進一步細化和分析。eTOXsys界面允許進行基于化學的檢索和基于毒性的檢索。圖2顯示鹽酸丙咪嗪檢索結果的詳細信息。
2.3.4 決策支持與模型預測
為改善新藥發現中的決策支持,確保eTOX項目數據共享的價值,從EFPIA合作伙伴中收集了毒理學家和藥物化學家在其日常工作中面臨的共同決策,并列出潛在的假設驅動(單一或多個參數)對數據庫內容的查詢。

圖2 藥物毒性數據詳細信息[13]
化合物毒理學相關性質的計算機模型預測是eTOXsys的主要功能之一,即根據公開的大量毒理學相關終點數據進行建模。盡管當前版本尚未包括用傳統報告數據產生的模型,但利用體內數據的策略已被細化,eTOXsys的建模技術已經用于根據公開數據產生的大量的毒理學相關終點預測。圖3顯示eTOXsys毒性相關預測模型的請求結果。可能的模型以層級樹的形式組織在一起。

圖3 eTOXsys毒性相關預測模型的請求結果[13]
近年來,雖然新藥的批準數量增加有限,但新藥研發數據的規模、維度和復雜性都在不斷增加,且存儲于不同的公共或專有數據庫中。不同數據源的有效關聯可以發現隱藏的關系并改進研究策略,然而由于數據格式的差異、需要單獨的接口和查詢機制、不同資源描述符和標識符之間缺乏一致性,以及缺少簡單的關聯機制,使從這些異源性數據收集相關而全面的信息、挖掘知識變得更加復雜。
為解決這一難題,利用語義Web技術集成來自不同來源的數據,構建統一接口的平臺,提供可訪問的、結構良好的數據和有用的分析,將使藥物發現研究者受益匪淺。
Open PHACTS是一個創新藥物知識管理項目,由歐洲制藥工業協會聯合會(EFPIA)、多所歐洲大學和中小企業合作完成(http://www.openphacts.org/consortium),聚焦于應用語義Web技術獲得不同來源、不同類別的數據,挖掘現有知識和在新藥發現中產生新的假設。通過整合各種公開可用的生物分子、藥理學和物理化學數據源,Open PHACTS成為以有意義和可再現的方式響應結構化、定義良好的查詢的最新藥物發現平臺,便于科學家訪問和處理多源數據,進行藥物發現研究[16]。
圖4通過對多巴胺受體藥物發現項目的化學物質的全面鑒定(A)、與疾病相關的抗表皮生長因子受體(ErbB)信號傳導通路中所有靶標活性化合物的鑒定(B)和評估維生素D代謝通路中的靶標以輔助維生素新類似物的設計3個檢索案例,說明 Open PHACTS如何在藥物發現過程中挖掘已有知識和發現新的假設。

圖4 Open PHACTS 平臺(橙色)可檢索的關聯數據庫及提供的信息(包括進一步通過外部數據庫BLAST 進行序列相似性檢索及訪問專有數據庫)[16]
在數據挖掘和模型預測中,數據質量的重要性不言而喻,只有嚴謹準確的數據才能進行可靠的挖掘、產生有價值的結論和有效的預測。
臨床數據共享并非簡單的行政命令就能解決,其中所涉及的知識產權問題、數據質量問題、能否建立精確的受控詞表等問題,是能否實現有效數據共享的關鍵。
本文介紹的2個制藥行業新藥研發數據共享的成功案例值得參考借鑒。
eTOX正在變成制藥領域獲取全身毒性報告的最大、最相關的臨床前數據庫,可以預見未來該成果將被更廣泛地推廣和應用。其建立的新藥研發數據共享機制和質量控制模式值得我們參考。
迄今為止,我國各種數據平臺建設中的信息孤島現象仍未消除。近年來,由國家、省、市、各部委資助的各種疾病大數據平臺、精準醫學平臺紛紛上馬,但是多源異構數據的質量標準是否已經建立并普及、平臺能否互聯互通仍然存疑;藥物研發數據資源的共享開放、協同應用通道仍未打通,統一歸口的藥物研發數據共享機制尚未建立;平臺研發、語義本體研究依然各行其是,人力物力投入巨大,但是達到預期目的、能夠投入使用的數據平臺卻寥寥無幾。
2016年,為規范和推動健康醫療大數據融合共享、開放應用,消除信息孤島,國務院辦公廳發布了“關于促進和規范健康醫療大數據應用發展的指導意見”,提出圍繞重大疾病臨床用藥研制、藥物產業化共性關鍵技術等需求,建立藥物副作用預測、創新藥物研發數據融合共享機制[17]。2018年3月17日,我國《科學數據管理》正式發布,明確加強科學數據全生命周期管理,按照“開放為常態、不開放為例外”的共享理念,把確保數據安全放在首要位置,突出科學數據共享利用。
在國家政策的保障和指導下,在執行層面上,建議建立藥物研發平臺注冊制度,無論是國家級的資助平臺項目,還是省、地、市級的資助項目,凡獲得立項者,必須在國家統一的平臺注冊,注冊內容應包括負責單位、負責人、參與單位、建設目標、擬采用的技術標準、完成時間等,并定期匯報進展和完成情況,不注冊者不予結項,使全國上下的平臺研發處于統一標準和規范之下,避免重復、無序研究。在保護知識產權和敏感信息保密的前提下,制定醫藥數據的分類、分級標準,消除行業的信息共享壁壘,建設互聯互通的藥物研發數據平臺,促進軍地健康醫療數據規范銜接、互通共享、協同應用。
數據質量是當前我國藥物研發領域面臨的嚴峻問題,沒有質量保證的大數據就沒有利用價值。
2016年,國家食品藥品監督局對藥物臨床試驗數據的自查核查發現,逾80%的新藥臨床數據涉假(造假行為包括修改或編造受試者信息、試驗數據、試驗記錄、試驗藥物信息),以市場購買藥品替代自行研制的試驗用藥品,以其他方式使用虛假試驗用藥品,隱瞞、棄用或以其他方式選擇性使用試驗數據,瞞報或漏報可能與臨床試驗用藥相關的嚴重不良事件等,破壞了藥物臨床試驗數據的真實性[18-19]。
2015年一項對我國公開發表的新藥臨床藥動學試驗數據質量的調查顯示,在同一藥物品種的生物等效性試驗中,報道的藥動學參數存在巨大差異,最大達到400倍之多[18]。
臨床試驗是創新藥從基礎實驗進入人體研究的開端,其結果直接關系到后續臨床試驗的方案設計及安全性、有效性結論。據其得出的研究結論與生命健康息息相關,因而臨床試驗數據的準確性至關重要。
現階段我國藥物研發的臨床試驗數據存在質量、誠信和技術等不同層面的問題,要開展基于大數據的知識挖掘和模型預測、實現有效的數據共享,還任重道遠。
國外的醫學數據質量亦不樂觀。由于網絡普及,用戶可以多渠道獲取數據和集成信息,致使劣質信息產生和傳播的風險達到空前的水平[20]。
臨床數據的爆炸性增長伴生了大量的劣質數據、垃圾數據,嚴重降低了醫療大數據的價值密度。如果不加甄別地使用,將會導致源于數據的知識和決策的失誤。
2014年7月,面對越來越多的科學數據造假,本著對科學數據質量的重視與負責,《科學》雜志聘請了美國統計協會的7位科學家組成數據編輯委員會,專門負責論文的數據審查工作,通過可重復試驗和驗證科學數據推進科學進步[21]。
臨床試驗數據共享不但需要解決知識產權保護問題、利益分配問題、平臺建立問題,還需要特別關注數據的質量問題。 因此我國必須加強數據監管,加強學術誠信建設,有效提高和確保藥物研發數據的可靠性。
當前我國為新藥研發提供的知識服務都是源于可直接利用的知識和信息,整合多個數據庫,尚未進行知識識別和知識推理[10]。
隨著人工智能的發展,藥物研發數據平臺建設應向智能預測、知識推理發展,應具備融合多源數據進行藥物知識發現的能力,提高藥物知識發現的效率和成功率,縮短藥物研發周期,減少經濟成本。
為實現新藥研發數據的有效共享,我國應建立數據平臺研發注冊制度,避免重復、無序研究;以國家藥品數據中心為核心,建立藥物標準本體庫;采取切實可行措施,加強數據質量監管;組織多學科合作,借助人工智能,融合多源異構文本資源,研發具備知識預測和發現的藥學知識庫,為我國新藥研發提供高效的解決方案。