蘇 燕 凌鋆超 李禎祺 張國慶 徐 萍
(中國科學院上海生命科學信息中心/中國科學院上海營養與健康研究所/中國科學院上海生命科學研究院 上海 200031)(中國科學院計算生物學重點實驗室/中國科學院馬普學會計算生物學伙伴研究所生物醫學大數據中心/中國科學院上海營養與健康研究所/中國科學院上海生命科學研究院 上海 200031)中國科學院上海生命科學信息中心/中國科學院上海營養與健康研究所/中國科學院上海生命科學研究院 上海 200031)(中國科學院計算生物學重點實驗室/中國科學院馬普學會計算生物學伙伴研究所生物醫學大數據中心/中國科學院上海營養與健康研究所/中國科學院上海生命科學研究院 上海 200031)(中國科學院上海生命科學信息中心/中國科學院上海營養與健康研究所/中國科學院上海生命科學研究院 上海 200031)
隨著生物醫學研究的飛速發展,生物醫學數據呈現指數級增長。如何將海量異構數據收集整理成規范統一、高質量、可高效利用的知識成為亟待解決的問題。生物審編作為提升數據價值的重要方式,已經被國際大型公共和商業生物醫學數據庫廣泛使用。國際生物審編學會將生物審編定義為:將生物相關信息轉化集成到數據庫或數據資源中,同時整合科學文獻和大數據集,準確全面地描述生物知識,便于科研人員獲取相關信息以及利用計算機進行數據分析,包括從雜亂數據集中提取和組織生物學和臨床數據,錄入到一個用戶友好的數據庫中。生物審編的發展歷程,見圖1。經審編的數據一方面成為科研人員重要的參考資源,另一方面已被大規模用于文本挖掘或信息學分析,如生物信息學、神經信息學、衛生信息學等[1]。

圖1 生物審編發展歷程
2017年3月歐洲藥品監管機構負責人組織(Heads of Medicines Agencies,HMA)和藥品管理局(European Medicines Agencies,EMA)成立大數據聯合工作組,針對基因組學、蛋白質組學、臨床試驗等數據的標準化、質量、共享、連接、分析、監管等提出建議。2018年6月美國國立衛生研究院(National Institutes of Health,NIH)發布《數據科學戰略計劃》,旨在對生物醫藥研究產生的海量數據進行存儲和管理并進行標準化建設和數據公開。
生物審編已在國際大型公共和商業生物醫學數據庫廣泛使用,成為數據/知識抽取和標準化管理重要方式。公共大型生物醫學數據庫,如美國國立生物技術信息中心(National Center of Biotechnology Information,NCBI)開發的基因變異數據庫ClinGen,歐洲生物信息研究所(European Bioinformatics Institute,EBI)開發的蛋白質相互作用數據庫IntAct,生物學通路數據庫Reactome,生物相關的化學實體數據庫ChEBI,基因本體、線蟲模式生物數據庫WormBase,西班牙國家生物技術中心開發的蛋白質相互作用數據庫iHOP等均采用審編方式提升數據附加值。同時經過審編的高質量數據的商業價值已經引起企業關注,如GeneGo、IPA和Pathway Studio等商業數據庫通過自然語言處理技術從文檔中提取信息和知識,聘請專業人士進行判讀,提升數據價值,保證知識的可靠性。但這些商業軟件核心數據保密且使用價格昂貴,在生物醫學數據方面形成壟斷。
我國在生物審編領域研究幾乎處于空白狀態,目前僅有中國科學院北京基因組研究所[2]、中國醫學科學院醫學信息研究所[3]等機構對生物審編進行了探索性研究。隨著大數據時代的到來以及我國自主開發意識的增強,國內各類生物醫學知識庫構建相繼開展。尤其是2016年國家開始密集布局重大慢病、精準醫學等領域的重點研發計劃,依托這些計劃搭建國家級生物醫學知識庫,旨在打破國際壟斷,保護數據安全。
雖然國際上已研發出PubTator等自動審編工具,在一定程度上提高了生物審編效率[4],但受限于生物知識和文本的復雜性,目前審編工作仍以專業人員人工解讀為主。生物審編是一項大體量、高耗時工作[5],需要投入大量的人力和財力資源[6],其開展和持續目前主要面臨兩方面挑戰。一是國際尚無統一、規范的生物審編組織管理模式,以保障審編工作的質量和效率,審編人員的能力素養和個人偏好等因素容易引發審編質量和效率的差異。二是生物審編的數據來源于不同文本,其質量參差不齊,直接影響審編后生成知識的可信度,同時也給其開展造成一定困難。如何解決上述問題,實現審編過程的高質和高效管理成為其開展和持續運行的關鍵。
3.2.1 國際 目前尚無統一、規范的生物審編組織管理模式。國際上的數據庫建設機構主要采用成立聯盟、與協會合作、與期刊合作、開放式群體審編等組織模式,根據自身資源和優勢設計適應性管理模式。國內外生物審編組織管理模式,見圖2。國際分子交換聯盟(International Molecular Exchange,IMEx)成員包括UniProt、IntAct等16家數據庫,其審編模式是聯盟成員承諾認領數量不等的期刊進行審編。為減少審編人員個體差異造成的審編質量和效率差異,IMEx聯盟安排審編人員進行跨庫交叉培訓,促進不同機構間的審編人員交流,縮小機構以及人員間的審編差異。IMEx聯盟編制了面向蛋白質互作審編的IMEx審編規則(IMEx Curation Rules),對證據源、審編字段、更新方式等作了詳細規定[7]。線蟲模式生物數據庫WormBase通過與美國遺傳學會(Genetics Society of America,GSA)和達特茅斯期刊服務機構合作獲取全文資源,引導作者自行審編。2010年作者反饋率約40%,其中75%的作者進行了較為詳細的注釋。IBM人工智能系統Watson的審編過程管理中設計了4類職位:團隊領導、數據專家、內容審編人員和領域專家。團隊領導負責管理和監督Watson審編項目,啟動新的任務工作;數據專家負責查找與收集相關符合目的、范圍、標準的內容,利用計算機技術進行內容分類;內容審編人員負責指導數據專家收集內容、審編收集的內容、指導領域專家對審編內容進行分類和改進;領域專家利用專業知識對收集的內容進行質量控制,評估內容的有效性、準確性和價值。通路數據庫IPA聘請500名博士開展審編工作,通過多輪審編進行質控。

圖2 國內外生物審編組織管理模式
3.2.2 國內 中科院北京基因組所開發的RiceWiki數據庫采用開放式群體審編的模式。開放式群體審編不同于作者審編和聘用專業審編員審編,其審編員范圍廣泛,線上協作審編的方式不受時間、地域限制,為審編工作的大規模開展提供可能。但也存在審編員個體差異大以致于審編質量和效率參差不齊的問題。RiceWiki利用AuthorReward評分明確審編人員的貢獻程度,該系統從一定程度上對審編人員進行評價但并未從根本上解決人員造成的審編質量和效率差異問題[8]。此外國內的商業數據庫也開始嘗試通過審編構建知識庫,如萬方基于其文獻資源優勢構建萬方醫學知識庫,其組織模式為邀請專業領域內有影響力人士,由其召集志愿者進行審編。國家重點研發計劃“疾病研究精準醫學知識庫”項目設計了基于文本挖掘的自動與人工結合、數量與質量并重的審編模式,見圖3。

圖3 自動與人工結合、數量與質量并重的審編模式
文本挖掘生成的生物學實體和實體關系數據匯集到審編平臺,首先比照第3方數據庫的先驗知識進行自動審編,與第3方數據庫匹配的直接輸出到知識庫,不匹配的返回審編平臺進行人工審編。在審編數量控制上采用網上招募或者專家召集博士后、博碩士研究生的模式,保障對審編員數量的需求,同時對審編結果進行一定的反饋和激勵。在質量控制上通過專家質控、多人質控模式,不合格的審編條目返回審編平臺重新進行任務分配。同時組織專家對審編人員進行線上/線下培訓,將審編質量較高的人員吸納為審編專家。
生物醫學領域的文本數量飛速增長,文本中研究結果的可信度不高,低質量的文本往往造成審編信息冗余甚至錯誤。同時在文本中信息的呈現形式極大影響生物數據的識別和審編速度[9]。生物審編的證據來源于不同文本,其質量參差不齊,從根本上影響了審編后生成知識的可信度。因此一方面需要對證據源加以一定控制,保障基于審編的數據庫質量,另一方面需要對審編生成的數據進行可信度評價,幫助數據庫用戶快速識別入庫數據的可信度。目前許多數據庫都采取一定措施從證據源角度進行審編質量控制。腫瘤突變信息數據庫COSMIC采用經同行評議的出版物為證據源。線蟲模式生物數據庫WormBase證據源篩選主要依賴審編人員的主觀判斷,后臺系統首先利用Perl腳本在PubMed數據庫中對關鍵詞“elegans”進行檢索,檢索獲得的文獻再通過人工判讀摘要或全文,分析文獻信息數量和質量進而決定是否采納該證據源。WormBase數據庫每年審編文獻量約1 200篇[10]。此外ClinGen數據庫針對提交數據的實驗室發布數據質量標準,僅收錄滿足特定要求的實驗室數據[11]。在可信度評價方面ClinGen、CIViC等都已建立證據分級評價模型,為數據庫用戶提供直觀的可信度展示。ClinGen根據試驗方法、試驗材料、分析方法等因素對證據進行分級[12]。腫瘤基因變異數據庫CIViC數據庫分別建立證據評級和可信度評級兩種評價模式。證據評級賦予共識/指南、臨床試驗、個案報道、試驗模型等證據由高到低的分級,可信度評級則根據期刊影響、研究規模、再現性等因素進行分級[13]。國際分子交換聯盟面向蛋白質互作關系設計證據評分模型,利用MIscore工具對審編獲得的蛋白之間的相互作用進行可靠性評價,評分因素包括文獻數量、實驗方法類型和相互作用類型[14]。
在審編工作組織管理方面我國已發展一批具有國際影響力的生物醫學期刊,包括《細胞研究》(CellResearch)、《分子細胞生物學報》(JournalofMolecularCellBiology)等,發揮政府、學術團體、期刊的聯動能力,組織引導作者在投稿過程中共享數據和開展審編是發展我國自有生物醫學數據/知識庫的直接、有效途徑。同時通過重大專項等形式持續支持生物醫學數據/知識庫建設,招募和培育專業審編人才,規模化開展審編工作是發展我國自有生物醫學數據/知識庫的必由之路。在審編工作的質量和效率控制方面,利用計算機技術輔助審編已成為提高審編效率的重要方式,應積極推動生物醫學本體構建、異構數據整合、文本挖掘等研究,支持和引導國內生物醫學信息系統采用統一通用的數據標準,打破數據孤島,通過自動或半自動審編技術和工具提高審編效率。探索生物審編過程管理機制,制定標準、規范的審編流程,保障生物審編工作的科學開展,推進審編質量和效率的雙重提升。
生物數據已被視為重要的國家戰略資源,美、歐、日等國家在20世紀就已經布局數據的收集、存儲、審編和利用,美國NCBI、歐洲EBI等數據中心以及GeneGo、IPA和Pathway Studio等商業數據庫已對生物數據形成壟斷。近年來我國高度重視生物數據資源的開發和利用,中科院北京基因組研究所生命與健康大數據中心、中科院上海生科院生物醫學大數據中心、北科生物國家生物醫學大數據產業園等多個生物大數據中心、集群、平臺也相繼建成。但我國在生物審編方面剛剛起步,生物數據缺乏有效積累與管理,面臨嚴峻的數據資源風險,亟需探索生物審編工作的支持和激勵機制,充分挖掘數據資源,打破數據壟斷,保障科研、臨床對數據資源的需求。