劉盛宇 胡拯涌 段一凡 錢 慶 吳思竹
(中國醫學科學院/北京協和醫學院醫學信息研究所 北京 100020)
由于高通量、大數據、人工智能等技術的廣泛應用,電子健康記錄、臨床數據和數字醫學圖像等生物醫學數據量激增。然而,人工篩選和初級智能算法等傳統分析手段無法處理這些復雜且維度高的數據[1]。因此,亟須發現、獲取和利用能高效處理和分析挖掘相關數據的專業工具及服務。
美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)和歐洲生物信息學中心(European Bioinformatics Institute,EBI)在提供豐富的生物醫學數據共享服務的同時,也支持數據處理和分析工具及服務,為數據利用提供了重要技術支撐。但在數據處理和分析工具管理方面,歐洲生命科學基礎設施中心(European Life-Science Infrastructure for Biological Information,ELIXIR)更為規范和體系化,在工具注冊、版本管理和用戶支持方面均設定了更高的標準,包括算法透明度、可重復性、計算效率以及細致的版本控制和豐富的培訓資源。ELIXIR建立了成熟的平臺、標準和管理體系,促進研究人員訪問、分析和整合生物醫學數據,推動科學發現。深入研究ELIXIR的實踐經驗,對我國解決生物醫學工具管理缺乏有效機制和方法、標準化不足等問題具有參考價值。鑒于此,本文探討了ELIXIR數據工具服務平臺的建設實踐。
ELIXIR于2013年12月正式成立,由歐洲分子生物學實驗室(European Molecular Biology Laboratory,EMBL)、21個成員國和2個候選國(塞浦路斯和奧地利)組成[2],是歐洲跨政府的生物醫學資源整合機構。ELIXIR為了滿足生物醫學數據分析和整合研究需求,構建了生物醫學數據工具服務平臺體系,以及工具標準化注冊、運行環境管理、工作流集成和工具驗證等系列工具子平臺,形成生物醫學數據處理和分析工具(本文統稱為工具)收、管、用體系[3]。
ELIXIR生物醫學數據工具服務平臺體系提供了生物醫學數據注冊、標準化、深度分析及高效評估的一體化解決方案,由bio.tools、WorkflowHub、BioContainers、UseGalaxy和OpenEBench 5大子平臺組成。每個平臺各具特色功能。bio.tools平臺致力于數據處理、分析和建模工具的標準化信息注冊,并提供工具相關信息檢索查詢,已收錄7 247個工具,涉及遺傳學、病毒學和疫苗設計等9個領域。WorkflowHub平臺專注于數據工作流的注冊和共享,工作流主要執行生物醫學數據處理或分析任務,如實現序列組裝、序列質控等,已整合300余個工作流,覆蓋基因組學、單核苷酸多態性、核糖核酸測序等355個領域。BioContainers平臺是為工具提供標準化運行環境的容器解決方案,已支持8 982個工具的運行管理。UseGalaxy是專為生物醫學研究人員設計的工具與工作流執行平臺,已集成7 851個工具和工作流,其嵌入式設計使研究人員可以無縫執行相關工具和工作流。而OpenEBench平臺側重于多維度工具性能評估,已評估23 748個工具,并根據編程文件,如腳本和App等,對工具進行14種類別劃分。
在平臺研發技術應用方面,5個子平臺主要使用HTML、Shell和Python開發語言。然而,為了實現特定功能,各子平臺還采用了其他開發語言。BioContainers平臺利用Perl和Makefile語言自動化構建工具運行環境容器。UseGalaxy平臺采用Jinja和TeX語言生成和格式化工作流代碼模塊。bio.tools平臺使用XSLT語言處理XML格式的工具文件注冊。而OpenEBench平臺為滿足多線程編程需求,使用Facebook開發的Hack語言。在平臺服務方面,bio.tools、UseGalaxy和OpenEBench平臺開發了自定義的應用程序接口(application programming interface,API),以提供更精細化的功能支持。而WorkflowHub和BioContainers平臺注重接口可用性,采用了標準的API,如JSON API、RestfulAPI和TRS API,以加強平臺之間的相互連接性,見表1。

表1 ELIXIR生物醫學數據工具服務平臺體系下各子平臺屬性
bio.tools是生物醫學數據工具的注冊和檢索平臺,致力于實現工具信息的規范化管理。該平臺存儲了豐富的工具元數據描述,包括工具的唯一標識、基本信息、特征信息、功能信息、使用信息和相關學術資料。研究人員可以使用工具唯一標識符(biotools ID)、工具名稱等主要元數據項來檢索和發現工具[4-5]。
bio.tools平臺為研究人員提供工具元數據注冊功能,支持提交biotoolsID、輸入/輸出格式及數據類型等信息。為確保統一標準,bio.tools采用獨特的biotoolsSchema數據模型,涵蓋18個結構化生物醫學詞表,并基于生物醫學數據分析和管理(EMBRACE data and methods,EDAM)本體框架實現細粒度描述。EDAM本體提供分層分類,包括工具類別、功能定義、輸入/輸出格式及數據類型、biotoolsID、支持的數據格式及訪問鏈接等[6]。通過這些元數據標準,確保工具信息的高效整合,見圖1。

圖1 bio.tools平臺工具注冊服務模式
WorkflowHub是生物醫學數據工作流的注冊和發現平臺,提供豐富的工作流資源。支持多維檢索,如按創建時間、名稱、工作流類型(UseGalaxy、KNIME和Nextflow等)和發布團隊進行搜索。研究人員可獲取資金來源、工作流源文件和詳細描述等信息。為注冊集成工作流,WorkflowHub提供完善的注冊機制,包括填寫元數據信息、上傳文件(支持本地和遠程鏈接),并提供多次審核質控。每個工作流都有唯一的數字對象標識符(digital object unique identifier,DOI),確保唯一標識和定位,促進傳播和引用。除鼓勵研究人員上傳工作流外,WorkflowHub管理團隊還從GitHub、nf-core和myExperiment等權威渠道篩選和整合工作流,確保庫中的工作流經過嚴格驗證[7]。
WorkflowHub為研究人員提供了高效、規范的工作流注冊平臺,通過核心工作流標準化框架,支持同時注冊多個工作流。該框架遵循RO-Crate、通用工作流語言(common workflow language,CWL)和Bioschemas 3個數據標準模型,確保工作流數據的規范化、結構化,提高Web服務器檢索效率。Bioschemas標記28個關鍵屬性,增強工作流的在線可查找性;CWL限定輸入輸出數據格式,規劃任務執行順序;RO-Crate將工作流的文件、目錄結構、數據類型等描述整合到JSON-LD的元數據文件[8]。WorkflowHub平臺服務模式,見圖2,其中“工作流查看”板塊(2A)展示基于Bioschemas的工作流檢索服務,而“多個工作流注冊”板塊(2B)揭示依賴RO-Crate和CWL的多工作流并行注冊機制。

圖2 WorkflowHub平臺服務模式
BioContainers平臺利用容器化技術為工具提供了標準化運行環境,確保工具在不同操作系統中的穩定性。該平臺主要包括Docker Containers、Conda Containers和Specifications 3大組件。Docker Containers依賴Dockerfile腳本自動設定工具運行環境。而Conda Containers則先利用Conda腳本創建Conda包,并基于此包制定Docker Containers,以確保容器的一致性與可追溯性。Specifications組件則定義了容器的相關規范,如許可證等。
BioContainers提供Web端服務器BioContainers Registry。該服務器對各種工具及其容器鏡像進行索引,允許研究人員根據工具名稱、類別或開發團隊等關鍵信息進行篩選和查找[9]。每個工具都附帶一份詳細的描述文件(類似于README.md文件),內容包括工具名稱、版本、功能概述及操作方法。借助這些明確指導,研究人員可以在本地輕松運行工具,避免復雜的環境配置步驟。
BioContainers允許研究人員選擇合適的容器化技術并撰寫配置腳本,以滿足其自定義搭建工具時對運行環境的需求。社區管理人員負責對自定義容器進行審核和驗證,經過驗證的容器將存儲在BioContainers核心數據庫中,并且可以在BioContainers Registry中查找和使用。當工具運行環境容器需要更新時,研究人員可以通過“容器請求界面”提交更新需求。社區成員將評估和審核該需求,然后該更新將存入核心數據庫,以供查找和應用。BioContainers運行環境容器架構,見圖3,展示了BioContainers的完整組件,以及從研究人員的初步請求到容器的部署階段。

圖3 BioContainers運行環境容器架構
3.4.1 平臺功用 UseGalaxy是開源工具和工作流的集成分析平臺,為非編程背景研究人員提供一系列準確且可復現的數據分析工具,支持團隊協作和數據結果共享。使用UseGalaxy集成工具,研究人員可以完成多種生物醫學分析任務,例如DNA/RNA序列比對、變異檢測、基因組注釋、蛋白質交互網絡分析和代謝途徑模擬。此外,UseGalaxy還允許研究人員創建、保存和根據項目需求調整自定義分析工作流。
3.4.2 平臺技術架構和應用流程 UseGalaxy平臺包含5大組件:公共UseGalaxy服務器、GalaxyToolShed存儲庫、UseGalaxy云服務模塊、培訓服務模塊和UseGalaxy社區。公共服務器采用并行計算和高效工作流調度算法,適應高通量數據處理需求。GalaxyToolShed存儲庫持續更新,集合了材料科學、機器學習和系統生物學等領域的分析工具,設立嚴格的審核標準,確保工具和工作流的高質量,并與公共服務器無縫對接。UseGalaxy云服務模塊提供彈性計算框架,滿足學術用戶和商業用戶的個性化需求。培訓服務模塊為研究人員提供專門教學內容,確保平臺的有效利用。UseGalaxy社區為研究人員、開發人員和教育工作者提供交流平臺,通過論壇、交流會和年會等活動,分享和推廣最新研究和技術成果[10]。UseGalaxy“用戶工具或工作流分析流程”的技術架構和應用流程,見圖4。

圖4 UseGalaxy技術架構和應用流程
3.4.3 以用戶需求為導向 UseGalaxy遵循用戶需求導向的技術更新策略,及時將最新生物醫學數據分析技術集成到平臺服務中。平臺支持數據類型批處理,并集成許多關于數據流開發建議,包括調整輸入、處理不連續數據等,以提高數據處理的靈活性。平臺引入的Galaxy-ML支持包括數據標準化、特征選擇、模型定義、超參數優化和交叉驗證在內的全套監督機器學習工具。結合最新生成式技術,UseGalaxy引入OpenAI GPT輔助工具為研究人員遇到的編程問題提供實時問答解決方案。
3.5.1 平臺功用 OpenEBench由ELIXIR及其合作伙伴和西班牙巴塞羅那超級計算中心(Barcelona Supercomputing Center,BSC)推出,是工具和工作流的標準化評估平臺。在生物醫學領域,基準評估為工具性能提供了客觀標準。OpenEBench主要通過使用歐洲核苷酸序列數據庫(European Nucleotide Archive,ENA)和歐洲基因組-表型組數據庫(European Genome-phenome Archive,EGA)的基準測試數據集進行工具的測試和評估[11]。
3.5.2 工具評估步驟 OpenEBench的工具評估流程可概括為“預測結果生成”和“基準測試”兩大階段。在“預測結果生成”階段,研究人員(用戶)首先將選定的基準測試數據集以及待測工具導入數據分析平臺(如UseGalaxy或Nextflow)。然后,該工具在數據分析平臺上處理基準測試數據集并進行預測性比較,生成用于后續評估的“預測結果數據”?!盎鶞蕼y試”階段由驗證、指標計算和工具評估3個步驟組成。第1步,驗證“預測結果數據”的準確性和完整性,并生成“驗證結果數據”。第2步,根據確定的基準對“預測結果數據”進行深入對比,發現并生成關鍵性能指標,如匹配精度。第3步,將數據匯集到工具評估專題數據庫中,生成可視化分析圖表,顯示最終結果。整個整合過程在虛擬研究環境中進行,以確保所有數據都符合統一且嚴格的評估標準。
3.5.3 工具評估具體流程 OpenEBench的工具評估由用戶社區驅動,涉及初、中、高3個層級的社區成員,不同層級擁有不同權限。初級參與者負責基準測試結果的存儲,確保實驗的可重復性和數據來源的明確性。中級參與者除存儲功能外,還能使用基準測試工作流評估其他成員的工具性能,包括使用參考數據集計算評估指標。高級參與者擁有平臺全部權限,能直接啟動OpenEBench中的整個工具評估流程。每個層級的評估操作都在前一層級評估設定的基礎上進行擴展。高級參與者生成的數據將根據中級參與者設定的評估指標進行處理,并依照初級參與者制定的數據結構進行保存[12],見圖5。

圖5 OpenEBench工具評估流程
ELIXIR生物醫學數據工具服務平臺精心設計策略,以確保與其他平臺間的高效交互,進而構建協同的研究環境,見圖6。在資源方面,生物醫學數據工具服務平臺各子平臺都采用統一的協同共享策略。特定工具和工作流被注冊到bio.tools或WorkflowHub數據庫后,BioContainers為這些工具和工作流提供穩定且適用于多個操作系統的容器化運行環境。配置完成后,這些工具和工作流在UseGalaxy上直接調用和執行。OpenEBench支持對工具和工作流使用前后的性能評估,以確保工具和工作流在生物醫學數據分析任務中的完整性和互操作性,以及任務實現后的工具有效優化和改進。

圖6 ELIXIR數據工具服務平臺體系內部及外部交互
除了5個子平臺之間構成有序的生物醫學數據工具服務網絡外,ELIXIR還建立了高性能計算平臺和培訓平臺。高性能計算平臺支持大規?;蚪M分析、蛋白質結構模擬等復雜任務,而培訓平臺則致力于指導研究人員高效應用分析工具和數據處理技術。數據工具服務平臺遵循FAIR原則(即可發現、可訪問、可互操作、可重用),與計算平臺交互,構建標準化數據接口,確保數據符合FAIR特征,并采用高速數據通道技術保障平臺間高效數據傳輸。培訓平臺定時更新相關培訓和輔助學習資源,通過Webhooks和API endpoints為數據工具服務平臺提供反饋機制,促進資源和服務的有效優化。此外,培訓平臺還集成典型工具與工作流應用,支持研究人員進行實踐操作。
ELIXIR生物醫學數據工具服務平臺及其5個子平臺構成了一個全面且互補的生物醫學數據工具服務生態體系。這些平臺實現了工具和工作流的規范化收錄、存儲、管理和應用,標準化組織和描述多種高效工具,提供迅速便捷的工具獲取和發現功能。先進的容器化技術按需配置工具,改善工具間的兼容性問題,確保工具的可用性、有效性和可靠性。子平臺的建設形成了從工具創建注冊到使用反饋的全鏈條服務體系,規范了工具管理和服務流程,對我國生物醫學領域的工具碎片化、開發冗余等問題有重要借鑒意義。
ELIXIR的5個子平臺在建設中均遵循統一標準,采用BioSchema提出的核心數據模型和工具格式,結合領域本體進行表達規范控制,確保數據一致性和工具間的互操作性。這種規范化策略簡化了數據管理流程,提高了工具的適應性和跨平臺、跨實驗室的數據共享能力。當前,我國生物醫學數據工具及平臺建設缺乏統一標準,因此應借鑒ELIXIR的經驗,加強國內生物醫學數據和工具標準規范的研制和應用。這包括引進國際標準并建立健全具有本國特色的生物醫學數據工具管理標準規范,以確保工具的高效和規范化管理與應用,進而提升生物醫學科研效率并促進科研成果的產出。
整合存儲和計算資源并實施統一管理策略能提高資源利用率。BioContainers使用標準化描述文件如Dockerfile,結合Docker和Singularity等容器技術,確保工具在各種環境中都能保持可移植性和一致性。這簡化了部署和配置,減少了運行錯誤。按需調用和擴展配置能充分利用硬件資源,提高效率。我國生物醫學數據增長迅速,科研需求迫切,但硬件和算力分布不平衡,導致分析困難,工具無法使用。ELIXIR提供底層運行環境支持和管理,為研究提供良好思路。
生物醫學領域的數據處理和分析工具繁多,但質量和性能參差不齊,影響數據處理和分析結果的準確性。OpenEBench的基準測試框架科學、準確地評估工具性能,涵蓋多種指標,并整合基準測試數據集,確保評估全面深入。這種綜合評估方法提升了工具的信任度,為研發人員指明了優化方向。隨著人工智能和機器學習在生物醫學數據分析領域應用的增多,工具和模型的評測至關重要。我國可借鑒OpenEBench策略,結合實際情況構建基準數據集,建立評估體系,提升工具可用性。
ELIXIR工具服務平臺實現了對工具及工作流的版本管理,追蹤新技術并整合。已集成OpenAI的GPT等最新技術到UseGalaxy平臺,并對引進技術進行科學評估和實驗驗證。WorkflowHub工作流平臺集成GitHub等開源工具的優質資源,不斷更新和擴展,以滿足科研人員需求。國內生物醫學數據工具和平臺建設應關注最新技術,優化性能,融入智能化技術和資源,助力創新性研究。
ELIXIR工具平臺的特點是用戶社區驅動發展策略,強調用戶需求與工具開發的同步性。平臺建立各子平臺的用戶社區,深入挖掘用戶需求,確保工具與科研場景緊密結合。平臺鼓勵用戶參與信息審核、工具檢測和使用測評,積極獲取用戶反饋,不斷迭代和優化工具產品,提高產品的可用性和易用性。此外,平臺組織學術研討、會議和培訓,搭建技術與知識交流橋梁。國內生物醫學數據工具和平臺建設應重視用戶社區參與度,建立交流機制和反饋通道,并根據科研用戶需求優化工具產品。
本文全面探討了歐洲ELIXIR生物醫學數據工具服務平臺體系,并對其在工具注冊標準化、運行環境容器化、分析架構及性能評估等領域的成果進行系統性論述。參照其經驗,為我國生物醫學數據工具規范化管理和相關平臺建設提出建議。