文/本刊記者 劉文生
英特爾:迎戰基因組學
文/本刊記者 劉文生
英特爾在存儲、計算、網絡及系統等各方面都將為推動基因測序應用提供重要技術支持
基因組醫學正從前沿科技走向臨床實現。

在癌癥和其它惡性疾病的突破性治療方面,技術將起到至關重要的作用。這是行業共識。科研人員正試圖不斷識別更多類型的基因突變,這是找到更具靶向性和更高效抗癌方法的重要基礎。單個腫瘤內可能有大量的基因多樣性,而目前通用的化療、放療和手術等治療方法都沒有精準的針對性,造成了“千癌一治”的困境。
2015年中國約有280萬人死于癌癥,治療無效率高達75%。且在癌癥致死原因中近三分之一是治療不當。長久以來,全球科研人員一直在尋求一種更有針對性的療法來控制導致癌細胞生成的特定基因突變,現在,人類終于擁有了可在分子水平追蹤基因突變的療法。
這種新型療法以基因組測序為基礎。2003年,人類實現首次基因組測序,耗資高達27億美元。2009年,全球第一例中國人標準基因組圖譜完成,歷時3年,耗資幾千萬人民幣。但如今,一次全基因組測序的成本已在萬元以下且還在不斷降低。
通過基因組測序,醫生可以發現關鍵的基因突變,從而有針對性地實施靶向療法和免疫療法。同疫苗和抗生素的出現一樣,下一代基因組測序技術(NGS)是人類醫療進程中的又一次突破。
一位癌癥晚期患者的生命因為其醫生發現的臨床試用藥物而延長了兩年,該藥物專門針對此類患者體內由變異引發的分子通道;一次漫長艱難的診斷借助基因技術獲得突破,為一位患有罕見基因疾病的兒童帶去了新的希望;一家醫院的兒科在病理部門的幫助下,迅速找到并控制了金黃色葡萄球菌(MRSA)發病源,避免了一次大規模疫情。
英特爾健康與生命科學事業部全球營銷總監Bryce Olson也是受益者之一。他說:“像我這樣已經發生骨轉移,且化療后病情仍在發展的晚期前列腺癌患者,平均生命只剩21個月。因為參加了一項采用基因測序來識別和阻斷變異細胞信號傳遞路徑的臨床試驗,現在我已延續了29個月的生命。”
近年來,得益于基因技術的案例比比皆是。新的基因技術能深入疾病分子層面,讓精準醫療成為可能,為腫瘤、兒科疾病和傳染病等眾多醫療領域帶來積極影響。就癌癥而言,精準醫療能讓醫生掌握患者體內腫瘤的基因組信息,并結合腫瘤分子異常(如基因突變)等方面的知識,為患者選擇最合適的治療方案。
在另一個至關重要的領域,最新的基因組學技術有望成為人類應對超級細菌的強大助手。它能幫助科研人員精準識別感染源和病原體的耐藥源,從而研制出應對藥物。隨著埃博拉、寨卡及其他嚴重傳染病的不斷出現,這些新型基因組武器變得比以往任何時候都更加重要。
與更具靶向性的療法相比,對傳染性疾病的追蹤能更好地體現全基因組測序的精準特征。在癌癥和其他領域,研究人員往往只對已知的幾個重要基因測序,無需全基因組測序。但在分析傳染性病原體時,通過對所有基因進行極為精準的分析,研究人員可以準確地發現基因突變點位及其時間,以及哪些突變可能導致耐藥性。
這對于下一代抗菌素的研發意義重大。通常,研究人員會通過培育土壤細菌并識別其產生的抗菌化合物來發現新的抗生素。但大多數土壤細菌在體外并不能很好成長,所以此過程非常耗時,甚至會無果而終。而基因組學則提供了全新的解決方案,能讓研究人員在更短時間內發現細菌弱點和潛在的抗菌化合物。
以全球第二大傳染病——結核病為例,世界衛生組織《2016年全球結核病年報》顯示,2015年全球新增感染人數高達1040萬,死亡人數也高達140萬,其中新增的多重耐藥性結核病例為48萬。我國目前每年新增結核感染患者93萬,居全球第三位。對結核桿菌進行深度的基因組測序能幫助研究人員快速識別出其抗藥機制,從而促進相關新藥的研發,最終挽救眾多生命。
此外,有一些病原體無法通過已知技術培育。這意味著它們一直存在,但并不被察覺,是巨大的公共健康隱患。如今,借助基因組測序,研究人員也可以對此類病原體進行識別。
基因測序領域的科研突破也催生了新的實用技術,比如能識別菌株及其抗藥性信息的軟件已經問世,并能在幾分鐘內給出詳細全面的識別報告。目前,基因組測序已被用于追蹤西非的埃博拉病毒和巴西的寨卡病毒。追蹤埃博拉病毒時,研究人員可將新型便攜式測序儀放在行李箱中,飛赴目的地,并能在24小時內識別出菌株,從而快速繪制出傳播模式。
越來越多的腫瘤病例證明,單一藥劑的靶向療法無法激發長效且可靠的病患響應,因為單個腫瘤內可能存在多種變異——包括癌癥在內的一些疾病具有腫瘤異質性,會引發分子生物學或基因方面的改變,其后果難以預知,因而帶來的難題往往比解決方案還要多。
“即使在新的免疫藥物方面,醫生在為每位病患確定適當的綜合治療方案時也需要對預測性和預后性生物標志物有更好的理解,而這要求更深層次的研究。” Bryce Olson如是說。
幸運的是,先進的下一代基因組測序(NGS)技術為科研人員提供了更龐大的基因組測序數據,從而推動了對癌細胞生物性的更深層次研究,也推動了新的診斷標志物和治療靶點的發現。與此同時,腫瘤表達譜和基因檢測還推動了一系列全新臨床試驗的出現,幫助將科研發現轉變為新的診斷測試和靶向療法。
然而,正如英特爾健康與生命科學事業部全球總裁Jennifer Esposito所言:“隨著對基因組測序需求的不斷增加,需要處理、存儲和管理的數據量也在增加。” 一個人一次高質量全基因組測序將產生近1TB的數據量。由此推算,中國計劃建立的百萬級基因樣本數據庫將是全球各行業最大的數據庫之一。如何讀取和利用類似這樣的“龐然大物”成為了巨大挑戰。畢竟,癌癥患者無法等待數周甚至數月才獲得分析結果和治療方案。
英特爾健康與生命科學解決方案高級架構師Michael McManus博士給出了一個答案。他表示:“數據分析的速度越快,也就能越及時地幫助醫生確定治療方案。對他們而言,最佳的解決方案不僅要快,還要方便操作,并能大規模應用于大量基因數據分析。而這正是我們的全新解決方案能做到的:我們利用開源的商業基因組分析軟件,結合硬件OEM合作伙伴,幫助科研人員簡化基因組測序的工作流程,并極大地降低擁有成本。”
在McManus博士幫助各大臨床實驗室進行的典型基因工作流程中,他們會從患者的血液或腫瘤樣本中提取DNA,之后使用基因組測序儀器進行處理(將人類DNA樣本數字化)。獲得測試數據后,科研人員會使用高性能計算(HPC)集群迅速地進行基因分析(獲取生物信息)。從中得出的結果將會用來破譯具有臨床意義的基因改變,從而引導治療方案,包括針對具體病患的特定藥物。

下一代基因組測序技術 (NGS)是人類醫療進程中的又一次突破。
McManus博士是高分子化學家和合成有機化學家,他職業生涯的大部分時間都致力于為基因組學和生物信息學提供計算解決方案。在英特爾,他成功地制定出各類醫療機構在應對不同基因組數據處理量時的計算和存儲硬件配置標準。他說:“可以將基因組數據工作流程看作一場化學反應。我們的集群規模指南能告訴你最初需要什么,隨著規模擴大還會需要什么。”
英特爾可擴展系統框架(SSF)可以作為基因組集群的參考架構基礎,在處理更大量基因組數據的同時,通過更高效的硬件設備設計降低所需節點個數。在德國生物信息公司凱杰(QIAGEN),英特爾設計了專門的32節點集群,搭配10臺測序儀 (Illumina HiSeq X Ten系統)進行基因組學數據分析。
“我們幫助凱杰制定的解決方案能將每次全基因組分析的費用降至22美元。”McManus博士表示,“而且所需節點數要比Illumina(當前業界最高數據處理量基因組測序系統的制造商)推薦的減少了62%,從而讓凱杰的基因組分析解決方案總成本降低了47%。”
英特爾與凱杰在基因測序方面的技術讓中國的醫院和檢測機構等終端獲益。他們與多家生物企業以及硬件廠商和云服務公司合作,共同提供整合各方優勢的綜合平臺和高效的全方位服務。
除提升速度之外,McManus博士還指出:“科研機構和醫院的下一個重大需求是如何準確地預測每個基因組集群的處理量。只有這樣他們才會購買最高效的系統,而且也能按照預測的樣本增加數量來衡量所需的額外計算和存儲硬件,從而讓投資效率最大化。”
當數據處理量能被很好地預測時,硬件擴充規模才能更好地計算出來。也就是說,在已有硬件的規模性能被驗證后,英特爾很快能計算出將來拓展處理能力時需要多少額外集群。
先進的技術推動基因組測序邁向新的境界,然而龐大的數據所帶來新的問題卻日益成為基因測序發展的障礙
目前全球多個國家已宣布十萬人甚至百萬人的龐大基因組計劃。在我國,由發改委、財政部、工信部及國家衛生計生委聯合批復的國家基因庫項目已經啟動,目前已存儲多種生物資源樣本1000萬份,建成了20PB數據的可訪問能力,并規劃在二期完成500PB數據的可訪問能力。
事實上,精準醫療需要的并不僅僅是大量基因組數據的簡單堆積,而是讓這些數據發揮作用。基因組測序需要強大的數據分析和對患者癌癥基因變異的臨床解讀作為支撐,并要確保數據能交到治療一線的醫生手中。
美國國立衛生研究院(NIH)院長Francis Collins及副院長Kath Hudson在發表于2016年《新英格蘭醫學期刊》上的聯合署名文章中寫到“快速的數據共享對類基因組工程(Human Genome Project)的成功起到了至關重要的作用。過去20年來,數據共享理念在生物醫學界已深入人心,技術的進步和大數據的發展則使數據共享與查詢進入了全新時代。”
盡管如此,由于各種因素的限制數據的獲取和使用目前依然嚴重受阻。多數基因組數據仍掌握在收集這些數據的各種機構手中。比如,美國雖然有法令要求學術中心等機構公布其成果,但所共享的數據也僅占其全部數據的50%。這無疑嚴重阻礙了科研活動的發展和病患的救治。
Bryce Olson指出:“并沒有商業利益激勵科研人員彼此共享數據。”他們要相互競爭并在重量級學術刊物上發布成果,如果共享數據,則意味著失去在《科學》或《自然》等權威出版物上發表論文的機會,而這種機會也許一生只有一次。同樣,私立機構也會相互競爭,這就要求有強于他人的競爭優勢,而其中重要的一項就是科研成果。
管理機構和業界專家都清楚,這種僅關注短期利益的想法急需改變。作為一位受益于關閉其分子水平突變路徑的臨床試驗藥物的晚期前列腺癌患者,Olson本人對此深有體會。“當前,各種疾病都已被細化為多個獨特類型,單個醫院不可能獲得所有類型疾病所需的有意義的數據。”的確,只有共享才會讓醫療機構有足夠的數據推進科學發展,從而幫助更多像Olson一樣的患者。
個人隱私安全問題上的顧慮也在阻礙數據的共享。盡管基因組數據在共享前通常都會刪除可識別患者身份的信息,但醫療機構的負責人總是擔心觸犯個人隱私法律,因此造成了數據被過度保護。此外還有經費問題。即便大家都同意共享數據,醫療機構也不得不考慮龐大的專業人員及IT資源支出。
技術與文化差異也是數據共享的障礙。即便是在機構內部,研究人員可能并不知道自己的同事那里有相關數據。存儲、格式和獲取程序上缺乏靈活性還會導致數據難以查閱和檢索。這些操作有時需要花費大量時間,以致科研人員最終找到所需數據時,它們已經過時了。
要解決這些問題,需要政策法規的支持、醫療機構自身的努力以及患者團體的推動。
在政策層面,我國已經展開積極的行動。2016年3月,科技部在《精準醫學研究重點專項2016年度申報指南》中對精準醫療數據規范化與分享性都表示了明確的支持,具體到“面向精準醫學研究和應用的大數據搜索引擎和跨庫檢索分析技術系統……數據訪問、數據搜索、安全隱私、知識檢索、規則創建等共性服務組件”等多項內容。并要求其要“符合倫理規范”。
在行業內部,如果某家機構想要加強在某個具體領域的數據共享,他們首先需要了解數據掌握在哪些機構手中,然后將其聯合起來組成利益共同體,這樣各方都會更愿意共享數據。而且,他們還要清楚,數據共享并不會導致競爭優勢的喪失。Olson指出,“數據自身只是數據,它并非知識產權。各機構只有對共有數據庫進行分析后得出的成果才是知識產權,比建立自己的數據孤島要有意義得多。” 我國在癌癥領域的資源相對集中,領先的300家醫院匯集了近70%的癌癥患者。在數據共享方面,這或許是優勢。
在解決資金困境方面,從患者團體著手是個不錯的選擇。他們不僅渴望分享數據,而且易于組織并擁有一定的聯絡資源。行業贊助商與合作伙伴也可能向他們提供資助。其他資金來源還包括關注某種特定疾病的患者倡導團體、機構或基金會。
在獲得了數據和資金之后,技術問題是另一大挑戰。行業需要強大的技術確保數據容易讀取,并采用通用的標準術語且可重復使用(如通過開源許可實現共享)。
那么,該如何推動數據的讀取呢?大型數據庫顯然無法移動。“所以我們要建立聯合式共享平臺。”Jennifer Esposito指出,“這樣既可以共享數據,又不必將其移動到別處。”
此外,醫療服務提供商須密切關注仍在不斷發展變化的數據集成與分類標準。在業界制定出通用標準前,數據中心的架構必須具有一定的靈活性和集成性。正如Esposito所言:“我們需要能幫助醫療行業安全有效地轉向云端的基礎設施。在醫療數字變革的進程中,我們要建立適當的基礎架構,確保未來的規模化拓展。”
正是基于這一未來展望,2015年10月,英特爾聯合華大基因和阿里云在深圳宣布共建中國精準醫療混合云平臺,充分利用其在高性能計算、存儲和傳輸方面的實力,為精準醫療計算云平臺的設計提供了一個重要參考。
為讓數據共享更為有效,還需要患者的大力支持。Olson提到:“其實患者本身并不想將自己的數據孤立起來。”所以,讓患者了解數據共享的重要性并積極參與進來是真正的關鍵所在。他還表示,推動更多數據實現共享的方法之一是讓患者意識到自己的數據極有價值,也可能是找到更多生命答案的鑰匙。患者想知道是否有新的實驗可以提供與自身分子特征匹配的藥物。而要找到可行的臨床實驗,需要有效地共享數據。
另外,技術本身還要簡單易用、方便獲取。“各機構最終需要解決的問題是,如何以簡單易行的方式收集和獲取比他們各自擁有的數據量要大得多的數據。” Olson說,“我們希望醫生在為患者尋找適當療法時,獲取數據能像網上銀行操作那樣簡單。”
只有打破這些商業和技術壁壘,才能讓精準醫療走入快車道。
“我從事醫療行業已近20年,而且自己也曾是一名患者,”Esposito說,“從醫患兩方面,我都見證了技術的真正作用。與其他行業比較,醫療行業在數字化方面的變革有些落后。但令人欣喜的是,我們最終找到了驅動數據創新的方法,而下一步就是學會如何共享數據。”