邢帆

華大基因研究院(以下簡稱“華大基因”)成立于1999年9月9日,是人類基因組計劃中國任務的唯一承擔單位。目前,華大基因已建立了大規模測序、生物信息、克隆、健康、農業基因組等技術平臺,其測序能力及基因組分析能力世界第一,測序儀全年產出數據量與全美國四大測序中心產出數據量總和大致相當。華大基因數據量之大,超出常人想象,而且增長非常快。面對海量數據的需求,華大基因原有的存儲遇到瓶頸,需要尋找一個高性能、易擴展、部署簡單、方便運維的大數據存儲系統,這些技術上的突破幫助華大基因延續其一直以來的戰略宗旨。
速度就是效果
截止2012年,華大基因共擁有4大平臺,包括新一代測序平臺、云計算平臺、蛋白質譜平臺及國家基因庫。在新一代測序平臺中包括羅氏旗下的454生命科學推出最新升級版Roche 454 GS FLX+測序儀、Illumina公司推出的HiSeq 2000測序儀、基于半導體芯片的新一代測序技術Ion Torrent等多種不同的測序技術平臺。以Illumina Hiseq 2000測序儀為例,相對于傳統測序的96道毛細管測序,高通量測序一次實驗可以讀取40萬到400萬條序列。讀取長度根據平臺不同從25bp到450bp不等,不同的測序平臺在一次實驗中,可以讀取1G到14G不等的堿基數,這樣龐大的測序能力是傳統測序儀所不能比擬的。華大深圳數據中心138臺高通量測序儀單次運行就能產生350GB數據,一天的數據產出量大概是10TB。為應對巨大的數據產出量,從2009年開始華大基因對EMC Isilon橫向擴展存儲系統分別進行了功能測試和性能測試。如今,已經部署了超過7.4PB(7400TB)的Isilon設備,包括:17個節點IQ 36000x集群一套、10個節點IQ 72000x集群一套、13個點節IQ 36000x集群一套、10個節點IQ36000x集群一套。
華大基因研究院生物信息學研究主管表示,“我們每天有數千個應用程序在訪問EMC Isilon存儲,其在高并發訪問條件下的性能令人印象深刻。”生命科學和基因研究都要產生大量的數據,并且這些數據還需要永 遠的保存起來。而從技術上來說,Isilon橫向擴展NAS存儲解決方案提供高效的單個文件系統/單個卷,可擴展至20PB。通過將存儲整合成一個單一,可擴展卷,讓任何人都可以來管理,Isilon存儲增加了數據管理的簡易性,減少了人員培訓的時間,簡化了大數據生命周期管理。對于像華大基因這樣的研究機構,數據是核心資產。如何保證輸入(原始)數據的萬無一失,如何確保存儲系統可靠穩定,以及如何保證數據生命周期內的安全,是很多高性能用戶最為關注的。Isilon N+M架構讓用戶根據應用和數據生命周期價值的不同,選擇存儲安全配置策略,靈活滿足不同業務、不同應用和不同數據對安全性的要求。Isilon的FlexProtect技術保證了數據的高可用和業務連續性。
2012年4月,華大基因又推出了基于Hadoop架構的云計算平臺,并在11月發布最新版的生物信息學軟件,包括最新版SOAP系列軟件、遺傳變異檢測軟件、宏基因組測序數據分析軟件Metacluster 4.0及兩個基于云計算的軟件Hecate2和Gaea2。這也是華大基因選擇和持續采用Isilon集群存儲的重要考慮之一。Isilon和Hadoop做了緊密技術整合,使存儲能很好地支持Hadoop架構的云計算服務。如果使用傳統存儲,Hadoop仍有一些固有問題需要解決。例如,ApacheTMHadoopTM的NameNode存在單點故障問題。NameNode用于管理HDFS中存儲的元數據文件,它是HDFS文件系統的核心部分,存放著文件系統中所有文件的目錄樹。客戶端應用程序通過NameNode來定位、添加、修改、拷貝、移動和刪除文件。如果NameNode發生故障,文件系統就會離線。
精益求精
目前,華大基因每年的業務量成倍增長:2010年4PB,2011年8PB,2012年10PB。華大基因計算中心主管介紹,這些針對數據的典型應用包含了結構化和非結構化的計算模式,同時對一個任務的數據量的規模非常大,對計算內存和存儲帶寬的需求也非常高。目前華大基因一天在計算集群上數據的吞吐量大概為320T,這相當于Google的十分之一。華大基因現在有接近2000個計算節點,總的計算核心大概2萬個。處理如此規模的數據量,對IT提出了巨大的挑戰。而Isilon在性能、擴展性、簡單易用、數據安全性方面的表現讓華大找到了精益求精的出路。
在性能方面,將500TB容量、13個節點分為一組,可以達到2GB/秒的存取速度。在擴展性方面,Isilon設備的安裝部署十分快捷簡單,每套系統只需要大約半天時間即可上線提供使用。容量擴展的同時,整個計算平臺的性能也得以提升。華大基因計算中心系統管理人員說:“Isilon系統非常可靠,安裝部署十分方便,運維工作也很簡單輕松。”其中,華大基因最初購買的10個節點集群擴容成17個節點,就是由華大基因自己完成的。
在簡單易用方面,除了安裝部署簡便以外,運維管理也非常簡單。華大基因7.4PB的設備,只需要3名工程師就能管理。平時只要看看控制面板有沒有告警之類的信息就可以了。如果有告警,系統同時也會發郵件通知管理員。Isilon一個文件系統可以支持15PB容量,華大基因所有存儲容量都可以放在一個文件系統中,由系統自動按需分配使用。
在安全性方面,Isilon支持最高達N+4的數據保護,也就是說,當4個節點故障時,數據不丟失。Isilon還支持分級保護,在一個文件系統中,可以將最重要的數據配置成N+4保護,將一般重要的數據配置成N+2保護。
總結起來,Isilon的獨特之處在于,它是一種橫向擴展的NAS。容量擴展時,性能線性提升。華大基因研究院每天有數千個應用程序訪問Isilon存儲,Isilon存儲解決方案通過高速并行存取的方式滿足需求。華大基因采用50多個節點高密度部署,提供共計超過7.4PB的NAS邏輯存儲容量。存儲節點之間通過低時延的Infiniband交換機連接,支持高并發訪問,可實現自動負載均衡。存儲集群分別使用100多個千兆以上級別網絡模塊,與總計超過750個計算服務器節點互聯,能夠提供累計高達200 Gbps的IO吞吐帶寬。所有節點通過單一系統管理,運維方便,客戶可根據未來業務發展的需要隨時增加節點。