彭紹亮,楊順云,孫哲,程敏霞,崔英博,王曉偉,李非,伯曉晨,廖湘科
1. 湖南大學信息科學與工程學院&國家超級計算長沙中心, 湖南 長沙 410082;
2. 國防科技大學計算機學院, 湖南 長沙 410073;
3. 中國人民解放軍軍事醫學科學院, 北京 100850
近年來,隨著生物技術的發展,生物信息的數據量達到了一個更高的級別,生物醫藥領域的實驗手段和研究方法均發生了巨大的變革,呈現出“大數據”的趨勢,傳統的單機計算已經不足以應對海量的數據和繁重的計算任務。對于大數據處理,常用的思路是并行計算,其包括多進程和多線程兩種并行等級。生物效應分析流程主要包括比對和聚類。本文主要針對大量藥物化合物制劑刺激下人體細胞反應的基因表達譜數據,完成細胞反應大數據的分析處理。主要分為以下3個步驟。
● 數據預處理:利用開源工具1KTools對整合網絡細胞印記庫(library of integrated network-based cellular signatures,LINCS)的原始基因譜數據進行預處理,得到實驗核心程序能夠使用的數據格式并寫出文件。
● 基因探針富集分析(gene set enrichment analysis,GSEA)算法的核心實現:利用預處理后的數據完成富集積分矩陣的計算,采用MPI+OpenMP二級并行的策略負載均衡地劃分數據,充分利用資源完成計算,并按進程寫出結果文件。
● 并行聚類:以比對結果為輸入,實現K-medoids[1]聚類算法及其優化,并對每次迭代過程同樣利用MPI+OpenMP二級并行的策略進行并行化加速,最后將聚類結果寫出到文件,每個表達譜歸屬于某一聚類。
隨著生物技術的飛速發展,特別是以新一代測序技術為代表的高通量分析技術的發展,生命科學的年數據產出能力已經達到PB級,呈現出“大數據”的趨勢,涉及海量的組學數據、文獻數據、臨床數據等。……