孟 倩
(復旦大學計算機科學技術學院 上海 200433)
基于高通量測序的短序列生物數據壓縮研究
孟 倩
(復旦大學計算機科學技術學院 上海 200433)
高通量測序技術(NGS)的發展帶來了測序數據量的極速增長,給數據的存儲和傳輸帶來了極大的壓力。數據壓縮技術是解決這個問題的重要方法。傳統的壓縮方法并沒有很好地利用數據本身的特性。因此,計算機學者們關注于NGS測序數據專用的壓縮方法。全面總結針對高通量測序技術產生的Fastq和Fasta數據的壓縮算法,介紹了Fastq和Fasta數據的特點,總結了目前常用的壓縮方法。并通過不同物種、不同測序平臺、不同規模的測序數據對多個具有代表性的壓縮工具進行測試,比較它們的壓縮性能并且驗證相應的工具特點,為研究人員提供工具選擇指導或改善工具性能提供幫助。最后總結闡述短序列數據壓縮工具存在的問題和發展趨勢。
數據壓縮 短序列數據壓縮 高通量測序
測序是對生命中的基本元素{ACGT}及其修飾和衍生物進行測定和解讀。20世紀誕生的第一代測序技術Sanger測序技術能對幾百到幾千的DNA片段進行快速準確的讀取,這直接促成了人類歷史上一項偉大的計劃—人類基因組計劃(HPG)的誕生,它對人類30億堿基進行測序,耗資30億美金,前后耗時10余年,涉及6個國家,最終于2001年公布草圖。2005年以后出現的高通量測序技術(High-Throughput Sequencing),也叫下一代測序技術(Next-Generation Sequencing)或深度測序,是生命科學領域內的一項重要的技術變革,給個人全基因組測序帶來了可能。……