吳丹丹,阮 伋,王永安,孫 昌
(云南生物資源保護與利用國家重點實驗室(云南大學),昆明 650091)
Phred/Phrap/Consed/Polyphred:類Unix平臺的測序數據管理和SNP識別軟件包
吳丹丹,阮 伋,王永安,孫 昌*
(云南生物資源保護與利用國家重點實驗室(云南大學),昆明 650091)
盡管二代基因組測序技術日漸流行,Sanger測序依舊是SNP識別和分析的金標準。傳統對于Sanger測序結果的分析多依賴SeqMan等軟件進行。然而這類軟件大多依靠人工操作來識別和記錄測序結果中的SNP位點,效率低下且容易發生錯誤。此外,當對多個個體進行序列測定時,這類軟件無法完成對群體數據的管理和輸出,給研究人員造成了一定的不便。Phred/Phrap/Consed/Polyphred是華盛頓大學開發的基于類Unix平臺的軟件包,在大規模測序數據的管理和SNP自動識別、標記與輸出方面具有強大的功能。然而,由于其安裝和使用較為復雜,在國內較少使用。本研究對該軟件包的功能、使用流程、特點等進行了介紹,并將其安裝于Ubuntu12.04操作系統并置于VMware虛擬機中,方便遺傳學者的下載和使用。
polyphred;類Unix平臺;測序數據管理;SNP識別;軟件包
盡管二代基因組測序(next-generation sequencing)技術日漸流行,Sanger測序依舊是SNP識別和分析的金標準。一般對Sanger測序結果的分析多依賴于Windows平臺的SeqMan (DNASTAR Inc.)等軟件進行。然而這類軟件大多在測序數據與參考序列拼接后依靠肉眼觀察來識別和記錄測序結果中的SNP (single nucleotide polymorphism)位點,效率低下且容易發生錯誤。更為重要的是,當對多個個體進行序列測定時,這類軟件無法完成對群體數據的自動比較、管理和輸出,給研究人員帶來了一定的不便。
Phred/Phrap/Consed/Polyphred是華盛頓大學(University of Washington)開發的基于類Unix平臺(包括Unix、Linux、BSD、Solaris、Mac OS X等)的軟件包[1-8],在群體測序數據的管理和SNP自動識別、標記與輸出等方面具有強大的功能。然而,由于其安裝、設置和使用較為復雜,在國內較少使用。鑒于此,本文對該軟件包的組成、功能、使用和特點等進行了總結和介紹。
該軟件包由多個可執行文件和Perl腳本組成,主要組分及其功能見表1。這些組分中,Phred[1-2]、Phrap、Consed[3-5]、Polyphred[6-8]是作為軟件包核心的可執行程序,其余均為調用這些可執行程序完成特定功能的perl腳本。

表1 軟件包主要組分和功能Table 1 The main component and function of the software package
使用流程如圖1所示,具體說明如下。

圖1 軟件包的使用流程Fig.1 The working flow of the software package
2.1 建立工作目錄
在任意目錄內,運行setup_std_dir.pl腳本,即可自動在該目錄下建立工作目錄,各個文件夾的名稱和功能見表2。
2.2 參考序列建立
人工生成fasta格式的參考序列并置于fasta_dir目錄中,使用fasta2Phd.perl腳本轉化為phd格式,并將其移入phd_dir目錄。
2.3 測序數據文件命名、質量判斷和轉移
將所有測序文件按照“基因名_個體名_引物名”的格式進行重命名,并保持大小寫和長度一致,以方便后續SNP輸出;將測序文件置于newchromats目錄中,運行moveChromats腳本,質量較好的數據移入chromat_dir文件夾,低質量數據移入bad_chromats文件夾。
2.4 初次拼接
進入edit_dir目錄,使用phredPhrap腳本,對chromat_dir目錄中的測序數據和phd_dir目錄中的參考序列的進行初次拼接。

表2 各個工作目錄功能Table 2 The function of each working directory
2.5 人工拼接
由于算法的限制,初次拼接的結果往往為多個臨近序列的集合(contig)。在這種情況下,在edit_dir目錄中打開Consed界面,利用各個集合中可能重合的部分進行比對,將其拼接成一個完成的集合。具體方法見《使用說明》。
2.6 SNP搜索
在edit_dir目錄中運行Polyphred程序對每條序列進行等位基因確定,并對拼接的單個集合進行序列間比對,以確定潛在SNP位點。這些潛在的SNP位點,可在Consed界面中以高亮顯示。
2.7 SNP人工確定
在edit_dir目錄中打開Consed界面,對于Polyphred搜索結果進行人工檢視、修訂和確認,以確定各條序列在該位置的基因型和SNP的真實性。這是整個數據處理過程中耗時最多的部分,具體方法見《使用說明》。
2.8 SNP導出
生成包含需要導出個體名的文本文件。利用polyphredref2pb.pl腳本,指定其在測序文件名中的起始位置和長度,導出prettybase格式的群體變異文件,用于后續制圖、計算或分析,具體方法見《使用說明》。
2.9 新數據加入
對于新加入的測序數據,經測序數據文件命名、質量判斷和轉移步驟后,使用2fof.pl腳本,對chromat_dir目錄中的測序數據和指定ace文件進行比對,生成新測序文件的列表(fof格式),并使用creatpoly.pl腳本對該列表中的新測序文件生成相關poly文件。在Consed界面中,將新測序數據加入集合,并重復人工拼接、SNP搜索、SNP人工確定、SNP導出步驟,對新增數據進行分析。
3.1 基于類Unix平臺、命令行式操作方式
該軟件包主要可執行程序均只有類Unix操作系統版本,無Windows版本。除人工拼接、SNP搜索部分在Consed界面中以圖形化方式操作外,其他主要工作均以命令的方式進行。這給初學者,尤其是不熟悉類Unix操作系統的學者,帶來了一定的困難和麻煩。但是,由于需要掌握的命令不多,且類Unix操作系統多具有命令補齊和自動記錄的功能,經一段時間練習后,大多使用者均可熟練使用該軟件包。
3.2 標簽式管理方式
常見Windows平臺的SeqMan等軟件在遇到測序數據基因型判斷失誤、新發現SNP位點時,只能通過人工記錄來保存數據分析過程和結果,極其不便且效率低下。與此不同的是,本軟件包在序列處理過程中,Phred生成的質量評估結果、Polyphred生成的基因型判斷、Consed界面中基因型的人工確認等各種處理分析結果,均以文本標簽的形式,自動保存于ace或ace.out文件中。這些標簽,由Consed讀取,在界面中以不同顏色顯示于序列相應位置上。所有標簽,均可以手動在Consed界面中刪除,或使用特定命令直接刪除。在Polyphred自動生成的基因型與人工判斷不一致時,優先輸出人工標簽。這種管理方式,在不改變原始測序文件的基礎上,保存了數據處理過程的所有細節,同時方便了結果的輸出。
3.3 數據管理、SNP數據輸出的自動化
常見Seqman等軟件,在SNP識別、數據管理和輸出方面,只能依賴操作者手動進行,效率低下且容易發生錯誤。本軟件包在數據管理等方面具有較高程度的自動化,主要表現在:1)相同個體、引物多次測序數據的自動整理。在研究過程中,由于各種原因,有時需對同一個體應用同一引物進行多次測序,對于這種情況,軟件會自動在測序文件名后加入“.1”、“.2”等后綴,分別代表第1、2次測序結果,并在后續分析中整合判斷位點基因型;2)多態位點和質量的自動判斷。對于測序結果,軟件包會對每個個體進行比對,任何一個個體出現突變的位點,均視為潛在多態性位點,用特殊顏色標記以待人工檢視;對于測序數據的低質量部分,會自動使用黃色背景表示,從分析中剔除;3)數據輸出自動化。對于群體的測序數據,可輸出每個個體的基因型,用于后續分析。
4.1 序列刪除
當需要去除特定序列時,可使用操作系統自帶的文本編輯工具(如vi、Emacs、gedit等),建立一個含有需要去除測序文件名列表的文本文件,以回車鍵分隔(與下述fof后綴文本文件格式相同),并保存于edit_dir文件夾中。打開Consed界面,點擊“Remove reads”,選擇生成的文本文件,即可從集合中去除指定的測序數據。進而從chromat_dir文件夾中刪除這些測序文件,以避免其在下一次加入新測序數據時被軟件自動加入測序集合。
4.2 質量判斷失誤
一般而言,該軟件包對測序質量的判斷較為準確。但當測序后純化處理不當時,測序數據前端經常出現一個巨大的、橫跨多個堿基的非特異峰形(俗稱“酒精峰”),從而導致其下的堿基無法識別、后續的堿基峰圖高度相對較低,因此Phred軟件經常將其錯誤地標為低質量數據,而無法用于分析。對于這種情況,可在Consed中手動將其標為高質量數據,進入后續分析流程。
4.3 SNP自動識別的失效
根據使用經驗,Polyphred 的SNP自動搜索算法閾值較低,因此有一定的假陽性(即實際并非多態性位點、而被軟件標識)率,而假陰性(即實際為多態性位點但軟件未能標識)發生的概率極低。本文使用該軟件包分析了長達75.5 kb的測序數據、多達至800個SNP位點[9],僅發現了2個軟件未識別的多態性位點,表明其假陰性率約在0.25%。假陰性的出現,多源于雜合子個體中兩個等位基因的峰型高度差異過大、且稀有等位基因在群體中頻率過低(導致無個體攜帶純合稀有等位基因)。對于可能出現的假陰性,目前尚無良好、快速的解決辦法,只能通過肉眼觀察和比較測序膠圖予以確定。
4.4 插入缺失(indel)的確定
Polyphred軟件具有自動識別indel的功能,但根據本文經驗,其錯誤率較高、且無法識別indel的兩個具體等位基因,因此建議對indel進行人工識別和標注(軟件只允許標注為++、+-、--,不能標注具體序列)。對于兩個等位基因都有純合子個體的情況,可通過比對直接獲得具體基因型。對于未發現稀有等位基因純合子的情況,可通過分析雜合子個體序列膠圖獲得基因型信息。如圖2上部所示,從白色箭頭所指的位置開始的15個堿基,每個位置的基因型為(A/T)(A/G)(A/T)(T/G)(T/T)(T/G)(T/T)(A/G)(T/T)(A/T)(A/T)(A/G)(T/T)(A/A)(A/G)。已知其中參考等位基因序列為TGTGTTTATAAGTAG(圖2下部),則另一等位基因序列為AAATTGTGTTTATAA,即為一個AAAT的插入。

*白色箭頭代表indel起始的位置。圖2 Consed中雜合和純合的indel示例Fig.2 The example for homozygous and heterozygous indel in Consed
4.5 相關主要文件格式說明
整個軟件包處理過程中生成多種格式文件,大多為文本格式,主要文件格式說明如下。
phd:Phred對每個測序膠圖文件均生成一個對應的同名phd格式文件,存放該測序膠圖的堿基、質量、位置等信息[10]。
poly:Phred對每個測序膠圖文件均生成一個對應的同名poly格式文件,存放該測序膠圖的堿基、位置、峰面積等信息,用于后續突變檢測。
ace:Consed讀取、保存文件格式,保存有該contig中所有序列名稱、堿基等信息。
wrk:Consed生成的臨時文件,用于存儲在Consed軟件上的工作過程。當Consed意外停止運行時,可從wrk文件恢復之前的未保存修改。
ace.out: Polyphred輸出格式文件,包含Polyphred運行時間、參數、結果,以及每條測序膠圖在特定位點的基因型等信息。
prettybase:群體遺傳學中常用的基因型數據文件格式,可用polyphredref2pb.pl腳本從ace.out文件中導出。一般由4列組成,第1列為位置,第2列為個體名,第3、4列為兩個等位基因的基因型,其中A/C/T/G、+/-、N分別代表4種堿基、indel、未確定堿基,X代表該個體不同測序數據存在矛盾,應人工檢視以消除。
fof:2fof.pl腳本生成的新測序文件的列表,每行為一個新的測序文件名,以回車鍵分隔。
研究者可通過電子郵件向華盛頓大學各個軟件負責人免費申請該軟件包的非商業許可,聯系方式見如下網頁:http://www.phrap.org/index.html(Phred/Phrap/Consed) 和http://droog.gs.washington.edu/polyphred/(Polyphred)。經包括本文通信作者在內的多名研究者安裝測試表明,該軟件包的Linux版本,可在Redhat 8.0、Ubuntu 8.04/12.04/14.04等不同GNU/Linux版本中正常運行和使用,表明該軟件包具有較好的可移植性。
為方便研究者使用,本文將該軟件包安裝于Ubuntu 12.04操作系統中,下載鏈接http://pan.baidu.com/s/1slanyAL。研究者只需下載并導入VMware虛擬機,即可直接使用。詳細使用說明見該壓縮包中《使用說明》文件。
References)
[1]WING B, HILLIER L, WENDL M C, et al. Base-calling of automated sequencer traces using phred. I. Accuracy assessment [J]. Genome Research, 1998, 8(3): 175-185.DOI: 10.1101/gr.8.3.175.
[2]EWING B, GREEN P. Basecalling of automated sequencer traces using phred. II. Error probabilities[J]. Genome Research, 1998, 8(3):186-194.DOI: 10.1101/gr.8.3.186.
[3]GORDON D. Viewing and Editing Assembled Sequences Using Consed[M]// BAXEVANIS A D, DAVISON D B, eds. In Current Protocols in Bioinformatics. New York: John Wiley & Co., 2004, 11.2.1-11.2.43. DOI: 10.1002/0471250953.bi1102s02.
[4]GORDON D, DESMARAIS C, GREEN P. Automated finishing with Autofinish [J]. Genome Research, 2001, 11(4): 614-625. DOI: 10.1101/gr.171401.
[5]GORDON D, ABAJIAN C, GREEN P. Consed: a graphical tool for sequence finishing [J]. Genome Research, 1998, 8(3): 195-202.DOI:10.1101/gr.8.3.195.
[6]NICKERSON D A, TOBE V O, TAYLOR S L. Polyphred: automating the detection and genotyping of single nucleotide substitutions using fluorescence-based resequencing[J]. Nucleic Acids Research, 1997, 25(14): 2745-2751.DOI: 10.1093/nar/25.14.2745.
[7]STEPHENS M, SLOAN J S, ROBERTSON P D, et al. Automating sequence-based detection and genotyping of SNPs from diploid samples [J]. Nature Genetics, 2006, 38(3): 375-381.DOI: 10.1038/ng1746.
[8]BHANGALE T R,STEPHENS M,NICKERSON D A.Automating resequencing-based detection of insertion-deletion polymorphisms[J]. Nature Genetics, 2006, 38(12):1457-1462.DOI: 10.1038/ng1925.
[9]SUN C, SOUTHARD C, HUO D, et al. SNP discovery, expression, and cis-regulation variation in the UGT2B family [J]. The Pharmacogenomics Journal, 2012, 12(4): 287-296. DOI: 10.1038/tpj.2011.2.
[10]王俊. 常用生物數據分析軟件[M]. 北京: 科學出版社, 2008: 13-61.
WANG Jun. Common analysis software for biological data[M]. Beijing: Science Press, 2008, 13-61.
Phred/Phrap/Consed/PolyphredasoftwarepackageforsequencingdatamanagementandSNPdetectiononUnix-likeplatform
WU Dandan, RUAN Ji, WANG Yongan, SUN Chang*
(StateKeyLaboratoryforConservationandUtilizationofBio-ResourcesinYunnan(YunnanUniversity),Kunming650091,China)
Although next-generation sequencing is more and more popular in current era, Sanger sequencing is still the gold standard for SNP detection and analysis. The analysis for Sanger sequencing is usually performed by softwares such as SeqMan. However, these softwares usually identify and record SNPs manually, which is low-efficiency and prone to error. Moreover, when multiple individuals are involved for sequencing, these softwares cannot organize and output the result for population, which cause some inconvenience for researchers. Phred/Phrap/Consed/Polyphred is a software package based on Unix-like operating system from University of Washington with powerful function in sequencing data manage and SNP detection, mark, and output. However, due to the complexity in setup and utilizing, this package is hardly used in Chinese genetic community. The function, working flow, and character of this package were introduced. Moreover, the software was installed in Ubuntu and enclosed in VMware virtual machine, which can facilitate the download and usage for genetic researchers.
Polyphred; Unix-like platform; Sequencing data management; SNP detection; Software package
Q31
A
1672-5565(2017)03-196-05
10.3969/j.issn.1672-5565.20161215001
2016-12-15;
2017-03-14.
國家自然科學基金(31260266).
吳丹丹,女,碩士研究生,研究方向:生物化學與分子生物學;E-mail:903381300@qq.com.
*通信作者:孫昌,男,博士,研究員,研究方向:人類遺傳學;E-mail:sunchang1@foxmail.com.