摘要:美國國立生物技術信息中心(NCBI)是目前國際上幾個重要的生物信息學網站之一,Entrez是NCBI的數據庫檢索查詢系統,BLAST是NCBI開發的序列相似搜索程序,本文重點介紹如何利用Entrez檢索查詢系統以及BLAST序列相似搜索程序在NCBI的多個數據庫中檢索基因/基因編碼產物的功能。
關鍵詞:NCBI;生物信息學;基因功能;Entrez;BLAST
Abstract:NCBI (National Center for Biotechnology Information) is one of the most important international bioinformatics websites. Entrez is database searching system of NCBI.BLAST is sequence similarity searching program developed by NCBI. This article introduces the skills of searching the function of a gene or gene product by Entrez and BLAST in several database of NCBI.
Key words:NCBI;Bioinformatics;Function of gene;Entrez;BLAST
21世紀是生命科學的時代,也是信息時代,生物信息學在這樣的歷史環境中孕育而生。美國國立生物技術信息中心(National Center for Biotechnology Information,簡稱NCBI)是目前國際上幾個重要的生物信息學網站之一,它的任務就是發展新的信息學技術以促進醫學與生物學的進展。Entrez是NCBI的數據庫檢索查詢系統,它是基于Web界面的綜合生物信息數據庫檢索系統;BLAST是NCBI開發的序列相似搜索程序,可作為鑒別基因和遺傳特點的手段。本文重點介紹如何利用Entrez檢索查詢系統以及BLAST序列相似搜索程序在NCBI的多個數據庫中檢索基因/基因編碼產物的功能。
1 NCBI的資源與工具簡介
NCBI的資源簡介[2,5,6]:NCBI的資源主要有以下三類:
第一類文獻型數據庫:包括PubMed、PubMed Center、OMIM(孟德爾人類遺傳)、OMIA(動物在線孟德爾遺傳)以及Books(書庫)等。
第二類分子數據庫:包括Nucleotide(核酸序列庫)、Protein(蛋白質序列庫)、Protein Clusters(蛋白質聚類數據庫)、Gene(基因數據庫)、Structure(結構數據庫)、Taxonomy(分類學數據庫)等。其中Nucleotide數據庫收錄了目前世界上所有已知的、公開的核酸序列記錄。Protein數據庫收錄了目前世界上所有已知的、公開的蛋白質序列記錄。Gene數據庫提供基因的功能信息以及基因在染色體中的定位情況。
第三類基因組數據庫:包括Genome(基因組數據庫)、Genome Project(基因組計劃數據庫)、Cancer Chromosomes(癌癥染色體數據庫)等。
1.2 NCBI的工具簡介 第一類檢索工具:NCBI只有一種檢索工具-Entrez,Entrez是NCBI的數據庫檢索查詢系統,它是基于Web界面的綜合生物信息數據庫檢索系統。利用Entrez系統,用戶不僅可以方便地檢索PubMed等NCBI的文獻型數據庫,還可以檢索Nucleotide和Protein等分子數據庫,以及基因組圖譜數據、來自分子模型數據庫(MMDB)的蛋白質三維結構數據、種群序列數據集等[1]。
第二類數據分析工具:包括BLAST、Map Viewer、Model Maker、Electronic PCR(e-PCR)、Spidey、Splign等。其中BLAST是一種進行序列相似性搜索的程序,它可以對核酸序列或蛋白質序列進行分析[3,9]。
第三類下載工具:NCBI提供多個數據庫與多種工具的下載,包括Nucleotide Sequence、Protein Sequence和BLAST等。
2如何利用NCBI的資源與工具檢索基因/基因編碼產物的功能
2.1 使用基因名稱進行檢索 如果知道基因名稱,可以在NCBI主頁上的Entrez檢索系統中選擇所要檢索的數據庫為Gene,然后在檢索輸入框內輸入基因名稱,就可以得到該基因的功能信息和定位情況,以及相關的文獻目錄。
為了提高檢索的檢準率,檢索用戶在進行上述檢索的時候,應該進行強制短語檢索,即在Entrez檢索框內用雙引號將檢索詞括起來,這樣Entrez檢索系統才會將檢索詞作為一個單詞來進行檢索,否則,Entrez檢索系統會在各單詞之間按照\"and\"邏輯關系自動執行布爾邏輯運算,導致檢準率降低。同時檢索用戶在進行檢索時應輸入基因名稱的檢索限定詞[GENE],限定輸入的檢索詞為基因名稱,可以進一步提高檢索的檢準率[1]。
2.2 使用序列接受號進行檢索 NCBI的序列數據有兩種特殊標志符,一種叫序列辨認號(GI),是一串阿拉伯數字,當序列被修改后,NCBI會給新的序列指定一個新的GI號碼。第二種叫序列接受號(Accession),一條序列記錄只有一個唯一的序列接受號,當序列被修改后,序列接受號仍然不變。Entrez檢索系統允許通過序列接受號進行檢索(可輸入或不輸入檢索限定詞,因為Entrez檢索系統能自動識別序列接受號),而且序列接受號會在已發表的文獻中出現,所以知道了序列接受號,檢索用戶就可以進行檢索了[1]。
如果已知序列接受號,要檢索基因功能或基因編碼產物功能,則在NCBI主頁的Entrez檢索系統中選擇所要檢索的數據庫為全數據庫檢索,然后輸入序列接受號,檢索界面會返回所有數據庫的檢索結果。這時會出現兩種情況:第一種情況是在Gene數據庫中有檢索結果,如果在Gene數據庫中找到檢索結果則可以直接察看結果;第二種情況是在Gene數據庫中沒有找到檢索結果,那么察看Nucleotide或Protein數據庫的檢索結果(如果檢索用戶在Entrez檢索系統中輸入的是核酸序列的序列接受號,則在Nucleotide數據庫中能檢索到結果;如果檢索用戶在Entrez檢索系統中輸入的是蛋白質序列的序列接受號,則在Protein數據庫中能檢索到結果)。
針對第二種情況,點擊Nucleotide或Protein數據庫的檢索結果,在數據庫的檢索結果顯示界面可以看到序列的相關信息。這時又可能會出現兩種情況:第一種情況是在檢索結果的顯示界面的右方會出現一個鏈接\"More about the XXX gene\",那么可以直接點擊鏈接察看相關的基因功能信息;第二種情況是在檢索結果的顯示界面的右方沒有\"More about the XXX gene\"的鏈接,那么如果檢索的是蛋白質序列,則可以點擊Protein數據庫檢索結果顯示界面的右方的\"Analyze this sequence\"按鍵下的\"Identify Conserved Domains\"按鍵,系統將返回一個關于該蛋白質功能區域的信息列表;如果檢索的是核酸序列,則可以點擊Nucleotide數據庫檢索結果顯示界面的右方的\"All Links to this Record\"按鍵察看相關的序列、蛋白質或PubMed相關的參考信息,甚至還可以運行BLAST程序來進行序列相似性分析,然后再在分析結果中進一步查找基因的功能信息,具體方法在2.3中進行介紹。
2.3 使用序列進行檢索 在使用序列進行檢索時,檢索用戶必須要使用到BLAST。BLAST是NCBI開發的序列相似性搜索程序,可作為鑒別基因和遺傳特點的手段。BLAST分為5種,包括blastn(nucleotide blast),blastp(protein blast),blastx,tblastn和tblastx。其中blastn是核酸序列到核酸庫中的一種查詢,庫中存在的每條已知序列都將同所查詢序列作一對一地核酸序列比對;blastp是蛋白質序列到蛋白質庫中的一種查詢,庫中存在的每條已知序列將逐一地同每條所查詢序列作一對一的序列比對;blastx是核酸序列到蛋白質序列庫中的一種查詢,先將核酸序列翻譯成蛋白質序列,再對每一條蛋白質序列作一對一的蛋白質序列比對;tblastn是蛋白質序列到核酸庫中的一種查詢,與blastx相反,它是將庫中的核酸序列翻譯成蛋白質序列,再同所查詢序列作蛋白質序列與蛋白質序列的比對;tblastx是核酸序列到核酸庫中的一種查詢,此種查詢是將庫中的核酸序列和所查詢的核酸序列都翻譯成蛋白質序列再做一對一的比對[4,7,8]。
如果檢索的序列是蛋白質序列,則選擇blastp進行序列相似性分析,檢索結果會返回與查詢序列相似的蛋白質序列,這時選擇相似序列的序列接受號,重復2.2的操作進一步察看該序列的功能信息。
如果檢索的序列是核酸序列,則選擇blastn或blastx進行序列相似性分析,檢索結果會返回與查詢序列相似的核酸序列或翻譯的蛋白質序列,有些檢索結果可能有直接的鏈接鏈接到Gene數據庫,那么可以直接察看Gene數據庫的檢索結果;如果沒有直接的鏈接,則可以選擇相似序列的序列接受號,重復2.2的操作進一步察看該序列的功能信息。
參考文獻:
[1]李軼.GenBank數據庫檢索及其應用--Entrez檢索功能[J].中華醫學圖書情報雜志,2008,17(5):49-51.
[2]饒冬梅.NCBI數據庫及其資源的獲取[J].科技視界,2013,07:53-54.
[3]王哲,黃高升.NCBI的數據庫資源及其應用[J].生命科學,2002,14(1):59-62.
[4]張見影,倫志軍,李正紅.NCBI基因序列數據庫使用和檢索方法[J].現代情報,2003,12:224-225.
[5]葉協杰,婁長春.Entrez集成化數據庫系統功能和檢索技巧[J].醫學情報工作,2004,06:428-430.
[6]黃春燕,韋成禮,樊妙姬.美國NCBI網站Entrez資源整合系統的檢索與利用[J].情報雜志,2003,04:78-79,82.
[7]宋凌云.序列相似性檢索工具BLAST的使用和檢索[J].情報探索,2008,04:74-75.
[8]丁六松,張宇偉.BLAST序列比對與生物醫學文獻檢索[J].情報檢索,2003,04:74-75.
[9]孫金立,梁蜀忠,李希明.生物信息檢索在醫學中的應用[C].中國儀器儀表學會醫療儀器分會2010兩岸四地生物醫學工程學術年會論文集.
[10]楊春華,王桂芝,王志萍.NCBI的Entrez系統檢索技巧[J].現代圖書情報技術,2003(年刊):80-81.編輯/申磊