羅靜初
(北京大學生命科學學院 北京大學蛋白質與植物基因研究重點實驗室 北京大學生物信息中心,北京 100871)
自2000年起,本人在北京大學和中國農業科學院研究生院開設“實用生物信息技術”課程[1]。本課程以從事分子生物學實驗研究的碩士或博士研究生為教學對象,重點介紹最基本、最常用的生物信息技術和方法,主要包括:(1)蛋白質和核酸序列相似性比對;(2)蛋白質序列數據庫UniProt和核酸序列數據庫RefSeq高級檢索;(3)NCBI數據庫相似性搜索工具Blast的應用;(4)利用MEGA軟件構建分子系統發生樹;(5)利用Swiss-PdbViewer軟件顯示、比較和分析蛋白質三維空間結構。
本文以人、小鼠、大鼠、斑頭雁、灰雁幾個不同物種的血紅蛋白序列和結構為例,介紹這些常用生物信息技術和方法的具體應用。學生通過這些實例,能夠初步掌握這些方法的具體應用,并能舉一反三,將這些方法用于自己的課題研究,學會如何利用豐富的網絡生物信息資源和分析工具解決自己正在進行或即將開始的研究課題中的實際問題。
血紅蛋白是人體血液中重要蛋白質分子,其主要生物學功能為運送氧氣。血紅蛋白分子為異源四聚體,可結合4個鐵卟啉色素分子。成人血紅蛋白分子由兩個α-亞基和兩個β-亞基組成。人類基因組中編碼α-亞基的血紅蛋白基因有兩個,位于16號染色體短臂的α-珠蛋白基因簇中,其編碼區核苷酸序列相同,所編碼的蛋白質序列自然也相同,各含142個氨基酸殘基。與人一樣,小鼠和大鼠的血紅蛋白也是四聚體,α-亞基也由142個氨基酸組成。小鼠和大鼠同屬嚙齒類動物,其共同祖先距今約2 500萬年。而人屬于靈長類動物,與嚙齒類分歧時間約為9 500萬年。對這3個物種α-血紅蛋白氨基酸序列及其編碼基因的核苷酸序列進行比對,可探索血紅蛋白分子及其編碼基因演化的特點。
從國際蛋白質序列數據庫UniProt中分別提取人和小鼠α-血紅蛋白的FastA格式序列,其序列條目名稱分別為HBA_HUMAN(人)、HBA_MOUSE(小鼠)。序列比對的軟件很多,北京大學生物信息中心開發的綜合序列分析平臺WebLab(http://weblab.cbi.pku.edu.cn/)包括200多個程序[2]。利用WebLab中基于Needleman-Wunsch全局序列比對算法的程序Needle,采用默認蛋白質計分矩陣BLOSUM62和默認空位罰分值(起始空位罰分10.0,延伸空位罰分0.5),比對結果如圖1所示。

圖1 人和小鼠血紅蛋白α-亞基氨基酸序列比對輸出結果
圖1中上方為統計值,包括序列長度(LENGTH)、比對分值(SCORE)、相同位點(IDENTITY)、相似位點(SIMILARITY)和空位數(GAPS)。下方為兩條序列的具體比對結果,“|”表示相同位點、“:”表示相似位點,“.”表示不同位點。所謂相似位點,是指該位點的兩個氨基酸理化性質較接近,如蘇氨酸“T”和絲氨酸“S”、纈氨酸“V”和異亮氨酸“I”等。
按上述方法,分別對人/小鼠、人/大鼠、小鼠/大鼠3個物種α-血紅蛋白進行序列比對,結果如表1所示。

表1 人、小鼠、大鼠血紅蛋白α-亞基氨基酸序列比對結果
從NCBI參考序列數據庫中提取這3個物種α-血紅蛋白基因編碼區序列,用WebLab中的Needle程序進行序列比對,注意選擇核苷酸替換矩陣EDNAFULL,將起始空位罰分改為20.0,延伸空位罰分改為2.0,比對結果如表2所示。
表1為3個物種血紅蛋白α-亞基氨基酸序列比對結果。出乎意料的是,人和小鼠α-血紅蛋白共有122個相同位點,占全長142個位點的85.9%;而小鼠與大鼠之間的相同位點數為120個,占全長84.5%。換句話說,同為嚙齒類的小鼠和大鼠,血紅蛋白序列相似性低于嚙齒類和靈長類。之所以出現這一結果,原因有許多,其中最主要的是密碼子簡并性,即同一氨基酸在不同物種或不同基因中可能由不同密碼子編碼,蛋白質序列相似性高低可能與其編碼核苷酸的相似性高低并不一致。這3個物種血紅蛋白編碼基因的編碼區核苷酸序列比對結果(表2)顯示,小鼠和大鼠之間的序列相似性為89.3%,高于小鼠和人之間的序列相似性81.6%。
研究表明,有些基因在一個物種中只有一個拷貝,稱單拷貝基因,而真核生物基因組中大部分基因按基因家族形式存在,有多個拷貝,它們或者分布在同一染色體上相鄰區域,或者分散在整個基因組不同染色體上。基因家族的產生包括全基因組水平重復和染色體片段重復等多種機制,是生物演化重要途徑。同一家族的基因往往具有相似生物學功能,通過復雜的調控機制,在不同組織、不同環境或不同發育階段表達。例如,無脊椎動物的血紅蛋白由一個基因編碼,而脊椎動物的血紅蛋白則由多個基因編碼。以人血紅蛋白基因家族為例,分為α-珠蛋白(α-globin)和β-珠蛋白(β-globin)兩個基因簇,如圖2所示。圖2上方為α-珠蛋白基因簇,位于16號染色體短臂正鏈150-180 kb區段,全長約30 kb,按5'-3'順序依次為ζ、μ、α2、α1和θ-珠蛋白基因。下方為β-珠蛋白基因簇,位于11號染色體短臂互補鏈5.22-5.27 Mb區段,全長約50 kb,依次為ε、γ2、γ1、δ和β-珠蛋白基因。此外,α-珠蛋白基因簇上有兩個假基因Ψζ和Ψα;β-珠蛋白基因簇上有1個假基因Ψβ。這10個珠蛋白基因在不同發育階段表達,θ、μ、β和δ在成人血紅細胞中表達,γ1和γ2在胎兒血紅細胞中表達,ζ和ε在胚胎血紅細胞中表達,而α1和α2在成人和胎兒血紅細胞中均表達。

表2 人、小鼠、大鼠α-珠蛋白編碼區核苷酸序列比對結果

圖2 人α-珠蛋白和β-珠蛋白基因家族染色體定位
上述α和β-珠蛋白基因編碼的血紅蛋白氨基酸序列,均存放在國際蛋白質序列數據庫UniProt中。利用該數據庫提供的高級檢索功能,可以快速有效地檢索到這些蛋白質序列條目。具體檢索步驟如下:
(1)點擊UniProt數據庫主頁上方檢索框右側Advanced下拉式菜單,打開彈出式高級檢索子窗口(圖3-A)。
(2)點擊高級檢索窗口最上方下拉式選擇菜單中的All,選擇Protein Name[DE] ,在其右側的文本輸入框中輸入血紅蛋白的英文Hemoglobin。
(3)點擊第2個下拉式選擇菜單中的All,選擇基因名Gene Name[GN] ,在其右側的文本輸入框中輸入血紅蛋白的基因名縮寫hb(不分大小寫),并在后加通配符星號,即hb*。
(4)點擊該選擇菜單輸入框右側增加選擇項符號“+”,彈出第3個選擇菜單(圖3-B)。
(5)點擊第3個選擇菜單中的All,選擇物種名Organism[OS] ,在其右側輸入Human,系統列出該數據庫中與輸入文本Human相關的所有物種,選擇Human[9606] 。9606為人在NCBI分類學數據庫中的登錄號。
(6)點擊檢索窗口右下側檢索按鈕(圖標為放大鏡),提交檢索策略,頁面顯示UniProt數據庫中收錄的所有人血紅蛋白序列條目。
(7)點擊頁面左側Reviewed圖標,頁面顯示檢索結果(圖3-C)。

圖3 利用UniProt高級檢索界面檢索人血紅蛋白9個序列條目
檢索結果中列出已經通過人工審閱的9個人血紅蛋白序列條目。UniProt數據庫包括Swiss-Prot和TrEMBL兩個子庫,其中Swiss-Prot中的序列條目均已經通過人工審閱,而TrEMBL中的序列條目則是利用計算機對核酸序列數據庫EMBL中的蛋白質編碼序列翻譯得到的,未經人工審閱。截止2015年3月,Swiss-Prot子庫中的數據條目總數為547 599條,而TrEMBL子庫中的數據條目總數為90 860 905條。顯然,這兩個子庫的數據量差別極大。點擊UniProt網站主頁面下方UniProt data欄目下的Statistics圖標,可以找到這兩個子庫的統計資料文檔UniProt/Swiss-Prot statistics和UniProt/TrEMBL statistics,文檔中有許多圖表,詳細敘述這兩個子庫的基本情況。
利用上述蛋白質序列數據庫高級檢索方法,可以快速高效地找到人血紅蛋白基因家族9個成員所編碼的蛋白質序列。近年來發現,除了運送氧氣的血紅蛋白和儲存氧氣的肌紅蛋白外,人體中還有另外兩種珠蛋白分子,一種為細胞紅蛋白,或簡稱胞紅蛋白(Cytoglobin),普遍存在于各種組織,可能具有氧儲存、氧感受、一氧化氮運輸、抗自由基等多種功能。另一種為神經紅蛋白(Neuroglobin),多見于腦組織,因此也稱腦紅蛋白。胞紅蛋白基因位于17號染色體長臂25區(17q25),編碼190個氨基酸殘基;腦紅蛋白基因位于14號染色體長臂24區(14q24),編碼151個氨基酸殘基。X衍射晶體結構研究證明,這兩種蛋白質分子的三維空間結構與血紅蛋白、肌紅蛋白具有相同折疊模式,同屬珠蛋白家族(Globin family)。序列比對發現,兩者與血紅蛋白序列相似性均很低。胞紅蛋白與血紅蛋白α-亞基的相同位點共42個,約占22%;腦胞紅蛋白與血紅蛋白α-亞基的相同位點僅31個,不到20%。
利用BLAST數據庫相似性搜索,可以通過局部序列比對方法,從數據庫中找到相似性較高的序列或序列片段。例如,以人血紅蛋白α-亞基HBA_HUMAN為檢測序列,可以從Swiss-Prot數據庫中搜索到與其相似性較高的其它物種血紅蛋白α-亞基序列。而對于腦紅蛋白這樣相似性很低的序列,則需要通過選擇搜索程序、確定搜索數據庫、限制搜索物種、設置適當的搜索參數,才能搜索到。具體步驟如下:
(1)打開NCBI BLAST服務器主頁面,在常用BLAST選擇區(Basic BLAST)中選擇蛋白質BLAST(protein blast),將人血紅蛋白α-亞基HBA_HUMAN序列粘貼到檢測序列輸入框。
(2)在數據庫選擇框(Database)中選擇Swissprot protein sequence(swissprot),在物種選擇框(Organism)中輸入Human。
(3)在程序選擇區選擇位點特異迭代型BLAST(Position-specific Iterated BLAST),即PSI-BLAST。
(4)打開參數選擇(Algorithm parameters)窗口,將錯誤率(Expected threshold)由缺省值10調為0.001。
(5)點擊運行BLAST按鈕遞交作業,搜索結果得到11個珠蛋白分子。
(6)點擊“運行第2次PSI-Blast”(Run PSIBlast iteration 2 with max 50)按鈕(Go),新一輪搜索結果中包括腦紅蛋白(Neuroglobin,Siwss-Prot數據庫登錄號Q9NPG2.1)。
搜索結果(圖4)顯示,人12個珠蛋白均在搜索結果中,而與珠蛋白無關的其它序列則沒有列在搜索結果中。也就是說,搜索結果既無假陽性(False positive)結果,也無假陰性(False negative)結果。
上述搜索過程說明,BLAST是一個功能強大的序列相似性數據庫搜索系統。但要用好BLAST,必須對其基本算法有所了解,例如位置特異性迭代BLAST的原理、計分矩陣、錯誤率E值的選取等。

圖4 利用BLAST從Swiss-Prot數據庫中搜索12個珠蛋白
研究表明,人、小鼠和大鼠3種哺乳動物中,均有血紅蛋白、肌紅蛋白、胞紅蛋白和腦紅蛋白4類珠蛋白基因家族成員,其中肌紅蛋白、胞紅蛋白和腦紅蛋白在這3個物種基因組中均為單拷貝基因,而血紅蛋白α和β-兩個亞家族均包含多個拷貝,在3個物種基因組中的數目、分布也不相同。美國賓夕法尼亞州立大學從事血紅蛋白研究多年的哈迪森教授2012年發表的“血紅蛋白及其基因的演化”綜述中,對人和其它脊椎動物的血紅蛋白起源、演化、表達和功能做了詳細介紹[3]。圖5 是根據該論文中的插圖改編的人、小鼠、大鼠3個物種基因組中α-和β-珠蛋白基因家族成員名稱和在染色體上的排列次序。
上述3個物種中,人類基因組的血紅蛋白基因家族研究得比較清楚,而小鼠和大鼠血紅蛋白的基因家族的大部分成員是根據基因組、轉錄組序列預測所得,尚無實驗證據。表3列出這3個物種中已經確定的37個成員。

圖5 人、小鼠、大鼠α-珠蛋白和β-珠蛋白基因家族
需要說明的是,小鼠腦紅蛋白基因有兩個剪接變體,RefSeq參考序列數據庫中mRNA序列登錄號為NM_022414和NM_001294308。NM_022414編碼區長度453 bp,編碼151個氨基酸;NM_001294308編碼區長度465 bp,編碼155個氨基酸。表中只列出其中一個NM_022414。小鼠β-珠蛋白家族成員MmHbb-b1和MmHbb-b2為單倍體型C57BL/-株系基因組中測得的序列,RefSeq參考序列數據庫中mRNA序列登錄號為NM_001278161和NM_016956。小鼠基因組計劃測序樣本所用的為融合體BALB/c和129Sv株系。小鼠基因組信息系統(MGI)中所列小鼠β-珠蛋白家族成員基因名為MmHbb-bs和MmHbb-bt,RefSeq mRAN登錄號為NM_001201391和NM_008220,表中未予列出。
此外,大鼠基因組中α-珠蛋白家族共有7個成員[3],位于10號染色體15.468-15.508 Mb區段,長度約為40 kb;表8中只收錄已有轉錄數據的3個,即RnHbz(NM_013096)、RnHba1(NM_013096)和RnHba2(NM_001007722)。另4個尚無確切證據,也無確定的基因名,未在表中列出。這4個基因中,一個為α-珠蛋白,RefSeq數據庫中mRNA序列登錄號為 NM_001013853,大鼠基因組數據庫RGD中暫定基因名為LOC287167;其它3個為θ-珠蛋白,尚無實驗證據。大鼠基因組中,β-珠蛋白共有9個成員,位于1號染色體175.095-175.170 Mb區段,約75 kb(圖6),其中1個為假基因,4個為串聯重復排列的α-珠蛋白,推測由近期發生的基因倍增機制產生。
利用上述3個物種基因組中的血紅蛋白及同一家族的肌紅蛋白、胞紅蛋白和腦紅蛋白序列信息,可以構建分子系統發生樹。系統發生樹是以樹狀圖表示不同物種之間系統發生關系的常用方法。達爾文“物種起源”一書中唯一的一幅插圖,就是用樹的形式表示物種多樣性及其起源和演化。因此,系統發生樹,有時也稱“進化樹”或“演化樹”。其實,系統發生樹不僅可以用來表示不同物種之間的親緣關系和演化途徑,也可以用來表示同一物種內部某個基因家族的不同成員之間的關系及演化。
利用MEGA軟件包[4],可以構建人的珠蛋白基因家族12個成員系統發生樹,所用序列為蛋白質序列,用全局比對程序ClustalW進行多序列比對,用GONNET蛋白質計分矩陣,空位罰分和其它參數均采用默認值。用鄰接法(Neighbor-Joining)建樹,采用差異位點比例(p-distance)為距離模型,選擇自舉法(Bootstrap)100次作為穩定性檢驗。
利用MEGA軟件包中的鄰接法(Neighbor-Joining)方法構建人、小鼠、大鼠3個物種珠蛋白基因家族37個成員系統發生樹(圖8),所用序列為編碼區核苷酸質序列。序列比對采用ClustalW Codon,即基于密碼子的序列比對,比對過程中密碼子3個核苷酸不打斷,雙序列和多序列比對的起始空位罰分均調為20,延伸空位罰分均調為2.0,以減少不必要的空位插入。建樹過程中采用差異位點比例(p-distance)為序列差異模型,用轉換加顛換(transition + transversion)為核苷酸替換模型,選擇自舉法(Bootstrap)100次作為穩定性檢驗。
圖7所示的系統發生樹為基因樹。結果表明,人的12個珠蛋白基因可以分為5個分支,其中α-珠蛋白亞家族包括4個成員,β-珠蛋白亞家族包括5個成員,而肌紅蛋白、胞紅蛋白和腦紅蛋白各有1個成員。α-珠蛋白和β-珠蛋白有共同祖先,而肌紅蛋白和胞紅蛋白有共同祖先。α-珠蛋白亞家族4個成員中,α-珠蛋白和θ-珠蛋白之間的距離較近,而β-珠蛋白亞家族5個亞家族中,γ1-珠蛋白和γ2-珠蛋白的距離最近,其次為α-珠蛋白和δ-珠蛋白。

表3 人、小鼠、大鼠3個物種珠蛋白家族基因信息
圖8所示的系統發生樹包括3個物種,每個物種均有多個基因,共37個基因。結果表明,37個基因總體可以分為5個分支,即α-珠蛋白、β-珠蛋白、肌紅蛋白、胞紅蛋白和腦紅蛋白。3個物種的肌紅蛋白、胞紅蛋白和腦紅蛋白各聚為一支;3個物種所有α-珠蛋白聚在一起,所有β-珠蛋白聚在一起。這一結果說明,這5類基因在3個物種形成以前就已經出現,即“先有基因、后有物種”。α-珠蛋白分為3支,第一支為ζ-珠蛋白,3個物種各有一個成員,即人的HsHBZ、小鼠的MmHba-x和大鼠的RnHbz;第二支又分兩支,一支為α-珠蛋白,另一支為θ-珠蛋白。3個物種的α-珠蛋白各有兩個成員,如人的HsHBA1和HsHBA2,θ-珠蛋白各有1個成員。可以推斷,α-珠蛋白的兩個成員是在靈長類和嚙齒類分化以后通過基因倍增機制產生的,即“先有物種、后有基因”。β-珠蛋白基因簇在這3個物種的起源和演化留給讀者自行分析。

圖6 大鼠基因組數據庫RGD中α-珠蛋白(A)和β-珠蛋白(B)基因家族信息

圖7 人珠蛋白家族12個蛋白質序列系統發生樹
基于蛋白質和核酸序列,我們已對人、小鼠和大鼠3個物種的血紅蛋白進行了比較分析。下面,我們以斑頭雁和灰雁為例,利用生物信息方法和結構分析軟件,對血紅蛋白的序列、結構和功能關系進行分析。
斑頭雁在分類學上為鳥綱(Aves)、雁形目(Anseriformes)、鴨科(Anatidae)、雁屬(Anser),拉丁文學名分別為Anser indicus,英文名為Barheaded goose。斑頭雁為典型的候鳥,夏季生活在我國西部青海湖,每年9月初往南遷徙,經過近兩個月的長途跋涉,飛躍喜馬拉雅山,大約10月中下旬飛抵印度平原過冬。每年春季開始又往北遷徙,飛回青海湖,周而復始,年年如此。灰雁(英文名為Grayleg goose,美國英語多用Greyleg goose)的拉丁文學名分別為Anser anser,與斑頭雁同為鴨科、雁屬,主要生活在印度平原[5]。我們知道,地球表面氧分壓隨海拔增高而降低,斑頭雁飛躍的喜馬拉雅山巔,氧分壓不到平原地區的一半。斑頭雁這種高空長度遷徙的能力,是否與其血紅蛋白分子的特征有關,是一個值得研究的有趣問題。

圖8 人、小鼠、大鼠3個物種珠蛋白家族系統發生樹
1983年,英國劍橋分子醫學研究實驗室已故著名血紅蛋白研究專家佩魯茨(Max Perutz)在分子生物學和演化雜志(Molecular Biology and Evolution)創刊號上發表的題為“從蛋白質分子看物種的適應性”綜述中指出,斑頭雁和灰雁的血紅蛋白氨基酸序列僅有4個位點差異,其中α-亞基的119位比較特殊[6]。斑頭雁α-亞基該位點位序氨酸(A119Ala),而灰雁該位點為脯氨酸(A119Pro)。蛋白質三維空間結構分析表明,該位點與β-亞基第55位的亮氨酸(B55Leu)空間距離較近。我們知道,成熟的血紅蛋白為四聚體,由兩個α-亞基和兩個β-亞基組成,各含一個血色素卟啉環,環中央的五價鐵離子用于結合氧氣。結合氧氣和釋放氧氣過程中,血紅蛋白四個亞基構象發生變化,并通過協同作用,提高結合氧氣的效率。佩魯茨指出,斑頭雁α-亞基119位的丙氨酸側鏈僅有一個甲基,與β-亞基55位亮氨酸側鏈距離較遠,有利于構象變化;而灰雁該位點側鏈脯氨酸有3個甲基,與β-亞基55位亮氨酸側鏈距離較近,不利于構象變化。這兩種鳥類血紅蛋白序列結構的差異,可能與其結合氧氣的能力有關。20世紀90年代,北京大學生物系蛋白質結構功能研究組,用蛋白質分子晶體X-衍射的方法,分別測定了斑頭雁和灰雁血紅蛋白的結構,并進行了比較分析,證實了當年佩魯茨的推測[7]。
利用蛋白質結構顯示和模擬軟件Swiss-PdbViewer[8],我們可以對已經測定的斑頭雁和灰雁氧合血紅蛋白的空間結構進行比較分析。具體操作步驟大體如下:
從蛋白質結構數據庫PDB(http://www.rcsb.org/)下載斑頭雁和灰雁氧合血紅蛋白三維空間結構數據文件1A4F.pdb和1FAW.pdb。
(1)在Swiss-PdbViewer中打開灰雁血紅蛋白數據文件1FAW.pdb,選擇其中A和B兩條鏈(即α和β-兩個亞基),保存為新文件1FAWab.pdb。
(2)打開新保存的文件1FAWab.pdb,選擇只顯示主鏈模式;打開斑頭雁血紅蛋白數據文件1A4F.pdb,也選擇只顯示主鏈模式。
(3)利用該軟件包中的結構疊合工具Magic Fit,可以發現,這兩個蛋白質分子的結構總體十分相似。
(4)在控制面板中找到斑頭雁α-亞基119位的丙氨酸和β-亞基55位亮氨酸,顯示它們的側鏈原子,測量它們之間的距離。
(5)在控制面板中找到灰雁α-亞基119位的脯氨酸和β-亞基55位亮氨酸,顯示它們的側鏈原子,測量它們之間的距離。
上述斑頭雁和灰雁血紅蛋白三維結構的比較分析表明,斑頭雁氧合血紅蛋白1A4F α-亞基119位丙氨酸側鏈的β碳原子(CB)與β-亞基55位亮氨酸側鏈末端的兩個δ碳原子(CD1和CD2)距離均在4 ?以上,最近距離為4.56 ?;而灰雁該位點側鏈脯氨酸γ碳原子與β-亞基55位亮氨酸側鏈末端的一個碳原子距離為3.79 ?。這一差別很可能影響血紅蛋在結合和釋放氧氣過程中構象發生變化,從而影響其結合氧氣能力,造成這兩種鳥類不同的生活習性。

圖9 斑頭雁(A)和灰雁(B)血紅蛋白結構比較
圖9為利用PyMol分子結構顯示軟件繪制的分析結果。與Swiss-Pdbviewer相比,其圖形顯示和輸出功能更強。
以上我們以血紅蛋白序列和結構為例,介紹“實用生物信息技術”課程教學種用到的幾種生物信息方法。希望選修本課程的學生對本課程的教學有所了解,也希望對自學生物信息技術及其應用的讀者有所啟發。關于本課程的詳細介紹和具體內容,讀者可瀏覽本課程專用教學網站(http://abc.cbi.pku.edu.cn/),參閱筆者生物信息學簡報(Briefings in Bioinformatics)相關文章[1]。
[1] Luo J. Teaching the ABCs of bioinformatics:a brief introduction to the Applied Bioinformatics Course[J] . Brief Bioinform, 2014,15:1004-1013.
[2] Liu X, Wu J, Wang J, et al. WebLab:a data-centric, knowledgesharing bioinformatic platform[J] . Nucleic Acids Res, 2009, 37:W33-39.
[3] Hardison RC. Evolution of hemoglobin and its genes[J] . Cold Spring Harb Perspect Med, 2012, 2:a011627.
[4] Tamura K, Stecher G, Peterson D, et al. MEGA6:Molecular Evolutionary Genetics Analysis version 6. 0[J] . Mol Biol Evol,2013, 30:2725-2729.
[5] Jessen TH, Weber RE, Fermi G, et al. Adaptation of bird hemoglobins to high altitudes:demonstration of molecular mechanism by protein engineering[J] . Proc Natl Acad Sci USA, 1991, 88:6519-6522.
[6] Perutz MF. Species adaptation in a protein molecule[J] . Mol Biol Evol, 1983, 1:1-28.
[7] Zhang J, Hua Z, Tame JR, et al. The crystal structure of a high oxygen affinity species of haemoglobin[J] . J Mol Biol, 1996,255:484-493.
[8] Guex N, Peitsch MC, Schwede T. Automated comparative protein structure modeling with SWISS-MODEL and Swiss-PdbViewer:a historical perspective[J] . Electrophoresis, 2009, 30:S162-173.