李志群 祝 楊 李培建
對于一種新基因,同時把其編碼的新蛋白的結構與生物學功能、生物學和臨床醫學之間的相互關系、以及新基因表達調節的機制闡明,是目前基因的分子生物學研究領域中最具挑戰性的工作。首先利用酵母雙雜交(yeast two-hybrid)技術、酵母單雜交技術(yeast one-hybrid)、抑制性消減雜交(SSH,suppression subtractive hybridization)技術、基因芯片(DNA chip)技術、噬菌體表面展示(phage display)技術等獲得蛋白結合蛋白的編碼基因、差異表達的基因、DNA/RNA結合的蛋白基因等,或利用生物信息學技術獲得推測的編碼基因。然后,利用分子生物學技術和生物信息學技術相結合的手段,闡明新基因的功能、基因表達啟動子的結構和調節機制基礎,最終闡明新基因的結構和新蛋白的生物學功能,以及這種基因研究的可能臨床醫學意義。生物信息學技術與分子生物學技術的結合,是目前基因的分子生物學研究領域中的重要、有效的研究技術和方法[1,2]。
蛋白質組(proteome)最早見諸于1995年7月的“Electrophoresis”雜志上[3],它是指一個有機體的全部蛋白質組成及其活動方式。蛋白質組研究雖然尚處于初始階段,但已經取得了一些重要進展。當前蛋白質組學的主要內容是,在建立和發展蛋白質組研究的技術方法的同時,進行蛋白質組分析。對蛋白質組的分析工作大致有兩個方面。一方面,通過二維凝膠電泳得到正常生理條件下的機體、組織或細胞的全部蛋白質的圖譜,相關數據將作為待檢測機體、組織或細胞的二維參考圖譜和數據庫。一系列這樣的二維參考圖譜和數據庫已經建立并且可通過聯網檢索。二維參考圖譜建立的意義在于為進一步的分析工作提供基礎。蛋白質組分析的另一方面,是比較分析在變化了的生理條件下蛋白質組所發生的變化[4]。如蛋白質表達量的變化,翻譯后修飾的變化,或者可能的條件下分析蛋白質在亞細胞水平上的定位的改變等。研究蛋白質間的相互作用有多種方法,常用的如酵母雙雜交系統、親和層析、免疫沉淀、蛋白質交聯等。其中,酵母雙雜交系統是當前發展迅速、應用廣泛的主要方法。通過分析一個蛋白質是否跟功能已知的蛋白質相互作用可得到揭示其功能的線索。因為經驗告訴我們,如果兩個蛋白質相互作用,那么它們一般參與相同或相關的細胞活動[4]。從近期國際上蛋白質組學研究的發展動向可以看出,揭示蛋白質之間的相互作用關系,建立相互作用關系的網絡圖,已成為揭示蛋白質組復雜體系與蛋白質功能模式的先導,業已成為蛋白質組學領域的研究熱點。
酵母雙雜交系統(yeast two-hybrid system)自建立以來已經成為分析蛋白質相互作用的強有力的方法之一。該方法在不斷完善,如今它不但可用來在體內檢驗蛋白質間的相互作用,而且還能用來發現新的作用蛋白質,在對蛋白質組中特定的代謝途徑中蛋白質相互作用關系網絡的認識上發揮了重要的作用。
雙雜交系統的建立得力于對真核生物調控轉錄起始過程的認識。細胞起始基因轉錄需要有反式轉錄激活因子的參與。80年代的工作表明,轉錄激活因子在結構上是組件式的(modular),即這些因子往往由兩個或兩個以上相互獨立的結構域構成,其中有DNA結合結構域(DNA binding domain,簡稱為DB)和轉錄激活結構域(activation domain,簡稱為AD),它們是轉錄激活因子發揮功能所必需的。單獨的DB雖然能和啟動子結合,但是不能激活轉錄。而不同轉錄激活因子的DB和AD形成的雜合蛋白仍然具有正常的激活轉錄的功能。如酵母細胞的Gal4蛋白的DB與大腸桿菌的一個酸性激活結構域B42融合得到的雜合蛋白仍然可結合到Gal4結合位點并激活轉錄[5]。
Fields等人的工作標志雙雜交系統的正式建立[6]。他們以與調控SUC2基因有關的兩個蛋白質Snf1和Snf2為模型,將前者與Gal4的DB結構域融合,另外一個與Gal4的AD結構域的酸性區域融合。由DB和AD形成的融合蛋白現在一般分別稱之為“誘餌”(bait)和“獵物”或靶蛋白(prey or target protein)。如果在Snf1和Snf2之間存在相互作用,那么分別位于這兩個融合蛋白上的DB和AD就能重新形成有活性的轉錄激活因子,從而激活相應基因的轉錄與表達。這個被激活的、能顯示“誘餌”和“獵物”相互作用的基因稱之為報道基因(reporter gene)。通過對報道基因表達產物的檢測,反過來可判別作為“誘餌”和“獵物”的兩個蛋白質之間是否存在相互作用。在此Fields等人采用編碼β-半乳糖苷酶的LacZ作為報道基因,并且在該基因的上游調控區引入受Gal4蛋白調控的GAL1序列。這個改造過的LacZ基因被整合到酵母染色體URA3位上。而酵母的GAL4基因和GAL80基因(Gal80是Gal4的負調控因子)被缺失,從而排除了細胞內源調控因子的影響。已經知道在Snf1和Snf2之間存在相互作用。結果發現只有同時轉化了Snf1和Snf2融合表達載體的酵母細胞才有β-半乳糖苷酶活性,單獨轉化其中任何一個載體都不能檢測出β-半乳糖苷酶活性。
在酵母的有性生殖過程中涉及到兩種配合類型:a接合型和α接合型,這兩種單倍體之間接合(mating)能形成二倍體,但a接合型細胞之間或α接合型細胞之間不能接合形成二倍體。根據酵母有性生殖的這一特點,他們將文庫質粒轉化α接合型酵母細胞,“誘餌”表達載體轉化a接合型細胞。然后分別鋪篩選平板使細胞長成菌苔(lawn),再將兩種菌苔復印到同一個三重篩選平板上,原則上只有誘餌和靶蛋白發生了相互作用的二倍體細胞才能在此平板上生長。單倍體細胞或雖然是二倍體細胞但DB融合蛋白和AD融合蛋白不相互作用的都被淘汰。長出來的克隆進一步通過β-半乳糖苷酶活力進行鑒定[7]。
新基因的克隆化無異是生物醫學領域創新知識源泉的重要組成部分。這一任務,不僅是人類基因組計劃(HGP)的核心內容,同時也是后基因組計劃(post-HGP)的重要內容.多年來,隨著以人的基因克隆化為主的不同生物類型基因克隆化研究的進展,已然積累了大量的不同生物的基因序列、蛋白質的氨基酸殘基序列,同時對于不同生物種屬之間基因序列、蛋白質以及結構序列的保守結構位點也積累了豐富的資料,并據此建立了龐大的數據庫系統。對于這些數據的分析,必須依靠計算機分析技術。計算機分析技術的不斷發展,為這些資料和數據的分析建立了一些有效的分析技術。因此,自然而然就將基因和蛋白質結構的資料與計算機分析技術結合起來,形成了目前極具潛力的新興交叉學科-生物信息學(bioinformatics)技術。生物信息學技術的形成和發展,大大促進了以基因的分子生物學為核心內容的現代生物醫學的發展,以基因的分子生物學為核心內容的理論和技術,已經成為生物學領域、醫學領域重要的創新知識源泉[8]。
隨著后基因組時代的到來,闡明基因組所表達的全部蛋白質的表達規律和生物功能,即蛋白質組的研究,成為我們研究的最終目的,因為蛋白質才是生命活動的真正執行者[9]?,F有的蛋白質研究方法,如雙向電泳等電聚焦、色譜分析、質譜分析等,都需要特殊設備且價格昂貴;體外翻譯表達系統可研究蛋白質的加工、釋放和亞細胞定位,但操作繁瑣,而生物信息學為我們提供了一條可以直接由基因或蛋白質序列進行蛋白質功能預測和結構分析的捷徑。
生物信息學(bioinformatics)是生物與計算機科學以及應用數學學科相互交叉而形成的一門新興學科。它通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,達到解釋數據所蘊含的生物學意義的目的。
由于基因組和蛋白質組研究提供了極為豐富的數據,因而需要我們對這些數據進行高度自動化管理,建立嚴謹的數據庫并編寫相應的軟件,這項工作本身也極大地推動了生物信息學的發展,而生物信息學在蛋白質的研究中將發揮特殊作用[10]。下面將介紹生物信息學技術在蛋白質功能預測和結構分析中的作用。
生物信息學內涵非常豐富的學科,其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解釋。它研究的是揭示基因組信息結構的復雜性及遺傳語言的根本規律,解釋生命的遺傳語言。生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研究的前沿。隨著人類基因組計劃(Human Genomic Project,HGP)的完成和功能基因組計劃的實施,積累了大量的關于核苷酸、蛋白質一級結構和高級結構的數據,人們的注意力和工作重點已從基因組測序轉向對基因組表達、蛋白質結構與功能的預測和分析。為了解釋和理解這樣大量的數據,自然地引進了信息科學與技術、物理、數學及計算機學科的理論與技術,從而出現了生物信息學這一嶄新的交叉學科。雖然獨立的生物信息學技術在世界各地廣泛運用,并已經形成產業,但各種核苷酸和蛋白質一級結構和高級結構數據庫的建立,以及因特網的聯系與數據庫資料的共享,代表了生物信息學的主流內容和工具。生物信息學的逐漸形成和發展,對于生物醫學各個學科都產生了革命性的影響[8,11~15]。
[1]ALTSCHUL SF,GISH W,MILLer W,MEYERS EW,LIPMAN DJ.Basic local alignment search tool[J].J Mol Biol 1990;215:403-410.
[2]成軍.新基因結構與功能研究的策略[J].世界華人消化雜志.2003,11(4):373-377
[3]WASINGER V C,CORDWELL S J,CERPA-POLJAK A et al.Progress with gene-product mapping of the mollicutes:Mycoplasma genitalium[J].Electrophoresis,1995,16:1090-1094.
[4]潘竹林,李津嬰,閔碧荷.蛋白質組在醫學研究中的進展[J].國外醫學臨床生物化學與檢驗學分冊,2002,23(1):43-44.
[5]MA J,PTASHNE M.A new class of transcriptional activators[J].Cell,1987,51:113-119.
[6]FIELDS S,SONG O.A novel genetic system to detect proteinprotein interactions[J].Nature,1989,340:245-246.
[7]BENDIXEN C,GANGLOFF S,ROTHSTEIN R.A yeast matingselection scheme for detection of protein-protein interactions[J].Nucleic Acids Res,1994,22:1778-1779.
[8]成軍,劉妍,陸蔭英,等.生物信息學技術與新基因的研究[J].世界華人消化雜志,2003,11(4):474-477.
[9]成軍.新基因結構與功能研究的策略[J].世界華人消化雜志,2003,11(4):373-377.
[10]成軍,楊倩,劉妍,等.小鼠和大鼠NS5ATP4同源基因序列的生物信息學分析[J].世界華人消化雜志,2004,12(7):1582-1587.
[11]成軍,李克,陸蔭英,等.丙型肝炎病毒核心蛋白結合蛋白6基因和蛋白的生物信息學分析[J].世界華人消化雜志,2003,11(4):378-384.
[12]LUSCOMBE NM,GREENBAUM D,GERSTEINM.Whatis bioinformatics A proposed definition and overview ofthe field[J].Methods Inf Med,2001,40(4):346-358.
[13]BONETT L.Bioinformatics-from genes to pathways[J].Nat Methods,2004,1(2):169-176.
[14]ANDRADE MA,SANDER C.Bioinformatics:from genome data to biological knowledge[J].Curr Opin Biotechnol,1997,8(6):675-683.
[15]BICHET A,POLVERARI D,MALPERTUY A.Gene regulation and bioinformatics[J].Bull Cancer,2005,92(1):97-107.