付春鵬
(山東省濰坊科技學院 壽光 262700)
自人類基因組計劃完成以來,科學家相繼完成了多個生物基因組的測序工作,龐大的數據讓科學家對基因組有了全面的認識。研究表明,人類的基因組大約有30多億個堿基對,而其中僅有不到2%的DNA序列編碼蛋白質,其余98%以上的序列則一度被認為是近中性選擇條件下的進化過程產生的、沒有功能的“垃圾序列”。近年發現這些所謂的“垃圾序列”并不是“一無是處”,假基因(pseudogene)就是其中之一。相關研究證實,有些假基因不但能夠轉錄生成RNA,進一步翻譯生成蛋白質,而且還在多個水平調控基因表達,進而參與有機體的多個生理、生化過程。假基因已成為生命科學研究的熱點領域之一。
1.1 假基因的發現 假基因是指具有與功能基因相似的序列,但由于發生眾多突變導致其失去了原有的功能的DNA序列。1977年,Jacq等[1]在非洲爪蟾基因組中克隆到1個與5srRNA相類似的基因序列。通過與5srRNA基因比對后發現,該基因在5′端存在16bp的缺失和14bp的錯配,而在非洲爪蟾體內沒有檢測到該基因的mRNA序列,表明它沒有表達活性,于是就將這個5srRNA的同源物描述為假基因。隨著基因組測序技術的發展,大量不同家族的假基因被陸續發現,假基因也被定義為功能基因有缺陷的拷貝[2]。
1.2 假基因的產生機制 假基因主要通過兩種途徑產生: ①細胞在分裂之前復制整個基因組時,DNA復制或染色體聯會交換過程中功能基因的編碼區或調控區發生的各種突變(堿基的插入、缺失、置換或移碼),均會導致復制后的基因無法進行編碼,從而喪失正常功能而成為假基因,這種假基因稱為重復假基因[3];②DNA轉錄為mRNA后再逆轉錄為cDNA并重新整合進入基因組(很可能發生在生殖細胞中),在此過程中因為插入位點不合適或序列發生突變而失去正常功能,這樣形成的假基因稱為加工假基因或返座假基因[4]。
1.3 假基因的鑒定 由于假基因與親本基因存在高度的序列相似性,所以正確區分假基因和親本基因就成為假基因研究的關鍵環節。這方面最早的工作是通過計算核酸的非同義替換與同義替換的比率(Dn/Ds)來識別假基因的[5]。理論上分析,由于假基因不編碼蛋白質,不受正選擇或者純化選擇影響,所以推測在近中性選擇條件下假基因的Dn/Ds值應該等于或接近1。通過該方法已經在多個物種中鑒別出眾多假基因,例如在人類基因組序列中就發現了8000個假基因。隨著測序技術發展,大量假基因的鑒定逐漸變得主要由生物信息學來完成,PseudoPipe、 RetroFinder和PseudoFinder是3種常用的分析軟件[6],但它們都需要物種的基因組、轉錄組以及蛋白組信息,因此上述軟件不適用于非模式生物的假基因鑒定。鑒于此,Molineris等[7]提出適用于多數物種的假基因鑒定方法——REGEXP。REGEXP方法的流程為: 將編碼基因和假基因進行比對從而找到高匹配對(high score pairs, HSPs),進而尋找HSPs附近的基因簇。由于加工假基因僅含有原始基因外顯子,且假基因對應的HSPs互相非常接近,故正常功能基因所對應的HSPs反而被內含子分割。據此建立數據庫,并與Ensemble、 VEGA以及Pseudogene.org等假基因數據比對,最終確定假基因[8]。
1.4 假基因的作用機制 假基因的作用序列具有專一性,只影響與假基因本身相似的一些序列。由假基因介導的調控機制主要發生于轉錄水平和轉錄后水平。
1.4.1 轉錄水平的調控機理 當mRNA逆轉錄生成加工假基因時,沒有正常編碼功能的加工假基因整合到基因組中作為一個新位點,并與其親本基因相互作用而調控細胞的不同生化過程。高遷移率族蛋白A1(high mobility group protein A1, HMGA1)是基因激活的特定輔助因子,與腫瘤和糖尿病的發生密切相關。其假基因HMGA1-P的轉錄物可降解功能基因HMGA1的轉錄物,原因在于HMGA1-P的轉錄物和親本基因HMGA1的轉錄本在3′非翻譯區上共同分享一個重要的轉錄調控元件[9]。
1.4.2 轉錄后水平的調控機理 假基因的轉錄物可通過作為親本基因的反義RNA、競爭性結合親本基因的微小RNA(microRNA, miRNA)和產生內源性小干擾RNA(small interfering RNA, siRNA)來降解親本基因等幾種方式在轉錄后水平調控親本基因的表達。其中siRNA的生成機制研究較為透徹: 假基因主要通過假基因—親本基因以及假基因—假基因兩種配對方法來產生相關的siRNA。前一種配對中的親本基因作為產生siRNA的正義鏈,反義鏈則來自于互補的假基因片段;后一種配對情況則通過插入重復片段形成發夾結構而生成siRNA。
2.1 基因表達 人們起初認為假基因不具有編碼蛋白質功能,但是近年來相關研究表明某些假基因可以編碼比親本功能基因稍短的蛋白質。例如,磷酸甘油酸變位酶3基因(phosphoglycerate mutase family 3,PGAM3)是第一個被發現的具有編碼能力的假基因[10];2個含膿素結構域的NLR家族假基因(NLR family, pyrin domain containing 2 pseudogene,NLRP2P)是高等靈長目特有的加工型假基因;最近人們發現其具有與親本基因膿素蛋白基因(pyrin-only protein 2,POP2)類似的功能。NLRP2P具有完整的開放閱讀框,編碼45個氨基酸,這些氨基酸可以形成類似的膿素結構域(pyrin-domain)。而且NLRP2P的編碼區與功能基因POP2相似度達80%以上。進一步的研究表明,該假基因具有調控細胞因子生成、細胞周期和細胞死亡的功能[11]。上述結果表明,假基因并非沒有編碼能力,有些假基因在選擇壓力的作用下日趨進化,逐漸地具備了各種各樣的功能。因此現在的觀點傾向于認為: 假基因是生物體的基因貯備庫。
2.2 調控基因表達 假基因對基因表達調控主要通過反義鏈、siRNA和miRNA等幾種方式來進行。例如,Korneev等[12]在蝸牛中發現一氧化氮合酶的假基因(nitric oxide synthase, NOS)轉錄本,能作為反義RNA與親本基因的轉錄本形成RNA雙鏈,在蝸牛記憶形成的關鍵時期抑制一氧化氮合成。此結果說明假基因轉錄的反義RNA在細胞中的重要作用。同源性磷酸酶張力蛋白基因(phosphatase and tensin homolog,PTEN)是迄今發現的第一個具有磷酸酶活性的抑癌基因,維持細胞內正常的PTEN蛋白水平可以夠抑制腫瘤的發生。其假基因PTENP1的3′端非編碼區序列與PTEN高度相似,PTENP1假基因競爭性結合miRNA,導致細胞內miRNA的濃度降低,致使PTEN逃離miRNA介導的抑制作用,從而調控腫瘤的發生[13]。
2.3 基因重排 動物體存在多種免疫球蛋白,而基因重排是產生免疫球蛋白多樣化的主要機制。基因重排機制首先在雞中被發現,雞免疫球蛋白重鏈和輕鏈的可變區(V區)基因上游存在大量的假基因,這些假基因插入并置換重排V區的同源序列,從而使免疫球蛋白呈現多樣化[14]。類似的功能基因和假基因間的基因重排導致的抗體多樣性例子在其他脊椎動物中都能發現。
2.4 標記物種親緣關系和進化距離 細胞核線粒體假基因(nuclear mitochondrial pseudogenes,Numts)是線粒體DNA轉移到核DNA中的片段,是研究細胞核內外兩套遺傳物質的橋梁。因為Numts的進化速率慢于線粒體基因,常被看做是線粒體DNA的“分子化石”,可以根據Numts中保留的原始基因信息確定物種之間的親緣關系和進化距離。例如,在人類起源問題上,Zischler等[15]使用核基因組中的一段D-loop區的Numts序列作為外群,證實了現代人類起源于非洲的假說,結束了很久以來關于現代人類起源地的爭論。
長期以來一直認為假基因是看似正常、卻沒有功能的“死亡基因”,是基因組進化歷程中的“化石記錄”,然而事實卻遠非如此。如上所述,假基因在基因表達、基因調控、產生基因多樣性等方面都扮演著極為重要的角色。因此,人們重新定義了假基因的概念: 即假基因是指源于功能基因,卻不能夠表達相同類型產物(如蛋白質、tRNA及rRNA等)的基因組序列[16]。
生物體猶如一架精密的儀器,每個生化反應都要經歷嚴謹而復雜的調控過程。在生物進化的歷程中,細胞基因組中大約有98%的“垃圾序列”會被“束之高閣”嗎?答案顯然是否定的,而物盡其用應是其更合理的解釋。例如,當下受到研究者廣泛關注的長鏈非編碼RNA(long non-coding RNA, lncRNA)就是所謂的“垃圾序列”的一部分,原先被認為是轉錄過程中產生的“噪音”,現在被證明在生物體中發揮著重要的生物學功能。假基因也不例外,相信在不久的將來,隨著分子生物學技術的發展,科研人員必定對假基因有一個全面正確的認識,還假基因本來之真面目。