劉 迪,張洪春,李 穎★
(1.中日友好醫院 中醫肺病科,北京 100029;2.北京中醫藥大學,北京 100029)
慢性阻塞性肺疾病 (chronic obstructive pulmonary disease,COPD,簡稱慢阻肺)是一種以持續性呼吸道癥狀和氣流受限為特征的疾病,是世界第四大死因,其發病與遺傳、 顆粒物暴露等相關,發病機制包括氧化應激、蛋白酶-抗蛋白酶失衡、炎癥細胞及炎癥介質增多、細支氣管周圍及間質纖維化等[1]。由于慢阻肺病因及發病的復雜性,選擇合適的動物模型深入研究其生理、 病理和治療變得極為重要。小鼠、大鼠、豚鼠、猴等實驗動物模型可模擬慢性肺部炎癥細胞浸潤、呼吸道重塑、肺氣腫和肺功能受損等慢阻肺疾病特征[2]。但不同慢阻肺動物模型的臨床差異較大,需要從基因差異上深入研究,有助于選擇更合適的模型動物。
本文通過生物信息學方法,分析了人類、小鼠、大鼠等物種的慢阻肺易感基因差異,進行了基因富集分析,并利用PolySearch2 挖掘慢阻肺易感基因相關的文獻。
慢阻肺易感基因差異性分析采用大鼠基因組數 據 庫 (rat genome database,RGD,https://rgd.mcw.edu),其整合了大鼠、小鼠、人類等8 個物種的大量結構化和標準化數據,包括基因的生物學過程及細胞成分、數量性狀基因座、序列、圖譜、品系、疾病關聯、表型、通路和分子功能等[3],以及一套用于查詢、分析和可視化這些數據的工具[4,5]。
易感基因在不同物種比較基因組學分析采用Ensembl 基因組數據庫(http://asia.ensembl.org/index.html),其包含了脊椎動物基因組數據,如基因、變異、調節和比較基因組學等[6]。
PolySearch2 多源文本挖掘系統(http://polysearch.cs.ualberta.ca) 可用于提取和分析人類疾病、基因、突變、藥物、代謝物等之間的文本派生關系[7,8]。本文使用PolySearch2 挖掘文獻中的慢阻肺易感基因,選擇Z-Score>8.00 相關度最高的基因進行分析。按照相關性排序列出與慢阻肺相關的最可能的基因或蛋白質。
RGD 數據庫可檢索到慢阻肺易感基因的數量,其中人類201 個(總數40 984 個),常用慢阻肺模型動物中小鼠200 個(總數53 724 個),大鼠200 個(總數45 816 個),犬189 個(總數36 850個),豬188 個(總數30 414 個)。從基因數量上看,小鼠、大鼠和人類的基因數是最接近的,犬和豬次之。將人類、小鼠、大鼠的慢阻肺易感基因導出并求交集,結果顯示共有的基因是Fam13a、Eefsec、Mtcl1、Faim2、Serpina3。

表1 FAM13A 在不同物種中的同源性分析
2.2.1 KEGG 通路富集分析
人類、小鼠、大鼠慢阻肺易感基因KEGG(Kyoto encyclopedia of genes and genomes) 通路富集分析結果按P 值從小到大排列,前30 條相關通路基本相同。以人類為例,富集程度較高的通路包括:①免疫相關通路:免疫相關信號通路、免疫反應通路、先天免疫反應通路;②疾病相關通路:傳染病通路、類風濕關節炎通路;③細胞因子介導的信號通路:細胞因子和趨化因子介導的信號通路、白細胞介素介導的信號通路;④其他通路:Toll 樣受體信號通路等。
2.2.2 生物表型富集分析
人類慢阻肺易感基因的生物表型富集包括免疫系統異常、代謝/穩態異常、免疫系統生理異常、呼吸系統異常等表型。小鼠主要富集在免疫系統生理異常、免疫系統表型、穩態/代謝表型、異常炎癥反應、細胞免疫異常等表型。大鼠主要富集在心血管系統生理異常、穩態/代謝表型、全身動脈血壓異常、血管生理異常、蛋白水平異常等表型。
2.2.3 分子功能富集分析
人類、小鼠、大鼠慢阻肺易感基因分子功能富集分析結果按P 值從小到大排列,前30 條相關通路基本相同。以人類為例,富集程度較高的通路包括:①細胞因子結合相關:信號受體結合、細胞因子受體結合、G 蛋白偶聯受體結合、趨化因子受體結合;②細胞因子活性相關:細胞因子活性、受體配體活性、信號受體激活活性、趨化因子活性、分子傳感器活性。
以FAM13A 基因為例,利用Ensembl 基因組數據庫,分析慢阻肺FAM13A 在不同物種中相對于人類基因的比較基因組學結果(表1)。

表2 PolySearch2 文本挖掘慢阻肺易感基因
為了驗證慢阻肺易感基因分析結果的可靠性,使用PolySearch2 文本挖掘工具,以“Chronic Obstructive Pulmonary Disease”為關鍵詞,檢索到有文獻支持的81 個慢阻肺易感基因/蛋白,其中Z-Score>8.00 相關度最高的基因有14 個(表2)。
人類、小鼠、大鼠慢阻肺易感基因富集結果表明3 個物種在慢阻肺的相關疾病、 涉及的信號通路及作用靶點等方面具有相似性。免疫相關通路、細胞因子介導的信號通路及感染性疾病等相關通路在慢阻肺發病中共同發揮作用; 慢阻肺易感基因對應的蛋白質的主要功能集中在信號受體、細胞因子受體、趨化因子受體、G 蛋白偶聯受體等的活化及結合方面。人類、小鼠和大鼠的生物表型富集分析因為物種的差別而有所差異,綜合來看慢阻肺的發病與免疫系統異常、 異常炎癥反應、代謝/穩態異常等相關。
在PolySearch2 查詢的慢阻肺易感基因研究中,依次為FAM13A、HHIP、ADAM33、PDE4A10、IL17、TNF-C 等。在小鼠和人肺組織中,FAM13A主要表達于氣道和肺泡Ⅱ型上皮細胞和巨噬細胞中。與Fam13a+/+小鼠相比,Fam13a 陰性小鼠(Fam13a-/-) 對香煙煙霧及彈性蛋白酶誘發的肺氣腫具有抵抗性。條件遺傳關聯分析表明,人類FAM13A 中存在2 個獨立COPD 關聯信號,并且該基因為COPD 與肺纖維化共有[9,10]。
HHIP 基因變異與慢阻肺的易感性和肺功能水平有關。10月齡Hhip 雜合子(Hhip+/-)小鼠出現肺順應性增加和自發性肺氣腫,與Hhip 陽性小鼠相比,雜合子小鼠肺部的氧化應激水平升高[11]。ADAM33 可能通過引發氣道炎癥和免疫反應增加慢阻肺發病風險,ADAM33 S1 基因多態性是中國和吸煙人群COPD 的危險因素[12]。磷酸二酯酶4(PDE4)是治療哮喘和慢阻肺的藥物靶標[13]。多種動物模型在病毒和細菌感染的呼吸模型以及化學介導的肺損傷后顯示出PDE4 抑制劑(PDE4i)的強抗炎作用[14]。
目前,我們對驅動和標記慢阻肺產生和進展的機制仍不夠明確[15]。分析慢阻肺易感基因有助于深入研究慢阻肺發展機制,制作更符合病理生理的基因工程動物模型,并為闡明慢阻肺的發病機理和尋找新的治療策略提供依據。