陳蓮 郭元輝
【摘要】以2016年全國研究生數學建模競賽B題“遺傳性疾病和性狀的遺傳位點”提供的數據,按照1∶1的病例對照設計,運用Pearson卡方檢驗和病例組與對照組的堿基差異的正態分布情況各選取出24個可能的致病位點.將兩種方法選取出的24個可能的致病位點與300個基因進行全基因組關聯分析,找出最有可能的致病基因.
【關鍵詞】遺傳位點;Pearson卡方檢驗;正態分布檢驗;全基因組關聯分析
【基金項目】四川省教育廳自然科學項目(14ZA0132)、西華師范大學科研基金(13E022).
一、研究背景
人類某些遺傳疾病由某些特定位點的核苷酸發生變異引起[1],遺傳疾病分為單基因疾病和復雜性疾病.SPNs是研究基因多態性和識別疾病相關基因的一種工具[2],孫志偉等人提出了一種快速的致病基因分析方法及算法FADG[3],并指出差異最大的SNP位點就是致病位點.人類基因組計劃[4]成功測序,也促進了人類利用遺傳標記SPNs對復雜性疾病進行全基因關聯分析.全基因組關聯分析[5]是應用人類基因組中大量的單核苷酸多態性為標記進行病例對照設計研究的關聯分析.數據源于2016年全國研究生數學建模競賽B題“遺傳性疾病和性狀的遺傳位點”,其病例組和對照組的設計上采用隨機抽樣和1∶1的比例進行匹配,這種設計方式符合病例對照設計[6],它是遺傳病抽樣設計中簡單常用的匹配方式[7].
二、位點編碼信息的數據處理
圖1位點分布圖
以位點rs3094315為例,先將3種堿基對(TT,TC,CC)分別轉化為數值(22,23,33),在各位點上取出最大的編碼記為2,最小的記為0,其他的記為1,統計出對照組和病例組各位點處3種基因型的數目.在處理堿基編碼信息時,認為堿基的編排順序不同則基因型不同,由兩種不同的堿基組成的相異的基因型有12種,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.從9 445個位點中選取最有可能的致病位點,由MATLAB編程畫出位點的分布情況如圖1所示,從圖中可知選擇致病位點有一定的難度,故用計算來選取致病位點.
三、Pearson卡方檢驗選取致病位點
Pearson卡方檢驗方法[8]可表示成,
χ2=∑ni=1(Qi-Ti)2Ti.(1)
其中,Qi是病例組在各位點第i類堿基對的觀測頻數,Ti是對照組在各位點第i類堿基對的理論頻數.卡方檢驗的顯著標準設置為α=10-6,自由度為n-1=2,得到χ2臨界值為27.631 0.以此為標準,用MATLAB編程選卡方值大于臨界值的32個位點.序號為8 258和8 496這兩位點,χ2值無窮大,遺傳學上可理解為未患該疾病的人群中不存在CC這種堿基對,可認為該位點的患病概率較大.
卡方檢驗選出的32個可能的致病位點中,AT、TA、CG、GT和GC堿基組成類型未出現,但未必說明致病位點不含它們.根據各類型堿基組成在9 445個位點中所占頻數,按一定的比例選出可能的致病位點,如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4進行選擇,通過MATLAB編程運行得到可能的24個致病位點,見表1.
四、按差異的分布選取致病位點
由A、T、C、G互異堿基組成的基因型共有12種,在各類型中計算出對照組與病例組的3種基因型的平均差異,再分析病例組堿基對距離平均差異值的分布情況,從分布情況角度選取致病位點.計算12種基因型各自的平均差異公式為
V=∑mj=1∑ni=1(Qi-Ti)m.(2)
其中,Qi是病例組在各位點第i類基因型的觀測頻數,Ti是對照組在各位點上第i類基因型的理論頻數,n為各位點的基因型數,即n=3,m為12種互異堿基組成的基因型在9 445個位點中出現的位點個數.由MATLAB編程運行得到12類互異堿基組成的基因型平均差異.
判斷病例組堿基對距離平均差異值的分布情況,以CA類型為例,根據(2)式得出對照組與病例組在各位點堿基對AA、CA和CC的差異個數,分別用向量S0,S1,S2來表示.將上述數據S0,S1,S2導入IBM SPSS Statistics 20中,進行如下操作步驟:分析、描述統計、Q-Q圖、選擇正態分布檢驗,得到3種堿基對的正態Q-Q圖,如圖2所示.若堿基對AA、CA和CC的差異個數服從正態分布,則CA類型堿基對的差異數也服從正態分布[9].
圖2AA堿基對Q-Q圖
MATLAB工具箱提供了ttest函數[10]對未知標準差的某正態分布的均值進行檢驗,調用格式為:h=ttest(x,m,alpha,tail).其中,x為待檢驗的樣本,alpha為顯著性水平,在這里alpha取默認值0.05,tail為備擇假設.原假設為:h0∶μ=μ0=m.
當tail=0時,表示備擇假設h1∶μ≠μ0=m,tail=0為默認的雙邊檢驗.
當返回值h=0時,表示在顯著性水平alpha下,不能拒絕原假設,即符合均值為m的正態分布,當h=1時,表示在顯著性水平alpha下,可拒絕原假設,即不服從均值為m的正態分布.
經檢驗,病例組各堿基組成類型均符合均值為待檢驗均值的正態分布,在均值附近選擇選取可能致病位點,12種堿基對組成類型按照1∶1∶4∶1∶4∶1∶1∶4∶1∶4∶1∶1選取,由MATLAB編程運行得出的24個可能致病位點見表2.
五、兩種選取致病位點方法的比較及結論
Pearson卡方檢驗法側重找出病例組與對照組差異較大的作為可能的致病位點,而分類按堿基對差異服從的正態分布選取側重找病例組與對照組差異的平均.若樣本容量小,則優先選用卡方檢驗法選取,若樣本容量較大且堿基對數目的差異服從正態分布,則用后一種方法選取致病位點.用全基因組關聯性分析選出了可能的致病基因,見表3.
【參考文獻】
[1]凃欣,石立松,汪樊等.全基因組關聯分析的進展與反思[J].生理科學進展,2010,41(2):87-94.
[2]孫志偉,單淵博,蔡潤身等.快速的致病基因分析方法[J/OL].計算機工程與應用,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1618.004.html.
[3]劉翠蘭,胡家偉.單核苷酸多態性研究進展及法醫學應用前景[J].中國法醫學雜志,2001,16(s1):58-59.
[4]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001(409):860-921.
[5]嚴衛麗.復雜疾病全基因組關聯研究進展——遺傳統計分析[J].遺傳,2008,30(5):543-549.
[6]陳樹昶.病例對照研究的設計原理及其進展[J].疾病控制雜志,2004,8(1):56-59.
[7]袁敏.關聯分析中的統計方法研究——基因模型選擇及穩健檢驗[D].合肥:中國科學技術大學,2009.
[8]茆詩松,王靜龍.數理統計[M].上海:華東師范大學出版社,1999.
[9]田禹.基于偏度和峰度的正態性檢驗[D].上海:上海交通大學數學系,2012.
[10]張德豐,楊文茵.MATLAB工程應用仿真[M].北京:清華大學出版社,2012.endprint