基于單樣本特異性的疾病亞型識別方法研究

2021-12-29 03:55:26田顯陽季松雨張堃杜映璇張媛媛

現代計算機 2021年31期

關鍵詞：特征

田顯陽，季松雨，張堃，杜映璇，張媛媛

（青島理工大學信息與控制工程學院，青島 266520）

0 引言

癌癥指的是細胞不正常增生，且這些增生的細胞可能侵犯身體的其他部分，是控制細胞分裂增殖機制失常而引起的疾病。癌細胞除了分裂失控外，還會局部侵入周遭正常組織甚至經由體內循環系統或淋巴系統轉移到身體其他部分。正是癌癥的復雜致病機理導致了癌癥具有高度異質性，這種異質性使得同一種癌癥在臨床上常常被分為不同的類型，即癌癥亞型，每個亞型往往具有不同的生物標記物。由于癌癥亞型在基因上存在差異，因此相同的藥物與方法用于治療的效果不同。基于癌癥亞型的分類，臨床醫生可以指定精準的治療方案，評估患者的預后。因此，利用組學數據實現對癌癥的精準識別，在臨床上有極其重要的作用。另一方面，由于癌癥異質性的顯著存在，不同患者之間在疾病進展、臨床療效、放化療敏感性及預后等方面差異巨大，深入探討癌癥分子生物學特征及其與臨床表現、放化療敏感性的相關性，從傳統形態學分型轉變到分子分型，實現從“異病同治”到“同病異治”的轉變，有利于對癌癥的精準診斷、預后分層、腫瘤分期、指導治療、復發監控及藥物研發［1］。癌癥亞型是指在癌癥起源處具有相似分子機制的樣本群，分子機制通過亞型特異性的突變和表達特征得到反映［1-2］。通過基因組學、轉錄組學、表觀基因組、蛋白質組學、代謝組學等技術對癌癥進行不同層次的研究，以數據驅動的方式挖掘生物信息進而進行癌癥亞型識別具有重要意義［3-4］。

本文基于P-SSN方法［11］，利用基因表達數據，考慮樣本特異性信息，以正常樣本作為參考矩陣構建參考網絡，并將每個癌癥樣本分別添加到參考矩陣中構建擾動網絡，進而構建單樣本下的差異基因網絡；其次，基于單樣本網絡，構建信息邊緣矩陣，并利用信息熵提取樣本網絡的邊特征，最后構建樣本-樣本相似性矩陣（圖1）；最后，利用層次聚類對樣本進行聚類，進而確定癌癥的亞型。通過與原始特征進行聚類的結果比較，我們發現從網絡角度衡量樣本的相似性具有明顯優勢。

圖1 基于單樣本網絡識別癌癥亞型框圖

1 材料與方法

1.1 數據來源及預處理

為了系統地分析方法在癌癥亞型識別方面的優勢，本文從美國生物信息技術中心NCBI（www.ncbi.nlm.nih.gov）中的GEO數據庫中下載骨髓增生異常綜合征（MDS）轉化為急性髓細胞性白血病（AML）的基因表達數據（GSE15061）。該數據包含MDS、AML和正常樣本三類。該數據中大多數基因在樣本中都存在相似性或是無關性，僅有極少數的基因具有表達值的特征即為顯著差異基因，因此原始數據不具備直接用于后續研究與分析的價值與意義，而且將此類基因保留定會增加后續的工作量，加大建立患者基因網絡建立的難度，因此需要基因差異表達分析［12］，選擇具有顯著意義的基因構建網絡。

本文使用了NetworkAnalyst對基因樣本數據進行了基因差異表達分析。NetworkAnalyst是一個基因表達譜和薈萃分析的可視化在線分析平臺，集成了先進的統計方法和創新的數據可視化系統，可以進行差異分析和對差異分析結果進行功能分析和網絡分析。本文使用了篩選后包含250例樣本，其中包括了實驗組：100例表現型為AML的癌癥患病樣本，100例表現型為M DS得到癌癥患病樣本；對照組：50例不患此癌癥的樣本。本文使用的差異分析平臺是R語言，篩選標準為adjpvalue<0.05和 |log-f old ch ange|>2。從原始數據中總共篩選得到6527個顯著差異基因，用于單樣本網絡的構建。根據Networ kAnalyst對基因數據進行分析與排序獲得的差異表達基因結果，從中選取前5000個顯著差異基因作為后續的實驗數據。

2 方法

本文對癌癥基因的亞型識別使用構建基因樣本網絡的方法，根據對樣本網絡結構的相似性進行聚類。使用聚類得到的類型與樣本原始的亞型標簽進行比較，最終依據聚類指標評判構建基因樣本網絡的方法。具體步驟分為三步，樣本特異性基因網絡的構建；邊緣信息矩陣的構建；聚類分析。

2.1 樣本特異性基因網絡的構建

樣本特異性網絡，即單樣本網絡，是一種基于參考數據集的利用單樣本數據構建的生物分子網絡，它是一種將復雜網絡的理論和方法應用于疾病的研究和藥物的開發的方法，可以從系統的角度識別個體疾病所涉及的相互作用或功能失調［11］。

在基因相關性比較中，基因對之間的直接相關系數并不一定可以不受影響地表示基因對間的相關性，因為基因之間的關系很復雜，其往往受到大量其他基因的影響。而偏相關系數可以看做不考慮其他基因影響，單獨研究兩個基因之間相互關系的密切程度。因此，本文參考P-SSN模型，使用偏相關系數計算基因間的相關性。簡單舉例，若三個基因相互作用，設為G1,G2,G3。如要分別計算基因對之間的相關性，就不得不考慮第三個基因帶來的影響，此時可以運用偏相關系數。G1與G2的偏相關系數可以通過G1與G3線性回歸得到的殘差R G1，G2與G3線性回歸得到的殘差RG2來求出G1與G2,的相關系數［13］。

對任意基因X，Y和Z，在正常樣本對應的基因表達矩陣，即參考矩陣，中的表達向量記為XT=(x1,x2,…,x m)，YT=(y1,y2,…,y m)和ZT=(z1,z2,…,z m)，其中m表示正常樣本的數量。我們利用偏相關系數，計算在變量Z的影響下，X和Y之間的相關性，計算如下：

GHM分析表明，以乳企為核心的縱向一體化不符合資源配置的規律，導致利益分配向更加不利于奶農的方向發展，養殖者的投資激勵不足，退出速度加快。如果我們認為中國的乳制品供給不能完全依靠國際市場、乳業發展帶來的就業崗位彌足珍貴，就要扭轉以乳企為核心的縱向一體化政策，確立奶農在乳業政策中的核心地位，以保障中國乳業的長遠健康發展。改進的思路是將談判力賦予專用性投資更多的一方，拓展養殖者的外部選擇權；同時，要完善競爭機制，在推動“以乳企為核心的縱向一體化”的同時，也給養殖者及其合作社為核心的縱向一體化留出政策空間。

對于每一個癌癥樣本，將其加入參考矩陣中。類似的，我們可以計算出：

表示該癌癥樣本對應的特異性基因網絡中基因X和Y之間的關系。根據上述步驟，可計算出所有癌癥樣本對應的單樣本顯著基因網絡，記為：

其中n表示癌癥樣本的數目。

2.2 邊緣信息矩陣的構建

以SS N j(j=1,2,…,n)為基礎，將所有單樣本特異性網絡中的基因對編號，構建邊緣信息矩陣，記為M=(m sj)N×n，其中N表示所有網絡中的基因對數目，m sj={ }0,1。若S SN j中存在基因對s，則msj=1，否則m s j=0。

為了更好地確定邊信息對于癌癥亞型的貢獻度，我們通過計算每個基因對的信息熵分析了其所提供的信息量，計算公式如下：

通過上述信息熵公式可知，以-logp(msj)作為信息量，表示事件出現的概率所包含的信息，由于p(m sj)<1，因此以-logp(msj)作為信息量的值必為大于0的值，選擇信息熵較小的基因對作為樣本特征。同時為了比較不同特征對于癌癥亞型識別的有效性，我們計算n個單樣本網絡S SN j(j=1,2,…,n)中所有基因的度，并將其作為樣本的特征。

3 聚類分析

對于不同方法得到的特征，均利用歐式距離計算樣本間的距離，進而得到樣本相似性矩陣。利用相似性矩陣對樣本進行聚類。本文使用層次凝聚聚類法,該聚類法聚類比較快速，能夠辨別出干擾信息，并且能夠識別出信息，對需要聚類的數據做出相關的劃分與處理。為了評估使用不同特征對樣本聚類結果的性能，我們使用三個指標進行評價，分別是RI（rand index），ARI（ad?justed rand index）和NMI（normalized mutual infor?mation）。

用C表示實際的類別劃分，K表示聚類結果。定義a為在C中被劃分為同一類，在K中被劃分為同一簇的實例對數量。定義b為在C中被劃分為不同類別，在K中被劃分為不同簇的實例對數量。則其中，n表示實例總數，顯然，RI的取值范圍為[0,1]，值越大說明聚類效果越好。但是，RI無法保證隨機劃分的聚類結果的R I值接近0。

ARI是RI的一個改進版本，總的來說RI是通過計算兩個簇之間的相似度來對聚類結果進行評估。而A RI是對R I基于概率正則化的一種改進，其取值范圍為［-1，1］，A RI取值范圍為［-1，1］，越高的值表示聚類性能更好。。

NMI通過計算聚類結果和真實結果的互信息，衡量分布的差異性。NMI取值范圍為［0，1］，值越大說明互相之間的信息量越小，聚類結果越接近于真實結果。它可以通過公式：

計算，其中H(·)代表某一個類的熵值，I(X;Y)代表X和Y的互信息。

4 基于不同特征的聚類結果比較

對于疾病的亞型識別，關鍵在于基于樣本的特征對樣本進行聚類，因此，特征的選擇直接影響亞型識別的準確性。為了評價構建單樣本基因網絡后聚類的優點，本文直接使用樣本的全部基因表達數據作為對照組的特征（OF，original fea?ture），然后使用歐式距離法計算樣本相似性，比較兩者的聚類指標。其中單樣本網絡構建后的特征選擇又包括三種不同的特征選擇方法：單樣本網絡邊緣矩陣（SNE，single sample network edge matrix）、基于信息熵篩選邊緣矩陣（EEM，entropy-based edge matrix）和基于單樣本網絡中基因的度（DSN，degree of genes in single sample net?work）作為樣本特征。我們對基于信息熵篩選的邊緣矩陣作為特征，構建的樣本相似性網絡，繪制聚類熱圖（圖2），我們發現樣本具有明顯的聚類特性，從大類上可以分為兩大類，與真實的亞型結果相似。

圖2 樣本的聚類熱圖

比較四種不同的特征下的聚類結果，如圖3所示。通過比較原始特征和基于單樣本特異性網絡構建的特征，我們發下，無論是基于邊緣矩陣，信息熵篩選的邊緣矩陣，還是基于網絡中節點的度，均比原始特征具有較好的亞型識別性能。原始特征聚類結果較差，主要原因是真正對亞型識別起作用的基因數目往往比較少，是一個全部基因進行計算，引入了太多噪聲，稀釋了真正的信號。而通過考慮樣本的特異性信息，構建單樣本網絡，從基因間相互作用的系統性角度，可以有效地捕捉到樣本的關鍵信息，對樣本的亞型識別具有積極的作用。

圖3 不同特征下聚類結果比較

5 結語

本文考慮樣本特異性信息，通過構建單樣本特異性網絡，分析樣本網絡的特性，從網絡角度發現樣本間的相似性，提取特異性信息用于樣本聚類，進一步識別疾病亞型。通過與使用原始特征進行聚類的結果比較，我們發現，基于單樣本特異性網絡提取的特征進行聚類的結果與真實亞型的結果更接近。因此，在疾病亞型識別方面，考慮疾病樣本的特異性信息將有助于亞型精準識別。