李榮遠 龍法寧
1(廣西師范大學計算機科學與工程學院 廣西 桂林 541004)
2(玉林師范學院計算機科學與工程學院 廣西 玉林 537000)
鑒定細胞類型及亞型成為scRNA-seq重要的應用之一,大量的半監督、無監督聚類方法被開發出來。基于聚類的分類方法假定聚類中所有細胞均屬于同一類型,因此可以進行集群標記。但這種假設通常是錯誤的,集群中除了主要細胞類型外,通常還包含少量占比的多種細胞類型[1]。常用的聚類算法如k-means、hierarchical clustering需要設置相應的類別數,其中類別數的設置對聚類結果影響較大。因此,一種無須先進行聚類就可對每個細胞進行分類的方法可解決該問題。ScRNA-seq測序技術由于本身技術噪聲、批次效應等問題,導致下游分析困難,且單細胞表達譜維度較高,至少上萬維,普通方法難以分辨細胞類型。超圖神經網絡能較好地處理大規模多模態數據集[2]。基于此,本文嘗試將特征工程結合超圖神經網絡應用于單細胞測試數據集上來證明方法的有效性。
繼《基因組計劃》后,Regev等[3]提出《人類細胞圖譜計劃》,該計劃旨在繪制人類眾多細胞類型及狀態。計劃描述出人類每個細胞,探索先前未知細胞,如研究細胞類型、細胞之間關系和細胞組成成分等,因此多種單細胞RNA測序技術(ScRNA-seq)蜂擁而至。目前主流的微流控技術有10X Genomics和微孔板技術[4]等,其測序通量較高,能對單細胞全長測序,基因檢測率較高。ScRNA-seq能測序出單細胞整個轉錄組的基因表達,方便各種方法進行細胞分類,識別細胞亞型,探索細胞的異質性[5]。
目前單細胞主流研究方向主要有:轉錄組學、基因組學和軌跡推斷[6]等分支。本文主要研究單細胞轉錄組方向,目前面臨一些挑戰,單個細胞轉錄狀態的所有表征能全面了解細胞內RNA的相互作用,但scRNA-seq觀測值零值較多,給定的基因中沒有唯一的分子標識符。例如,缺失率(Dropout)通常被描述為scRNA-seq數據中的零值,但是該項觀測通常將兩種不同零值類型混為一起。一是歸因于噪聲,其基因已經表達但未被測序技術檢測到的零值;二是歸因于生物學上真正的零值。不建議將Dropout作為觀察值為零的總稱[7-8],這些零值歸因于技術限制:可能是生物變異、細胞裂解和人工操作等因素。較多零值使高維數據變得稀疏,稀疏度取決于所用的scRNA-seq平臺、測序深度和基因自身表達水平。ScRNA-seq數據的稀疏性可能會阻礙下游分析,難以正確建模或處理,因此需要進一步開發新方法。M3Drop[9]實現兩種針對零值的處理方法。第一種方法適合于全轉錄組測序協議產生的數據;第二種適合數據集符合負二項分布ZINB(零膨脹負二項式)模型NBDrop,它能提取出具有較高零值的數據特征。兩種基于Dropout的特征選擇方法NBDrop和M3Drop均比基于方差的特征選擇方法好,但不適合小樣本量或高噪聲數據。
特征工程在總體預測性能中起關鍵作用,包括質量控制(刪除細胞、基因)、規范化處理、基因選擇(選高變異基因)或降維,對聚類或分類模型起關鍵作用。文獻[10]提出3種基因選擇方法及14種聚類算法分析。其中SC3[11]和Seurat[12]表現出最好結果,但SC3運行大數據集耗時較長,效率較低。Seurat在處理scRNA-sq數據集上效果較好,其中特征工程中選出高度變異的基因是其關鍵。文獻[1]提出scPred方法,這是一種新的可推廣方法,該方法結合基于降維的特征選擇和機器學習的預測方法,對單細胞進行高度準確的分類。但該方法局限于一些特定數據集,對多種單細胞測序平臺兼容效果差,分類準確率低。
基于超圖的思想在單細胞數據集方面應用較少,SAME[13]使用超圖將多種方法進行聚類集成,將聚類標簽作為輸入,從而構建一種共識機制。SAFE[14]集成四種最先進的聚類方法:SC3、CIDR、Seurat和t-SNE+k-means,該方法運行時間開銷較大。
基于標記的單細胞分類必不可少,超圖學習[15]在處理大規模數據集有較好效果。超圖處理復雜數據更靈活,HGNN根據超邊卷積學習數據之間的相關性,有效地進行傳統的超圖學習。超高維多模態數據符合這種模型處理[16],scRNA-seq數據集正是一種超高維數據集。
綜上所述,單細胞多核超圖分類整體流程如圖1所示。

圖1 單細胞多核超圖分類整體流程
(1) 數據預處理。收集多種平臺數據集,將單細胞數據經過預處理后,選出高度變異的基因(High Variable Gene,HVG)。
(2) 多核KNN圖構建。計算細胞之間各相似距離,根據距離構建各細胞K近鄰圖,將多核KNN圖合并為超圖。
(3) 構建超圖神經網絡學習HGNN(Hypergraph Neural Network)。通過點-邊-點特征表示,構建超圖學習分類器。
(4) 實驗對比驗證。采用多種數據類型進行驗證三種方法。主流分類方法有scPred、HGNN和HVG-MHGNN(Multi-kernel Hypergraph Neural Network based on High Variable Gene)。
ScRNA-seq測序平臺多樣,為驗證實驗方法,收集了多種類型數據。數據集主要來源conquer數據庫、10X、GEO、ArrayExpress。Trapnell、TrapnellTCC和Petropoulos來源于conquer。整理多種類型數據集工作量較大,一些作者只提供原始ATGC序列數據集,一般都是上百GB,普通平臺難以分析。本次收集作者處理過的基因表達值,最終形成count統計量類型數據。由于一些數據集作者標簽隱藏在數據庫中,需要查看作者原始論文人工提取標簽,以方便驗證。如Petropoulos數據集從88個人類植入前胚胎中獲得了1 529個單細胞RNA-seq,觀察胚胎從3天到第7天發育情況。其他數據集如表1所示。

表1 多種數據類型scRNA-seq數據集
單細胞數據預處理已開發多種優秀程序包,如scater質量控制,Seurat選出高變異基因(HVG)。Scater實現刪除低質量細胞及基因(零值、ERCC和pink-in),Seurat能選出高度變異的基因。這些預處理能使單細胞數據降低一定維度,但一般也接近上千維,接著用經典的PCA降維,scVI通過深度自編碼器學習達到降維作用,對不同的數據集有一定效果。本實驗為體現超圖在單細胞數據上的表現效果,只使用Seurat提取高度變異基因,進行超圖學習。
細胞之間的距離是聚類的核心關鍵,歐氏距離被廣泛應用于各分類和聚類方法中,但歐氏距離有一定的局限性,細胞聚類效果并不好。Pearson和Spearmam相關性對細胞分類或聚類效果較好,其范圍在[-1,1]之間,值越大,相關性越高,與距離成反比。本次使用式(1)和式(2)計算細胞之間的Pearson和Spearman相似距離。單一距離具有一定的偶然性,本次將三者進行結合,對構造超圖具有明顯的有效性。
(1)
(2)


圖2 細胞超圖表示
(1) 構建頂點和邊之間關系。
超圖頂點和邊之間的關系如式(3)所示,如果節點與節點之間相連接,用1表示,否則為0。
(3)
(2) 構建超圖目標函數。
考慮超圖每個頂點的下游分類問題,每個頂點的標簽應該能夠應用到超圖結構中,整個學習的目標函數用式(4)描述。
(4)
式中:Remp(f)表示監督的損失;f(·)表示分類函數;Ω(f)表示超圖的規范化,定義如式(5)所示。
(5)
(3) 通過超邊卷積獲取特征Y。
超圖卷積由兩個子模塊組成:頂點卷積子模塊和超邊卷積子模塊。頂點卷積將頂點特征集合到上邊緣,然后上邊緣卷積將相鄰的上邊緣特征集合到形心頂點。采用文獻[15]的方法提取卷積后的特征如式(6)所示。
(6)
式中:H表示節點到邊關聯矩陣;X表示節點的特征;W、Θ代表學習參數。
(4) 構建超圖神經網絡分類器。
將多模態數據劃分訓練集和測試集,根據多模態數據之間復雜的相關性構建多個超邊結構群,接著對超邊群進行相連得到超邊關聯矩陣H,將關聯矩陣H和節點特征輸入到HGNN,得到節點輸出標簽。HGNN實現點到邊再到點的特征轉換,有效提取超圖上的高階相關性,通過多層不斷學習經過Softmax得到預測標簽。
在本文的基因對象分類任務中,N個可視對象數據的特征可以表示為X=[x1,x2,…,xn]T。本文建立超圖根據兩個特征之間歐幾里得、Pearson和Spearman距離來計算d(xi,xj)。每個頂點代表一個細胞對象,每個超邊是由一個頂點和它的K個最近鄰構成,總共有N個超邊,每個超邊包含K+1頂點。因此,得到單個矩陣H∈RN×N,H中有N×(K+1)項等于1,其他的等于0;n個多核矩陣合并為H∈RN×nN。基因數據以圖形結構組織,每個超邊是通過連接一個頂點和它們的鄰居節點來構建鄰接關系。n個核得到n×N個超邊和H∈RN×nN。
基因數據預處理,是分類準確的關鍵,大部分處理scRNA-seq數據的步驟包括刪除少量異常細胞、刪除表達值為0的基因、0值占比大于一定量的基因,這些操作對一些方法有一定效果。本實驗直接對原始數據使用公認較好的Seurat方法選高度變異的基因。
具體步驟:創建Seurat對象(Create SeuratObject),不刪除細胞和基因。
規范化處理如式(7)所示。
X=log(X+1)
(7)
式中:X是表示基因表達矩陣,X值可以是原始counts或FPKM、TPM值;X+1是為了防止表達值為0時取log出錯。
根據離散度值(Dispersion)選出前10%基因(HVG),如圖3所示。

圖3 高度變異基因
選用Pollen數據集,其中基因23 730個,選擇高度變異的2 373個基因,如圖3灰點所示。并標記出排名前十的基因,如Spike1、HBG2等基因。
將基因數據集分兩類,訓練集70%,測試集30%。根據細胞兩兩之間的歐氏距離、Pearson和Spearman建立超圖:其中每個頂點代表細胞,每個超邊由細胞與細胞之間的K(K=10,15,20)個最近鄰連接。將預處理數據直接輸入超圖神經網絡進行學習,其中HGNN為兩層,使用Softmax生成預測標簽。
實驗使用不同測序技術平臺產生的8個數據集進行驗證,數據來源及描述見表1。其中scPred方法中,作者使用閾值為0.9能有較高準確率,但在本文數據集中,閾值設置0.9準確率較低。為提高準確率,本次實驗降低閾值,設置為0.7。所有HGNN訓練次數設置為600,學習率0.001。實驗結果如表2所示。

表2 多種算法在不同數據集上準確率的比較(%)
其中HGNN表示原始數據集直接經過HGNN處理;MHGNN為3種距離進行多核合并得出結果(其中Retina數據集較大,使用3種距離合并后進行超圖學習,需占用大量內存,導致內存溢出,這里只選擇歐氏距離和pearson距離);HVG-MHGNN是本文的方法,先選出高度變異的基因,再進行多核超圖學習(其中Sala數據集準確率較低,可能不適合分類研究,或者其先驗知識標注標簽不對)。根據四個實驗結果,HVG-MHGNN準確率在8個數據集中的5個最高,平均準確率最高。
實驗平臺采用WinServer 2019,處理器為E5-2620v4,2.10 GHz,內存為96 GB。多種算法在不同數據集上運行時間性能比較如表3所示,單位為秒。其中scPred使用R語言,HGNN采用Python的PyTorch。實驗中由于使用語言及多距離合并方式不同。scPred只能與HGNN能進行實驗對比,R語言在處理大型數據集時效率較低,Python讀取數據及運行速度較快,較大數據集應選擇Python處理更合理。MHGNN和HVG-MHGNN實驗結果對比顯示,MHGNN經過特征選擇后(HVG-MHGNN)運行效率較高。

表3 多種算法在不同數據集上運行時間性能比較 單位:s
多種單細胞RNA測序技術為識別細胞類型和細胞異質性提供便利。本文提出一種基于特征選擇(HVG)多核超圖神經網絡分類方法(HVG-MHGNN),對于超高維數據集,經過特征工程,然后根據多距離視角合并再進行HGNN特征表示學習對細胞分類準確率有較大提升。方法的合理性可從以下幾點思考:(1) 主流的分類方法scPred已證明在生物學和臨床場景中有很高準確性,但HVG-MHGNN與scPred對比,在相同數據集上分類準確率更高。(2) 多視角數據在單細胞測序成本上和采樣技術上有一定限制。從單視角數據多距離的角度考慮單細胞測序數據聚類有一定的合理性,本實驗結果已經證明MHGNN比HGNN準確率較高。(3) MHGNN在情感分析和鏈路預測已經有一定的應用場景,在單細胞測序數據上應用較少。
基于此,通過多種實驗平臺不同數據集證明了HVG-MHGNN方法的有效性。該方法雖在準確率有所提升,但在處理較大數據集時,超圖學習需要大量內存,這也是圖學習的一個缺點。從多視角收集單細胞數據是今后研究的一種主流趨勢,這更能給臨床帶來診斷的參考意義。后續將繼續研究超圖如何在單細胞轉錄組數據集進行聚類,以及如何處理大型數據集。