








摘要:由于單細胞和空間轉錄組技術都存在一定的不足,整合單細胞轉錄組和空間轉錄組技術應運而生。為提高單細胞矩陣到空間矩陣映射的相似度,降低損失函數值,通過改進深度學習Tangram 算法的目標函數,同時受龍格庫塔方法的啟發對優化算法Adam 的梯度值進行修正,開發了RK-Tangram 算法。將其應用到3 組模擬數據與真實的小鼠大腦皮質、運動和視覺區域的數據上,與原始Tangram 算法相比,結果表明,RK-Tangram 算法不僅提高了映射的相似度,降低了損失函數值,而且擴展了空間轉錄組的全基因組圖譜,并糾正了低質量的空間測量。另外,通過解卷積將空間轉錄組數據轉化為單細胞數據,提供了一個更高分辨率的組織類型圖譜。
關鍵詞:深度學習;梯度下降;解卷積;轉錄組
中圖分類號:Q 503 文獻標志碼:A
近年來,單細胞和空間轉錄組分析得到迅速發展——單細胞轉錄組測序(如scRNA-seq[1])、空間轉錄組技術(如ST/Visium[2],Slide-seq[3],SlideseqV2[4] 和HDST[5]) 以及靶向原位捕獲技術( 如MERFISH[6-7],smFISH[8],osmFISH[9],STARmap[10],SeqFISH[11-12],seqFISH+[13]),這些技術的進步為高分辨率空間圖譜的繪制開辟了道路[14]。單細胞轉錄組測序通過原位雜交和測序,在單細胞分辨率的水平上解析轉錄組,卻丟失了空間位置信息[2]??臻g轉錄組技術是基于空間條碼和測序的原位捕獲技術,在空間上解析轉錄組,對整個轉錄組進行空間條形碼標記,但捕獲率有限,且空間分辨率大于單細胞水平(提高分辨率又會造成大量信息丟失)[15]。靶向原位測序可在單細胞分辨率下生成固定細胞或組織的多重表達譜,它首先將mRNA原位逆轉錄成cDNA,再通過鎖式探針( padlockprobe)開展靶點識別和滾環擴增(RCA)。雖然靶向原位捕獲技術解決了空間位置信息丟失和分辨率低的問題,但受到通量的限制,每次測量的基因數僅數百個,如果增加探針的數量又會影響基因的準確性[10]。
目前也有了一些整合單細胞數據與空間轉錄組數據的方法:Cell2location 方法[16] 通過集成單細胞和空間轉錄組數據,以全面繪制組織細胞結構的貝葉斯模型;SPOTlight 方法[17] 使用非負矩陣分解和解卷積的方法,將ST 與scRNA-seq 數據結合, 推斷出復雜組織中細胞類型與位置信息。Tangram 算法[18] 通過單細胞表達矩陣預測空間表達矩陣,使用余弦相似度衡量預測的準確性。
Tangram 算法是一種深度學習算法,在單細胞分辨率上學習轉錄組的空間基因表達圖,并將這些圖與來自同一標本的組織學和解剖學信息聯系起來。通過單細胞矩陣與深度學習得到的映射矩陣來預測空間矩陣,并使用余弦相似度衡量預測空間矩陣與期望空間矩陣的相似度,使用損失函數衡量算法的整體損失大小,這里映射矩陣是通過Adam[19] 優化器進行深度學習獲得的。為了提高空間預測的準確性,更好地預測空間細胞類型,對損失函數進行改進。同時,受龍格庫塔方法的啟發,對Adam 中梯度值的計算進行線性加權修正,能夠提高當前時刻梯度值的可信度,因此,本文開發了RK-Tangram 算法。在給定的3 組模擬數據集上,與Tangram 算法相比,RK-Tangram 算法表現出更好的魯棒性,如:對不同類型的數據集,RK-Tangram 算法輸出更低的損失值和更高的余弦相似度。最后使用RK-Tangram 分析3 組真實數據:小鼠大腦皮質數據、運動和視覺區域的單細胞轉錄組數據,及來自上述3 組數據的同一組織切片的空間轉錄組Visium,Slide-seq 和MERFISH數據集。與Tangram 算法相比,RK-Tangram 收斂速度更快,預測更精準,預測的空間矩陣與期望的空間矩陣相似度更高,且解卷積的細胞類型分層更加明顯,更有助于生物學與病理學的研究,促進新的發現。