胡 珂,劉 冰
1中國科學院自動化研究所腦網絡組研究中心,北京 100190;2北京師范大學認知神經科學與學習國家重點實驗室,北京 100875
非侵入性人類神經成像技術(如MRI)已經成為一種量化體內大腦結構和功能各個方面的有力工具,促進了我們對大腦宏觀神經表型的理解[1]。MRI越來越多地應用于研究各類神經和精神疾病,為這些疾病中大腦結構和功能改變的區域模式提供了詳細的解剖學特征[2-3]。然而,由于目前MRI方法有限的時空分辨率和獲得的信號的生物物理特性,由此產生的影像衍生表型(IDPs)僅提供了病理機制的間接測量,對腦組織的潛在分子和細胞特性缺乏特異性[4]。
近來的研究越來越強調基因表達等微觀屬性是如何影響這些IDPs的[5-7]。越來越多的證據表明,遺傳學在塑造大腦的組織方式方面發揮著重要作用[6-8]。遺傳力研究表明,許多IDPs具有高度的遺傳性[9-11],全基因組關聯研究(GWASs)已經發現了單核苷酸多態性與大腦結構、功能和連接等不同測量之間的數百種關聯[12-13]。這些研究的一個常見假設是在GWASs中發現的這些DNA變異會影響蛋白質的表達和功能,從而改變細胞功能并最終引起影像學表型的變化。然而,多種環境和其他因素都有可能影響基因的轉錄活性及其隨后的蛋白質產物豐度[14-15],因此DNA變異也存在著一定的間接性,其可能影響表型變異的分子機制尚不清楚。相比之下,基因表達研究則可以更直接地測量基因的轉錄活性。在過去十年中,高通量組織處理和分析流程的進步促進了全腦基因表達圖譜的開發[16]。通過結合神經影像和轉錄組學數據,影像轉錄組學在分子組織和宏觀的大腦IDPs之間架起了一座橋梁,為研究基因表達的空間模式如何與健康和疾病中的大腦結構和功能的解剖變化相關提供了新的機會[6]。
在本綜述中,我們首先介紹了影像轉錄組學領域廣泛使用的基因表達數據集,以及數據處理的基本步驟和常用的工具箱;其次,我們概述了將基因表達數據與影像數據相關聯的基本工作流程和三大類分析方法;最后,我們總結了影像轉錄組學的具體應用和進展,并對未來的研究方向進行展望。
艾倫人類腦圖譜(AHBA)[16-17]是人類大腦轉錄組圖譜和詳細解剖注釋的第一個示例,于2010年發布,至今仍是同類數據集中空間覆蓋最全面的數據集,提供了一個將大腦轉錄組學與神經影像數據相結合的獨特機會。AHBA是一個免費訪問的多模態數據集[18],源自對從6個健康成人供體獲得的組織樣本進行的批量微陣列分析,在大腦MRI立體定向空間中的3702個不同的樣本中提供了超過20 000個基因的表達數據,樣本分布在大腦的皮層、皮下、腦干和小腦區域。研究人員對6個AHBA供體中的不同大腦區域進行了采樣,以最大限度地擴大空間覆蓋率。憑借其卓越的分辨率,AHBA為影像轉錄組學領域的出現做出了重大貢獻[6]。
自AHBA發布以來,研究者已經開發了多個軟件工具箱進行轉錄組數據的基本處理[19-21]。許多研究小組選擇為AHBA開發自己的處理流程[5]。然而,由于沒有用于處理影像轉錄組數據的領域公認標準,因此生成的處理流程在不同研究組之間存在很大差異。過去十年的神經影像學研究表明,數據處理方法的不同會對使用結構MRI[22]、彌散MRI[23]、任務態fMRI[24]和靜息態fMRI[25]進行的分析產生廣泛的影響。為了建立起AHBA數據處理的標準工作流程,以確保一致和可重復的結果,有學者在2021年開發了一個開源的Python工具箱abagen[26],致力于使其成為影像轉錄組學研究通用的基礎社區工具。abagen將所有可能的處理參數集成到一起,并針對靈活性和易用性進行了優化,簡化了ABHA的處理和準備工作,以便后續與神經影像數據進行整合分析。
具體來說,為了將轉錄組與神經影像數據聯系起來,需要通過一些程序對轉錄組數據進行處理,主要包含以下6個核心步驟:(1)基因注釋:探針到基因的重注釋;(2)數據過濾:過濾信號強度沒有超過背景噪聲的探針;(3)探針選擇:當多個探針注釋到同一個基因時,可以選擇代表性探針或計算一個基因的所有可用探針的平均值;(4)樣本分配:把組織樣本映射到影像數據中的感興趣區域;(5)考慮到基因表達存在個體間差異和離群值,對數據進行標準化;(6)基因過濾:去除6個大腦中表達不一致的基因,并根據研究問題選擇感興趣的基因(表1)。經過以上的處理步驟,我們最終可以得到一個腦區×基因的表達矩陣,用于結合影像數據進行區域分析。以上每個處理步驟都有不同的方法和參數選擇,已被集成到abagen工具箱中,以促進未來研究的標準化。

表1 轉錄組數據處理步驟和方法Tab.1 Transcriptomics data processing steps and methods
轉錄組數據集的一個流行應用是將基因表達數據與影像數據測量的大腦結構或功能的某些特性相結合,并通過檢驗兩者之間的空間相關性來探索可能的關聯[21,28-39]。這種方法的主要目標是識別具有區域表達空間模式的基因,跟蹤特定神經影像生物標志物的解剖變異。通常,這些分析首先將來自AHBA的基因表達數據與神經影像映射到一個共同的神經影像空間。然后,一個或多個神經影像生物標志物與每個區域中數千個基因的表達值通過多元統計技術(例如,偏最小二乘回歸)進行相關。接著,根據空間對齊程度對基因進行排序,提取出排名靠前的基因進行富集分析。與參考集(如:整個基因組)中的注釋數量相比,當這些排名靠前的基因中存在相當多的基因有特定的基因注釋(如:生物或分子通道)時,則認為這些基因富集于該注釋。由于排名靠前的基因與感興趣的大腦影像特征密切相關,我們可以通過這種富集注釋的間接方法來假設這些潛在的細胞和生物通路可能是特定神經影像特征的基礎(圖1)。
至此,我們較為完整地介紹了在影像轉錄組學研究中常用的分析流程之一。實際上,根據研究問題的不同,影像轉錄組學的分析方法通常分為三大類(圖2)。第一類分析關注區域的基因表達模式,即前述的方法,旨在檢驗基因表達的空間變化與解剖學定義的不同空間位置的IDPs之間的相關性。特別地,當應用于腦疾病時,可以通過將病例和對照組中給定IDP的空間圖進行比較產生一個差異圖,然后將該差異圖與感興趣基因的表達模式進行空間相關,從而得到給定IDP的轉錄相關性。第二類分析考慮相關的基因表達,它量化了一組基因在成對的大腦區域之間的轉錄相似性,產生對稱的區域×區域矩陣(類似于功能連接矩陣)。然后,相關的基因表達可以與在大腦區域對水平上定義的IDPs相關,例如結構或功能連接[11,40-42]。第三類分析檢驗基因的共表達,它量化跨大腦區域的基因對之間的相關性,從而產生對稱的基因×基因矩陣。基于這些基因×基因矩陣的一些衍生特征已被計算并與IDPs相關[43-44]。
以上這些分析中需要考慮的一個重要因素是神經影像和基因表達通常會表現出一定程度的空間自相關,這意味著不同大腦區域之間的影像特征或基因表達值不是相互獨立的,而是存在著依賴關系,該依賴關系隨著距離衰減。即與物理上相距較遠的區域相比,相距較近的區域之間的基因表達更強烈相關[45-46]。因此,有研究提議通過空間限制的零模型來考慮這種空間自相關[47]。在對影像數據和基因表達數據進行相關性分析時,基于參數化的變異函數模型[48]或者基于空間置換[49]來生成保留空間自相關的代替腦圖;在這些置換腦圖上計算基因表達矩陣來和影像數據進行相關,可得到一個相關系數的經驗分布;若真實的r值落在該經驗分布的95%CI內,則認為相關性是顯著的(圖3)。這種做法可以大大減少假陽性結果,從而確保結果的有效性和可靠性。
過去十年中,研究人員進行了數十項研究,檢查了基因表達與一系列宏觀大腦影像特征之間的關系,包括皮質厚度[34]、髓鞘化[45]、大腦發育成熟度[50-51]、大腦結構網絡[52-54]、大腦功能網絡[40,55,56]和人類認知[57-58]等。另外,影像轉錄組學研究還強調了全腦基因表達在理解神經發育、精神疾病和神經退行性疾病中的重要性,越來越清楚的是,轉錄通路在形成疾病進展和突發癥狀的更廣泛動態方面發揮著關鍵作用[59-67]。
與年齡相關的皮質結構和功能變化與正常的大腦發育有關[68],皮質變薄被認為是皮質成熟的形態學標志[69]。為了闡明正常和異常神經發育中發生的大腦變化的分子相關性,影像轉錄組研究使用特定細胞類型標記基因的表達譜來識別這些IDPs的細胞相關性。例如,一項對細胞類型標記的分析發現,在青春期中期(平均年齡14歲),通常用于衡量髓鞘含量的磁化轉移率的區域變化與CA1錐體和室管膜細胞有關,但與髓鞘化無關[70]。考慮到CA1錐體基因集富集了與樹突組織相關的基因,該研究認為,大腦中磁化轉移率的變化可能與樹突樹枝狀結構的區域差異有關。但從青春期中后期開始,磁化轉移率的后續縱向變化與少突膠質細胞標志物和參與髓鞘形成的基因的表達有關。
此外,影像轉錄組學的方法已被應用于重度抑郁癥[71]、自閉癥譜系障礙[72]、注意缺陷多動障礙[73]和精神分裂癥[63]等各類精神疾病中。使用形態相似性網絡[74]或結構協方差網絡可以間接評估大腦連接,這些網絡可以量化形態測量的區域間耦合。精神分裂癥病例和對照組之間的區域平均形態相似性差異已被發現與調節突觸信號、神經系統發育和腺苷酸環化酶調節G蛋白偶聯受體信號通路的基因表達有關[63]。用彌散MRI量化的精神分裂癥的區域白質連接異常與通過GWAS識別的精神分裂癥相關基因的空間分布顯著相關[60],提供了結構風險變異、基因表達和疾病中連接的宏觀改變之間的直接聯系。值得注意的是,雙相情感障礙的連接變化與雙相情感障礙相關風險基因的表達有關,但與精神分裂癥無關,這表明這些關聯具有一定程度的診斷特異性。
對于亨廷頓病[61]、阿爾茲海默癥[75]和帕金森病[59]等神經退行性疾病,轉錄組數據可用于識別神經退化區域易感性的分子相關性,并幫助我們理解疾病是如何在大腦中發展的。細胞類型特異性標志物分析表明,與健康被試者相比,阿爾茲海默癥患者的皮層厚度減少與CA1錐體細胞、星形膠質細胞和小膠質細胞的標記基因的表達譜有關,這些基因組與年齡相關的皮層厚度變化和精神疾病有關。此外,與小膠質細胞基因共表達的基因顯著富集了阿爾茲海默癥風險,提供了與疾病病因的直接聯系,并暗示了神經炎癥的關鍵作用[76]。
影像轉錄組學為揭示大規模宏觀腦影像學特征的分子基礎提供了前所未有的機會。本文主要概述了影像轉錄組學的數據處理流程和主要分析方法,以及該領域在近二十年來的應用和進展。與僅使用神經影像數據的研究相比,影像轉錄組學研究將基因表達數據與影像衍生的表型聯系起來,使人們更好地理解了神經精神疾病和大腦神經發育過程中假定的生物機制。
影像轉錄組學在識別臨床相關IDP的分子相關性方面有著很大的潛力,但該領域處于新生階段,必須克服一些方法學上的挑戰以確保研究結果的穩健性。例如,基因表達數據處理步驟中的不同選擇會影響后續的統計推斷和研究結果,最佳處理參數可能會因研究問題而異,目前還無法準確說明哪些處理選項對于AHBA是最佳的;由于組成AHBA的樣本數量有限,因此無法詳細研究基因表達的個體差異;除了考慮空間自相關外,還應通過隨機選擇與假設集相同大小的隨機基因子集來對基因特異性進行顯著性檢驗。隨著該領域的快速發展,一方面需要標準化的數據處理流程,建立方法指南以確保一致和可重復的結果,另一方面需要檢查這種方法的有效性,以捕捉基因表達、細胞和宏觀神經影像表型之間的間接關聯。新的技術發展正在推動新的轉錄組數據庫的創建,結合現有方法的改進,未來的研究可以與越來越全面和精確的轉錄組圖譜數據相結合,例如,來自PsychENCODE等聯盟的功能基因組學數據[77],早期人類大腦發育的單細胞轉錄組圖譜[78]以及跨物種研究的比較轉錄組學數據集[79]等,有望在整個生命周期和更多個體上進行測量。未來需要做更多的工作來擴大現有的轉錄組數據:更多的供體,覆蓋整個大腦的單細胞數據,以及特定疾病的大腦轉錄組數據。這些數據將轉化為新的機會,使人們能夠更加深入地了解大腦組織,為研究大腦變化的分子相關性提供一個強大可靠的框架,從而將大腦障礙的宏觀表型與疾病生理病理學模型聯系起來。