左德筠,王霄霄,王海霞*
(大連大學研究生學院,遼寧 大連 116622)
疾病會導致生物體液和組織中分子指紋圖譜發生改變,這些變化可以通過分析基因組、蛋白組或者代謝組的成分來衡量。蛋白質組學和代謝組學分析提供了檢測疾病發生的方法,基因分析能找出個體患某些疾病的傾向,并有助于評估長期風險。因此,直接測定基因、蛋白質和代謝物對于認識疾病和正常狀態的生物過程至關重要[1]。
代謝是最基本的生命活動,是機體最基礎的物質來源和能量來源,同時也與細胞的各種物質活動和功能密切相關[2]。代謝組學是生理病理等基礎研究的重要研究部分和內容。代謝過程處于生命活動的中端,即使在基因和蛋白質層面發生很微小的變化,這些微小變化都會在代謝層面放大,所以大家認為這些代謝這些代謝物的變化可以直接更靈敏的反應機體的狀態和體征改變,所以它是機體狀態很好的指征和指標。生物標志物是指某種疾病機體體液或者組織中過度表達的物質,可以是單核苷酸、核酸甲基化、mRNA、蛋白質或相關代謝小分子這些物質的變化與疾病特征相關。生物標志物可以用于檢測疾病生物學行為和預測臨床結果。生物標志物應該具有疾病特異性,并且受環境條件或生理因素干擾少。并且易于測量靈敏度和特異度要高。
發現新的代謝標志物的關鍵依賴于定量測定疾病組和正常對照組樣品中某些或某種代謝物的變化。疾病能引起機體組織和器官的病理變化,因此作為承擔細胞基本功能的蛋白質及其代謝小分子也會發生相應改變。這些改變可以體現在濃度、細胞的特定部位、相互作用和活性等方面的差異。代謝物的變化和某種疾病之間的相關性就需要進行精準的定量測量,這對于樣本具有一定的統計學意義。
代謝組學是對生物樣品多個組混合物的定量分析,描述生物體內多種代謝物質動態變化的新興科學,是系統生物學的重要領域。雖然蛋白質組學和基因組學的巨大進步為調節細胞生理過程及病理因素提供了大量的信息,但是深入研究生物系統的功能是通過代謝物濃度和通量來得到的。定量檢測基因轉錄蛋白質最終代謝小分子產物,為代謝途徑形成的生化網絡及其所發揮的功能提供了重要信息,為進一步闡明疾病的發病機制提供證據。
許多先進的分析的方法用于生物樣品的復雜混合物分析,包括血清、血漿、尿液、細胞和組織等。兩種最常用的方法是質譜(MS)和核磁共振(NMR)波譜。它們在代謝物鑒定和濃度測定方面提供互補。由于實驗應用的是質譜分析技術,因此在這里具體介紹MS分析。
MS具有高靈敏度(通常是皮克級)和數據采集速度,因此是代謝組學最常用的分析工具之一,它能檢測超過一千種代謝物特征。其鑒定手段主要基于保留時間、分子量和質譜碎片與純品的色譜圖和碎片信息的比較。近些年基于MS方法的研究大幅增長,MS技術包括四級桿、三重四級桿、飛行時間(TOF)、離子阱等質譜分析儀[3]。先進的軟件系統結合大量數據庫更易于代謝分子的測定。由于樣品成分太過復雜,在進行MS定量分析之前,通常先分離目標代謝產物。因此目前使用質譜常與分離技術相結合,如液相色譜(LC)和氣相色譜(GC)[4]。MS與色譜聯合使用的分析平臺的建立證明其在代謝組學中是有效的。
從MS獲得光譜數據是復雜的,需要用多元統計學分析方法。目前在代謝組學中,通過定量檢測體內小分子代謝分子水平以及相應的數據處理方法是主成分分析(PCA),邏輯回歸和偏最小二乘判別分析(PLS-DA)等相關方法。PCA是無監督的方法,常用與數據分析的初始階段。之后預測模型通常使用監督方法,一般常用PLS-DA建立一個基于矩陣X相對于矩陣Y的回歸模型,這個模型包括了每個樣本的類別信息[5]。邏輯回歸廣泛應用于生物醫學,它有助于選擇出疾病組和對照組區別地代謝物。PLS-DA模型一般采用交互驗證,即先在內部使用相同數據集,再在外部使用獨立數據集,這是為了避免過擬合。
我們可以采集疾病組和對照組樣本,應用質譜法對分析其血清中代謝產物;通過數據預處理、多維統計學分析(PCA、PLS-DA)在得到的代謝產物分子中選定差異有統計學意義的代謝產物分子,并對其進行單維統計學分析,隨后與已知代謝組數據庫(XCMS、Melin、HMDB)進行比較,得到具有顯著差異的分子式以及所代表的代謝物質名稱[6]。最后,將上述確定的差異代謝產物與已知代謝途徑庫比較,從中挖掘出與原發性高血壓相關的異常代謝物及代謝途徑即生物信息學分析[6],進行顯著性差異代謝物通路分析(KEGG通路),獲得相關代謝標志物。如圖:
基于MS定量代謝組學平臺的所有技術的迅速發展,如質譜分析、數據處理、數據庫搜索和實驗結果的生物學解釋,更方便于研究者使用代謝組學技術發現新的人類疾病相關生物標志物。但是,由于人體樣本具有異質性和數據平臺的不統一性,使得研究人員面臨巨大的挑戰。分析復雜樣品的最佳途徑是密切結合蛋白質組學和基因組學研究,開發綜合分析設施,以提高發現生物標志物的可信度,并得以進行驗證。所以自動化設備的創新和發展是MS應用于臨床代謝組學所必不可少的。