999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

腫瘤微衛星不穩定檢測方法綜述①

2018-10-24 11:05:52李曉東何小雨李瑞琳牛北方
計算機系統應用 2018年10期
關鍵詞:檢測方法模型

陳 瑋, 趙 丹, 李曉東, 何小雨, 李瑞琳, 牛北方,3

1(中國科學院 計算機網絡信息中心, 北京 100190)

2(中國科學院大學 計算機與控制學院, 北京 100049)

3(貴州大學 醫學院, 貴陽 550025)

微衛星, 即短串聯重復序列, 是廣泛分布在真核生物基因組中的(原核生物基因組中也有少量分布), 以1-6bp為一個重復單元, 重復次數不超過60次的DNA序列. 人類基因組中有數以萬計的微衛星位點,這些微衛星位點近似均勻地分布在各個染色體上, 所有的微衛星序列約占整個基因組的3%. 微衛星按照重復單元的大小可分為單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重復;按照重復序列的結構可分為簡單重復(由單一重復單元構成)和復合重復(由重復單元不同的多個重復序列構成). 與DNA中的其他區域相比, 微衛星區域具有較高的突變率[1]. 其高突變率的直接表現是高度的多態性[2], 即不同個體之間或正常組織與腫瘤組織之間, 微衛星位點重復單元的重復次數存在差異. 由于微衛星位點的分布廣泛性及高度多態性, 微衛星常用于個體鑒定、連鎖圖譜的繪制以及腫瘤發生機制的研究.

微衛星不穩定(Micro Satellite Instability, MSI), 是指微衛星位點重復單元的重復次數出現波動的現象,即重復單元的插入與刪除. 現普遍認為這種現象是由DNA在復制過程中出現“鏈滑”(strand slippage)引起的. DNA在復制過程中, DNA聚合酶沿模板鏈滑動,子鏈與模板鏈會發生局部分離和重新配對. 在重新配對的過程中, 子鏈與模版鏈發生錯配, 就會導致一個或幾個重復單元形成凸環. 一般情況下, 這種錯誤會被DNA的錯配修復系統(Mismatch Repair, MMR)修復,然而, 當MMR中的相關基因由于啟動子超甲基化或基因突變等原因出現故障, DNA復制錯誤無法被修復,一些微衛星位點重復單元的重復次數發生波動, 進而發生微衛星不穩定[3]. 不同的微衛星位點穩定性不同.微衛星重復單元的大小、重復單元的堿基組成、重復序列的結構及重復次數等都會在一定程度上影響位點的穩定性. 根據微衛星不穩定的程度, 可以將MSI分為MSI-H (MicroSatellite Instability High), MSI-L(MicroSatellite Instability Low)以及MSS(MicroSatellite Stable).

1993年, Aaltonen等人首次在家族性遺傳性結直腸癌(Hereditary Non-Polyposis Colorectal Cancer,HNPCC)中發現高頻率的MSI[4]. 微衛星不穩定在大約15%的結直腸癌以及90%的林奇綜合癥(HNPCC,又稱Lynch Syndrome)中起決定作用[5]. 近年來的研究表明, MSI對林奇綜合癥以及結直腸癌的診斷、預后以及化療敏感性有重要的意義. 除了結直腸癌, 研究人員也相繼在子宮內膜癌、卵巢癌[6]、胃癌以及乳腺癌[7]等疾病中發現MSI. MSI作為腫瘤遺傳不穩定的敏感指標, 其檢測對于腫瘤的早期診斷、預后判斷、化療敏感性判斷以及高危人群的圈定等具有重要意義. 已有不少研究發現MSI-H的腫瘤患者相對于MSS的腫瘤患者有更好的預后[8,9], 同時MSI-H腫瘤患者對不同化療方法的敏感性也表現出差異[10].

目前, 臨床上主要采用MSI-PCR以及MMRIHC的方法進行微衛星不穩定的檢測. 然而, 近年來,隨著下一代測序技術(Next-Generation Sequencing technology, NGS)的飛速發展, 測序價格以超越摩爾定律的速度急速下降, 測序速度也大幅提升, 這使得方便快捷地獲取測序數據成為可能. 目前已有多個通過分析測序數據來檢測微衛星不穩定的軟件方法.

下文將從基于生物學實驗的方法和基于計算的方法兩個角度來介紹現有的微衛星不穩定的檢測方法.

1 基于生物學實驗的方法

當前臨床上主要采用聚合酶鏈式反應(Polymerase Chain Reaction, PCR)或免疫組織化學(Immuno Histo Chemistry, IHC)染色的方法檢測患者的MSI狀態.

MSI-PCR[11]通過對腫瘤組織和正常組織中選定的微衛星位點進行PCR擴增及凝膠電泳, 通過比較兩組電泳結果的差異來確定MSI的狀態. 然而人類基因組中有數以萬計的微衛星位點, 不同的位點對于檢測MSI的敏感性和準確性也各不相同. 為了標準化MSI的檢測, NCI (National Cancer Institute)于1997年推薦了Bethesda指南[12], 該指南推薦了兩個單核苷酸位點(BAT-25, BAT-26)以及三個二核苷酸位點(D2S123, D5S346 和D17S250)作為檢測MSI的微衛星標記, 檢測結果中有兩個及以上位點出現不穩定為MSI-H, 一個位點出現不穩定為MSI-L, 沒有位點出現不穩定為MSS. 鑒于二核苷酸位點在對MMR故障的腫瘤患者的MSI檢測中, 敏感性和準確性不及單核苷酸位點, NCI又于2004年對Bethesda指南進行了修訂[13].與此同時, Bacher等人[14]通過對266個微衛星位點(其中包括單核苷酸、二核苷酸、四核苷酸以及五核苷酸微衛星位點)檢測的敏感性及準確性進行評估, 提出了Promega分析系統, 該系統使用五個單核苷酸微衛星位點(BAT-25, BAT-26, NR-21, NR-24和MONO-27)檢測MSI, 并使用兩個五核苷酸微衛星位點(Penta C和Penta D)標識樣本.

與MSI-PCR不同, MMR IHC通過檢測MMR蛋白(MLH1、MSH2、MSH6和PMS2)的表達來確定MMR系統是否發生故障, 進而判斷MSI的狀態. 然而并不能用MMR IHC完全替代MSI PCR, 因為在確定為MSI-H的腫瘤中, 有5%的腫瘤, 四種蛋白都表達,使用MMR IHC無法將其識別.

2 基于計算的方法

目前, 已有多個通過分析高通量測序數據檢測微衛星不穩定的方法及軟件. 從模型的角度可以將這些方法分為基于一般統計模型的方法和基于機器學習模型的方法. 其中, 基于統計的方法, 首先選取一個可以反映微衛星不穩定特點的指標, 然后在一組給定的樣本上(MSI的臨床檢測結果已知), 確定該指標與臨床檢測結果的一致性及分類閾值. 基于機器學習的方法,主要通過特征提取、特征選擇及分類器訓練的方法進行MSI狀態的預測. 不論是統計方法中的指標還是機器學習方法中的特征, 其選擇的主要依據是微衛星不穩定這一現象以及其背后的產生機制. 其中, 現象, 即測序數據中表現出的微衛星位點重復單元重復次數的波動, 其本質上是堿基的插入與刪除;產生機制, 即DNA錯配修復系統相關基因啟動子超甲基化或發生突變使得這些基因無法表達, 進而影響到錯配修復系統的功能. 因此, 基于計算的方法一般是通過對測序數據、超甲基化數據、突變數據以及基因表達數據進行分析, 確定MSI狀態的.

從樣本的角度可以將這些方法分為基于配對的腫瘤-正常樣本的方法和僅基于腫瘤樣本的方法. 第二種方法在缺乏與腫瘤樣本配對的正常樣本的情況下, 可以有效解決MSI的檢測問題.

表1從以上兩個維度對現有的方法進行了分類.

表1 MSI檢測方法分類

以下將從模型的角度分類介紹各個方法.

2.1 基于一般統計模型的MSI檢測方法

目前, 主要有以下四種基于一般統計模型的MSI檢測方法, 這些方法均是通過對測序數據的分析,從微衛星位點重復單元重復次數波動的角度出發, 解決這一問題的.

(1) 基于Indel的MSI檢測方法[18]

MSI中發生的重復單元的插入與刪除從本質上是小片段堿基的插入與刪除, 即Indel. Lu等人正是從這個角度出發, 將MSI的判定問題轉化為了微衛星區域的Indel變化問題.

對于每個樣本, 首先進行Indel識別, 其次對獲得的Indel進行過濾并保留位于微衛星區域的Indel. 通過在一組樣本(MSI臨床檢測結果已知)上對PI、PD以及PI/PD作為MSI判別指標進行t檢驗評估(其中PI表示微衛星區域insertion占所有insertion的比例, PD表示微衛星區域deletion占所有deletion的比例, PI/PD為二者的比率), 選擇了PI/PD作為樣本的MSI判別指標. MSI-H的樣本在該指標上的取值顯著低于MSS的樣本.

Lu等人僅提供了上述方法的工作流程并通過實際的數據驗證了該方法的有效性, 并沒有開發出相應的軟件工具.

(2) mSINGS[19]

mSINGS首先判斷每個微衛星位點的穩定性, 進一步根據不穩定的微衛星位點的比例來判斷樣本的MSI狀態. 對于每個微衛星位點, mSINGS試圖找到一個指標來量化其穩定程度, 并基于一組MSS樣本建立各微衛星位點該指標的參考值, 對于給定樣本的某個微衛星位點, 若該指標取值超出參考范圍, 則認為該微衛星位點不穩定. 通過這種方式, mSINGS解決了僅有腫瘤樣本情況下MSI的判定問題. 具體方法如下:

1) 對于任一微衛星位點, 以其等位基因的個數作為衡量該位點是否穩定的指標, 計算一組MSS樣本上,該位點等位基因個數的平均值作為參考值. 具體計算方法如下:

① 僅選擇在該位點測序深度大于等于30的MSS樣本參與計算;

② 對每個符合條件的樣本, 計算該位點等位基因的分布信息, 如表2所示;

③ 對每個符合條件的樣本, 規范化其等位基因的支持reads數:規范化的支持reads數=支持reads數/最大支持reads數;

④ 對每個符合條件的樣本, 過濾掉規范化的支持reads數小于5%的等位基因, 以剩余的等位基因數作為該樣本該位點的等位基因數;

⑤ 計算符合條件的樣本該位點等位基因數的平均值(該微衛星位點的參考值)及方差.

2)對于給定樣本, 采用與1)相同的處理方式, 對比1) 中建立的參考值, 根據3σ法則判斷其各微衛星位點的穩定性;

3)計算不穩定微衛星位點的比例以判定樣本的MSI狀態.

從上述mSINGS的方法介紹可以看出, 各微衛星位點穩定性指標的參考值是影響mSINGS準確性的重要因素, 而參考值的計算依賴于合理地選擇一組MSS樣本. 為了保證判別的準確率, 用于參考的MSS樣本與待檢測的樣本應該具有較好的一致性, 如測序、癌種方面的一致性. 在實際使用中, 常常需要自行建立參考值.

表2 等位基因分布信息

(3) MSIsensor[15]

與mSINGS相似, MSIsensor也是通過分別判斷每個微衛星位點的穩定性, 然后以不穩定微衛星位點的比例作為MSI得分. 不同的是, MSIsensor需要基于配對的腫瘤-正常樣本進行MSI的判定. 首先, 對于在腫瘤和正常樣本中測序深度均大于等于20的微衛星位點, 計算其等位基因的分布信息;其次, 通過卡方檢驗比較腫瘤和正常樣本的相同微衛星位點的等位基因分布, 若顯著不同, 則認為該微衛星位點不穩定;最后統計不穩定位點的比例, 若該比例超過閾值, 則判定為MSI-H, 其中, 閾值是通過該指標在一組樣本上(包括MSI-H和MSS的樣本)的累積分布確定的.

(4) MANTIS[16]

類似于MSIsensor, MANTIS也獲得了腫瘤-正常配對樣本在每個微衛星位點的等位基因分布信息;與MSIsensor不同的是, 對于每個微衛星位點, MANTIS把上述兩組數據看作兩個向量, 定義這兩個向量的L1范數為樣本中該位點的穩定程度, 對所有位點的L1范數求平均值即為樣本的MSI得分. 具體方法如下:

對于每個微衛星位點,

1)僅保留讀長、測序質量符合要求的比對到該位點的reads;

2)分別計算配對的腫瘤-正常樣本中該位點的等位基因分布;

3)根據3σ法則, 過濾掉配對的腫瘤-正常樣本在該位點支持reads不足的等位基因;

4)經過上述處理, 僅保留在配對的腫瘤-正常樣本中支持reads總數(該位點的測序深度)均超過一定閾值的微衛星位點.

5)分別規范化腫瘤-正常樣本該位點等位基因的支持reads數:規范化的支持reads數=支持reads數/該位點的總支持reads數;

6)根據規范化后的支持reads數, 計算配對的腫瘤-正常樣本中該微衛星位點等位基因分布的L1范數;

7)以所有位點L1范數的平均值作為樣本的MSI得分.

MANTIS對參與計算的數據進行了相對嚴格的質量控制, 如上述流程中的1)、3)及4)步驟. 由于測序過程中總會產生誤差和錯誤, 通過質量控制, 僅使用符合要求的數據參與計算, 可以在一定程度上提高后續分析的準確性.

上述基于一般統計模型的MSI檢測方法通過設計一個MSI判定指標, 在一組樣本上, 使用累積分布等方式, 確定該指標的閾值, 實現對MSI狀態的檢測.MANTIS一文從MSI判定的準確性及計算資源使用兩個方面對mSINGS、MSIsensor以及MANTIS三種方法進行了評估, 閾值、用于分析的微衛星位點的數量以及癌種都會影響軟件的準確性. 盡管在敏感度和特異度方面有細微差異, 三個軟件工具均可以準確的檢測樣本的MSI狀態. 然而, 不同于mSINGS和MANTIS, MSIsensor沒有對等位基因分布中的支持reads數進行規范化以及質控, 在配對的腫瘤-正常樣本測序深度不同的情況下, 可能出現假陽性的結果.

2.2 基于機器學習模型的MSI檢測方法

目前, 基于機器學習模型的MSI檢測方法主要有以下三種. 特征和算法是機器學習的重要組成, 以下將從這兩個方面介紹各個方法. 關于每個特征的提取方式不在此贅述.

(1) MSIseq[20]

發生微衛星不穩定的樣本其單核苷酸替代(Single Nucleotide Substitution, SNS)率以及小片段堿基的插入與刪除(Indel)比率都會發生變化, MSIseq主要是從基因變異這一角度出發選取特征的. 備選特征如表3所示.

表3 MSIseq備選特征

在這些特征的基礎上, MSIseq使用五折交叉驗證分別基于LR、決策樹、隨機森林、樸素貝葉斯算法訓練了分類器并評估了性能, 最終選擇基于決策樹算法的分類器, 該分類器僅使用了S.ind這一個特征.

由于MSIseq提取的特征并不依賴于配對的腫瘤-正常樣本, 因此這一方法適用于僅有腫瘤樣本的情況.

(2) MOSAIC[17]

MOSAIC是基于對每個微衛星位點穩定性的判斷設計特征的. 除了與各微衛星位點穩定性相關的特征外, 還增加了通過在一組樣本上對所有微衛星位點的穩定性進行分析后發現的顯著不穩定的微衛星位點信息, 備選特征如表4所示.

表4 MOSAIC備選特征

其中, 微衛星位點不穩定性的確定采用高敏感度的方法, 數據處理過程與mSINGS相同, 不同點在于微衛星位點不穩定的判定不再依據3σ原則, 而是對于任意微衛星位點, 若腫瘤樣本相對于配對的正常樣本, 在該位點出現新增的等位基因, 即認為該位點不穩定.

MOSAIC分別基于決策樹和隨機森林算法訓練了模型, 最終選擇了基于決策樹算法的分類器, 該分類器僅使用了peak_avg以及defsite兩個特征 .

MOSAIC選擇的特征依賴于配對的腫瘤-正常樣本, 因此僅適用于有配對樣本的情況.

(3) MIRMMR[21]

與其他方法不同, MIRMMR的特征選擇主要依據MSI的發生機制. 使用了與DNA錯配修復系統相關的35個基因的點突變率、甲基化水平以及CADD[22]得分作為備選特征, 基于LR算法構造了分類器. 相比于MSIseq及MOSAIC, MIRMMR提供了更多的建模方法, 包括univariate、stepwise與penalized三種模式.其中univariate用于單變量的邏輯回歸建模, 可以用于比較各特征用于MSI判定的準確性;stepwise模式用于自動化的特征選擇, 從備選特征中, 選擇最優的特征集訓練模型;penalized模式在模型中增加了懲罰項用于防止過擬合. MIRMMR默認使用了penalized模式基于676個樣本訓練了模型. MIRMMR使用的特征不依賴于配對的腫瘤-正常樣本, 因此可適用于僅有腫瘤樣本的情況.

2.3 各方法的比較

針對上述提到的七種用于微衛星不穩定檢測的計算方法, 從適用范圍、MSI指標、測試數據集以及軟件特性等方面進行了比較, 具體如表5所示. 其中“—”表示無相關信息, WES (Whole Exome Sequencing)表示全外顯子組測序.

對于MSI的檢測, 表5中每個方法的輸出既可以是連續的MSI指標也可以是確定的分類. 其中基于一般統計模型的MSI檢測方法, 可以在連續的MSI指標基礎上, 根據閾值對樣本分類;基于機器學習模型的MSI檢測方法, 可以預測類別也可以輸出類別的概率.

從軟件易用性的角度分析, MSIsensor和MANTIS由于可以直接對BAM文件進行分析因此使用最為方便;而mSINGS在對樣本進行分析之前, 需要足夠的MSS樣本建立參考值, 對樣本量有一定要求,給使用帶來了一定程度上的不便;基于機器學習模型的方法, 雖然可以直接使用模型進行預測, 硬件資源使用少, 速度快, 但是特征的提取依然是一個復雜低效的過程.

不論是基于一般統計模型的方法還是基于機器學習模型的方法, 要準確地檢測MSI都離不開數據的支持, 測試數據集的大小和包含的癌種都會在一定程度上影響分類的準確性.

表5 基于計算的各方法比較

3 討論

隨著測序成本的下降和測序速度的提升, 計算方法相對于生物學實驗方法的優勢也越來越突出. 相比于計算方法, 通過生物學實驗方法檢測MSI有以下幾個方面的不足. 首先, 需要耗費一定的時間和人力;其次, 結果的準確性依賴于分析人員的肉眼判斷;再者,微衛星標記和MMR蛋白都有其局限性. 對于微衛星標記, 實驗中選擇的數量有限, 存在組織(腫瘤)特異性[23],無法準確地在多種腫瘤中檢測MSI狀態;對于MMR蛋白, 由于MMR可能不是引起MSI的唯一原因[24], 以及MMR自身的復雜性, 使用MMR蛋白的表達來間接判斷MSI狀態也存在局限性.

計算方法利用測序數據, 從MSI的表現及產生機制的層面, 可以對樣本的MSI狀態作出全面的評估. 相比于生物學實驗方法, 計算方法的眾多優勢使其可能在未來用于微衛星不穩定的臨床檢測. 在這個過程中,還需要考慮以下方面的問題. 首先, 數據支持. 不論是基于一般統計模型的方法還是基于機器學習模型的方法, 要確定合適的閾值或提高分類器的準確性都需要大量數據的支持. 其次, 軟件易用性. 軟件要易于安裝,其使用應該在最大程度上實現自動化同時運行時間需要在可接受的范圍內.

MSKCC(Memorial Sloan Kettering Cancer Center)最近的一項研究[25]使用MSIsensor對12 288例實體癌病人的靶向測序數據進行分析, 判定MSI狀態, 并用MSI-PCR/MMR-IHC進行了驗證. 實驗證明, 基于大規模靶向測序數據, 通過MSIsensor預測病人的MSI狀態具有高的可信度. 對于MMR故障的樣本, 相比于當前普遍使用的MSI-PCR方法,MSIsensor具有更高的敏感性. 根據2.3節的分析,MSIsensor使用C++語言開發, 安裝及使用十分便利,同時支持并行計算, 運行速度快, 方便臨床應用. 此項研究在一定程度上為該軟件工具的臨床應用提供了支持.

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲精品在线影院| av在线5g无码天天| 国产簧片免费在线播放| 亚洲第一视频网| 69免费在线视频| 亚洲swag精品自拍一区| 最新亚洲av女人的天堂| 操美女免费网站| 免费A∨中文乱码专区| 国产福利在线免费观看| 国产屁屁影院| 欧美区在线播放| 成人在线综合| 日韩二区三区| 国产精品亚洲精品爽爽| 99在线视频免费观看| 美女无遮挡免费网站| 精品剧情v国产在线观看| 日本手机在线视频| 99无码中文字幕视频| 欧美一区二区啪啪| 亚洲成人网在线观看| 亚洲精品视频在线观看视频| 永久免费无码成人网站| 日本午夜影院| 国产人人射| 色天天综合久久久久综合片| 国产伦片中文免费观看| 五月天香蕉视频国产亚| 日韩午夜福利在线观看| 欧美国产中文| 国产精品视频公开费视频| 99久久亚洲综合精品TS| 波多野结衣在线一区二区| 欧美日本二区| 久久亚洲美女精品国产精品| 99国产在线视频| 国产91高跟丝袜| 成人福利一区二区视频在线| 欧美日本在线一区二区三区| 欧美成人手机在线观看网址| 色综合中文综合网| 美美女高清毛片视频免费观看| 成人久久精品一区二区三区| 在线亚洲精品福利网址导航| 久久亚洲中文字幕精品一区| 色视频久久| 亚洲精品免费网站| 亚洲天堂网站在线| 欧美在线国产| 欧美成人国产| 天堂中文在线资源| 亚洲国产精品成人久久综合影院| 国产制服丝袜91在线| 国产精品99一区不卡| 亚洲五月激情网| 亚洲国产高清精品线久久| 内射人妻无套中出无码| 国产在线一二三区| 午夜小视频在线| 亚洲男人的天堂久久精品| 一级黄色网站在线免费看| 91美女视频在线| 免费看美女自慰的网站| 亚洲视频免费在线| 国产成人毛片| 亚洲高清资源| 熟妇丰满人妻| 欧美h在线观看| 999国产精品| 强奷白丝美女在线观看| 国产清纯在线一区二区WWW| 全免费a级毛片免费看不卡| 亚洲精品国产首次亮相| 在线免费无码视频| 波多野结衣一区二区三区AV| 一本一道波多野结衣一区二区| 中文字幕在线观| 国产主播在线一区| 亚洲性影院| 色婷婷成人网| 亚洲色大成网站www国产|