劉立婷++臧鴻雁++劉秀芹
摘 要:本文主要討論斑馬魚piRNA的預測方法。本文通過選取恰當的斑馬魚piRNA特征,使用SVM方法訓練正訓練集和負訓練集,然后利用5-fold交叉驗證去預測正負測試集。完成上述工作后,使用Python語言進行編程,模擬理論研究成果,使用測試集進行預測,得到敏感性為83.2%,特異性為74.6%,預測精度為78.9%。
關鍵詞:斑馬魚piRNA;支持向量機;預測
中圖分類號:Q74 文獻標識碼:A 文章編號:1671-2064(2017)12-0251-01
2006年7月,雜志Science和Nature均報道了一種最新發現的非編碼類小RNA[1],這些非編碼類小RNA主要分布于哺乳動物的生殖細胞中,經科學家們研究發現,這種小RNA可以與PIWI蛋白質之間相互結合而產生重大作用,被稱為piRNA。經過多年的研究,研究人員發現piRNA可以調控哺乳動物體內生殖細胞的生長和發育進程,從而對各種生物體產生重要作用[2]。因此,piRNA的預測能夠促進人們對piRNA生成過程和結構特點的認識,進一步研究piRNA的結構特點和功能特點,對腫瘤的診斷和治療,對新藥的研發提供了重要的科學理論依據。
1 數據來源
由于斑馬魚基因與人類基因的相似度程度高,而且容易獲取大數量的實驗數據,這樣可以有效的減少時間消耗和實驗成本,提高預測精度。
根據本文的研究目的選擇斑馬魚piRNA序列作為正集,斑馬魚非編碼序列作負集,因為使用同一物種的基因序列可以避免由于不同物種之間的同源性差所造成的結果偏差,提高預測精度。從http://www.regulatoryrna.org/database/piRNA/download.html下載斑馬魚piRNA序列,共1330692條。從http://www.noncode.org/download.php上下載了12836條斑馬魚非編碼序列。
2 訓練集與測試集
本文正集和負集序列均為1500條,這個數字是作者任意選取的,當然,可以通過多次試驗選取最合適的樣本條數。
從斑馬魚piRNA序列中隨機選擇1500條序列作為正集,其中2/3的序列(即1000條序列)作為訓練集,剩余的1/3序列(即500條序列)作為測試集。從斑馬魚非編碼序列中隨機選擇1500條序列作為負集,其中2/3的序列作為訓練集,剩余的1/3序列作為測試集。使用python編程統計了正集序列的長度為17-36,因此為了提高預測精度,負集序列的長度應該也在此范圍內。所以,編程實現了從負集的非編碼序列中隨機截取相似程度的序列作為試驗中用到的負集。
3 特征的提取
使用軟件Teiresias提取訓練集的特征。選項選擇為“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。經多次試驗,參數選擇為L=2,W=5,K=600,它表示1000條序列中有共同特征的至少有600條序列,長度最大為5的motifs中至少有兩個核苷酸[3]。
從訓練集的正集中共提取出了59條特征,從訓練集負集中共提取出了62條特征。去除提取出的motifs特征中的冗余特征后剩余62條特征,如特征“T..A”,“T”和“A”分別表示胸腺嘧啶和腺嘌呤,“T”和“A”之間的“.”表示任意核苷酸。
計算每個motif在每條序列中出現的頻數,構成了一個特征矩陣,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)為其中某一條序列的特征向量,其中第一個元素“3”表示在該序列中第一個特征“TG”的個數,第二個元素為第二個特征“TA”在該序列中的個數,之后的數字依次類推。
4 訓練和預測
在網址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下載libsvm。
首先,統計訓練集中每條序列的motifs頻數,使用python編程將統計的motifs頻數轉換成libsvm所接受的特征矩陣的形式,然后使用libsvm軟件包中的svm-scale.exe對訓練集特征矩陣train.txt進行標準化處理,對測試集進行同樣的標準化處理。
本文使用的訓練函數為RBF核函數。因為這個核函數可以非線性的映射到高維空間中,能夠處理類標簽和屬性是非線性時的關系,并且線性核函數是RBF的一個特殊情況。使用libsvm tools目錄下的grid.py來選擇參數,選擇結果為=512。0,=0。00390625,它的交叉驗證率為77.35%。使用得到的最佳參數對訓練集進行訓練,然后使用該訓練模型對標準化后的測試集進行預測。經預測,得到了測試集的預測結果為78.9%。
5 特異性和靈敏性
使用SVM訓練訓練集得到了預測模型來預測測試集中的序列,由于測試集中的序列分類是已知的,因此,本文使用已知分類和預測得到的分類結果求得特異性為74.6%,靈敏性為78.9%。
特異性表明500條斑馬魚非編碼序列被預測正確的概率是74.6%,靈敏性表明500條斑馬魚piRNA序列中被預測正確的概率是78.9%。預測精度為特異性和靈敏性的平均值,表示整個測試集中序列被預測正確的概率。
6 結語
本文使用高斯核函數(RBF)建立了一個斑馬魚piRNA的分類模型,由于斑馬魚piRNA序列和斑馬魚非編碼序列之間具有不同的特征,因此使用motifs特征可以識別斑馬魚piRNA序列和非編碼序列。然后統計訓練集中每條序列中motifs的頻數,構成特征矩陣。使用支持向量機對訓練集和測試集進行分類和預測,得到的預測精度為78。9%,其中特異性為74.6%,敏感性為83.2%。特異性和靈敏性結果表明,在提取特征過程中,負集的特征提取不完善,如果想要得到更高的預測精度,就需要提取盡可能多的特征。
參考文獻
[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,2006,442(7099):203-207.
[2]郭艷合,劉立,蔡榮,等.小 RNA 家族的新成員—piRNA[J].遺傳,2008,30(1):28-34.
[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,2012,7(3):e32797.