999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

斑馬魚piRNA預測方法的研究

2017-07-25 14:05:49劉立婷臧鴻雁劉秀芹
中國科技縱橫 2017年12期

劉立婷++臧鴻雁++劉秀芹

摘 要:本文主要討論斑馬魚piRNA的預測方法。本文通過選取恰當的斑馬魚piRNA特征,使用SVM方法訓練正訓練集和負訓練集,然后利用5-fold交叉驗證去預測正負測試集。完成上述工作后,使用Python語言進行編程,模擬理論研究成果,使用測試集進行預測,得到敏感性為83.2%,特異性為74.6%,預測精度為78.9%。

關鍵詞:斑馬魚piRNA;支持向量機;預測

中圖分類號:Q74 文獻標識碼:A 文章編號:1671-2064(2017)12-0251-01

2006年7月,雜志Science和Nature均報道了一種最新發現的非編碼類小RNA[1],這些非編碼類小RNA主要分布于哺乳動物的生殖細胞中,經科學家們研究發現,這種小RNA可以與PIWI蛋白質之間相互結合而產生重大作用,被稱為piRNA。經過多年的研究,研究人員發現piRNA可以調控哺乳動物體內生殖細胞的生長和發育進程,從而對各種生物體產生重要作用[2]。因此,piRNA的預測能夠促進人們對piRNA生成過程和結構特點的認識,進一步研究piRNA的結構特點和功能特點,對腫瘤的診斷和治療,對新藥的研發提供了重要的科學理論依據。

1 數據來源

由于斑馬魚基因與人類基因的相似度程度高,而且容易獲取大數量的實驗數據,這樣可以有效的減少時間消耗和實驗成本,提高預測精度。

根據本文的研究目的選擇斑馬魚piRNA序列作為正集,斑馬魚非編碼序列作負集,因為使用同一物種的基因序列可以避免由于不同物種之間的同源性差所造成的結果偏差,提高預測精度。從http://www.regulatoryrna.org/database/piRNA/download.html下載斑馬魚piRNA序列,共1330692條。從http://www.noncode.org/download.php上下載了12836條斑馬魚非編碼序列。

2 訓練集與測試集

本文正集和負集序列均為1500條,這個數字是作者任意選取的,當然,可以通過多次試驗選取最合適的樣本條數。

從斑馬魚piRNA序列中隨機選擇1500條序列作為正集,其中2/3的序列(即1000條序列)作為訓練集,剩余的1/3序列(即500條序列)作為測試集。從斑馬魚非編碼序列中隨機選擇1500條序列作為負集,其中2/3的序列作為訓練集,剩余的1/3序列作為測試集。使用python編程統計了正集序列的長度為17-36,因此為了提高預測精度,負集序列的長度應該也在此范圍內。所以,編程實現了從負集的非編碼序列中隨機截取相似程度的序列作為試驗中用到的負集。

3 特征的提取

使用軟件Teiresias提取訓練集的特征。選項選擇為“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。經多次試驗,參數選擇為L=2,W=5,K=600,它表示1000條序列中有共同特征的至少有600條序列,長度最大為5的motifs中至少有兩個核苷酸[3]。

從訓練集的正集中共提取出了59條特征,從訓練集負集中共提取出了62條特征。去除提取出的motifs特征中的冗余特征后剩余62條特征,如特征“T..A”,“T”和“A”分別表示胸腺嘧啶和腺嘌呤,“T”和“A”之間的“.”表示任意核苷酸。

計算每個motif在每條序列中出現的頻數,構成了一個特征矩陣,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)為其中某一條序列的特征向量,其中第一個元素“3”表示在該序列中第一個特征“TG”的個數,第二個元素為第二個特征“TA”在該序列中的個數,之后的數字依次類推。

4 訓練和預測

在網址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下載libsvm。

首先,統計訓練集中每條序列的motifs頻數,使用python編程將統計的motifs頻數轉換成libsvm所接受的特征矩陣的形式,然后使用libsvm軟件包中的svm-scale.exe對訓練集特征矩陣train.txt進行標準化處理,對測試集進行同樣的標準化處理。

本文使用的訓練函數為RBF核函數。因為這個核函數可以非線性的映射到高維空間中,能夠處理類標簽和屬性是非線性時的關系,并且線性核函數是RBF的一個特殊情況。使用libsvm tools目錄下的grid.py來選擇參數,選擇結果為=512。0,=0。00390625,它的交叉驗證率為77.35%。使用得到的最佳參數對訓練集進行訓練,然后使用該訓練模型對標準化后的測試集進行預測。經預測,得到了測試集的預測結果為78.9%。

5 特異性和靈敏性

使用SVM訓練訓練集得到了預測模型來預測測試集中的序列,由于測試集中的序列分類是已知的,因此,本文使用已知分類和預測得到的分類結果求得特異性為74.6%,靈敏性為78.9%。

特異性表明500條斑馬魚非編碼序列被預測正確的概率是74.6%,靈敏性表明500條斑馬魚piRNA序列中被預測正確的概率是78.9%。預測精度為特異性和靈敏性的平均值,表示整個測試集中序列被預測正確的概率。

6 結語

本文使用高斯核函數(RBF)建立了一個斑馬魚piRNA的分類模型,由于斑馬魚piRNA序列和斑馬魚非編碼序列之間具有不同的特征,因此使用motifs特征可以識別斑馬魚piRNA序列和非編碼序列。然后統計訓練集中每條序列中motifs的頻數,構成特征矩陣。使用支持向量機對訓練集和測試集進行分類和預測,得到的預測精度為78。9%,其中特異性為74.6%,敏感性為83.2%。特異性和靈敏性結果表明,在提取特征過程中,負集的特征提取不完善,如果想要得到更高的預測精度,就需要提取盡可能多的特征。

參考文獻

[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,2006,442(7099):203-207.

[2]郭艷合,劉立,蔡榮,等.小 RNA 家族的新成員—piRNA[J].遺傳,2008,30(1):28-34.

[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,2012,7(3):e32797.

主站蜘蛛池模板: 国产大片喷水在线在线视频| 夜夜操狠狠操| 亚洲中文字幕无码mv| 亚洲中文字幕av无码区| 欧美一级爱操视频| 在线观看国产精品日本不卡网| 91精品国产自产91精品资源| 不卡无码h在线观看| 亚洲人网站| 91成人免费观看| 久久伊伊香蕉综合精品| 免费高清a毛片| 国产女人18毛片水真多1| 91久久大香线蕉| 欧美日韩久久综合| 日韩毛片免费视频| 国产欧美在线观看一区| 最新国产高清在线| 9丨情侣偷在线精品国产| 亚洲国产精品无码AV| 亚洲日本在线免费观看| 黄色网址免费在线| 四虎成人在线视频| 毛片在线播放网址| 国产v精品成人免费视频71pao| 日本国产精品| 欧美精品1区2区| 青青草91视频| 成人福利在线观看| 欧美在线三级| 久久亚洲天堂| 久久久国产精品免费视频| 欧美成一级| 欧美色伊人| av性天堂网| 国产黄在线观看| 丁香五月婷婷激情基地| 2021国产精品自产拍在线| 亚洲精品国产日韩无码AV永久免费网 | 国产精品hd在线播放| 99热这里只有免费国产精品| 2021国产精品自拍| 69免费在线视频| AV色爱天堂网| 日本三区视频| 欧美午夜性视频| 亚洲伊人天堂| 不卡国产视频第一页| 国产精品99r8在线观看| 天天视频在线91频| 国产小视频在线高清播放| 特级aaaaaaaaa毛片免费视频| 夜夜爽免费视频| 日本一区二区三区精品国产| 国产视频你懂得| 国产精品不卡片视频免费观看| 欧美午夜视频在线| 青青国产在线| 国产99视频精品免费视频7 | a级毛片在线免费| 成年片色大黄全免费网站久久| 国产精品香蕉在线观看不卡| 久久鸭综合久久国产| 日本一本正道综合久久dvd | 国产成人三级在线观看视频| 国产无码精品在线播放| 欧美精品色视频| 国产毛片高清一级国语| 丁香婷婷激情网| 男女性午夜福利网站| 91精品国产91久久久久久三级| 国产午夜精品鲁丝片| 免费在线色| a级毛片网| 欧美精品1区| 91热爆在线| 一级一级一片免费| 国产成人凹凸视频在线| 狠狠做深爱婷婷久久一区| 欧美中文字幕在线播放| 国产黄网永久免费| 男人的天堂久久精品激情|