999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多機器學習方法的siRNA在線設計系統

2015-12-12 08:38:50璿,張法,陳
燕山大學學報 2015年5期
關鍵詞:有效性效率方法

王 璿,張 法,陳 偉

(1.燕山大學信息科學與工程學院,河北秦皇島066004;2.中國科學院計算技術研究所,北京100083;3.中國環境管理干部學院信息工程系,河北秦皇島066102)

融合多機器學習方法的siRNA在線設計系統

王 璿1,?,張 法2,陳 偉1,3

(1.燕山大學信息科學與工程學院,河北秦皇島066004;2.中國科學院計算技術研究所,北京100083;3.中國環境管理干部學院信息工程系,河北秦皇島066102)

siRNA設計是RNAi研究中的一個重要部分。由于靶向基因可分割成數以千計的候選siRNA,找到其中最有效的siRNA具有一定的挑戰性。本文融合特征分析研究成果和多機器學習方法,設計并實現了一個siRNA在線設計系統。將目標RNA的二級結構作為影響siRNA干擾效率的評分因素,以挑選靶向合適位置的siRNA序列。對于給定的目標基因,系統經過設計得出若干高效siRNA序列的沉默效率及其相關信息。實驗測試結果表明,本系統具有較高的siRNA有效性預測精度。

siRNA;有效性預測;機器學習方法;在線設計

0 引言

RNA干擾(RNA interference,RNAi)是生物進化過程中,由雙鏈RNA(Double?stranded RNA,dsR?NA)誘發,使得同源mRNA特異性降解,轉錄后水平的基因沉默現象[1]。由于采用RNAi技術能迅速阻斷特定基因表達,該方法廣泛應用于基因功能分析、藥物靶標發現、傳染病防治及抗腫瘤研究等領域[2-3]。從作用機制上分析,長的dsRNA通常被切割成19~23 nt的干擾性小RNA(Short interfering RNA,siRNA),由經過設計的 siRNA識別靶向mRNA從而導致特定基因沉默[4?5]。針對靶基因不同點位設計的siRNA差別很大,因此有效的siRNA的選取是RNAi是否發揮效用的關鍵因素。

隨著siRNA技術的深入研究,國內外陸續推出一些免費的siRNA設計軟件。BIOPREDsi[6]是將機器學習方法引入到siRNA設計中的軟件。它采用神經網絡進行有效的siRNA預測,其沉默效率用0~1之間的小數表示。siDRM[7]用DRM算法對與siRNA有效性相關的特征進行合并和重組,最終得到一組規則集。SiDirect 2.0[8]將高TM值、轉錄過程中產生的移位等產生脫靶效應因素考慮到 siRNA設計中,設計出減少脫靶效應的siRNA序列。這 3個軟件共同缺點是沒有將siRNA分子及目標mRNA靶點的二級結構引入siRNA有效性設計的過程。siRNA[9]是Sfold軟件中進行siRNA設計的一個功能模塊,提供RNA二級結構預測功能,但是缺乏特異性檢查。并且由于二級結構特征的計算耗時,軟件限制目標基因序列長度。麻省理工學院的Whitehead[10]能夠選擇21nt的siRNA來阻斷特定目標基因的表達。Dharmacon公司開發的siRNA設計軟件采用SM?ARTpool[11]形式提供,將4條由SMARTselection技術設計的siRNA按比例混合,確保對任何人、小鼠和大鼠3個物種已知基因有高效沉默性。雖然混合siRNA提高了實驗的成功率,但混合siRNA使得無法了解到底哪個siRNA真正有效,同時混合siRNA有引發副反應的可能且難以排除。siRNA Pro2.0[12]是華南理工大學設計的在線分析軟件,規則設計中增加了經驗、理性等綜合因素,以提高siRNA預測準確性。

綜合考慮已有的siRNA有效性設計方法,設計并開發了一個siRNA在線軟件(siRNA Online)。用戶可輸入基因訪問標識符或基因序列,經過設計分析獲得多個高效的、特異的siRNA候選序列。該系統在有效性評分規則中考慮了mRNA二級結構信息,并采用融合BP神經網絡和SVM多種機器學習方法實現評分,提高了有效性預測的準確性。

1 在線設計系統工作流程

siRNA在線分析系統根據用戶輸入的基因信息來設計有效的siRNA。用戶可選3種輸入形式:Accession訪問標識符,GI訪問標識符,mRNA序列。選擇相關設計選項后系統進入設計階段,如是否限定siRNA的起始序列;Blast等級選擇等。設計結束后顯示結果,也可保存或查詢歷史的設計記錄。

siRNA設計階段是系統的核心功能,設計流程如圖1所示。首先從堿基、序列和自由能三方面入手,針對siRNA的19個堿基位制定各自位置的打分規則。剔除含有有害規則的siRNA序列,并提取靶標mRNA的二級結構信息,以挑選位于環區域效率高的 siRNA候選序列。其次,利用SVM特性篩選以及BP神經網絡訓練出較高精度的預測模型進行siRNA序列的有效性選擇。采用BLAST將選擇結果與非同源mRNA進行比對,完成特異性分析。最后,獲得多個高效的、特異的siRNA候選序列。

2 系統關鍵技術

2.1 二級結構預測

目前mRNA二級結構預測分為基于序列比較和能量最小化兩種方法。前者通過多重序列比對,根據相似序列具有相似結構的原理實現二級結構預測。后者通過能量優化或分析動力學計算評價所有可能配對的能量,以搜索具有最小能量的穩定結構。Zuker開發的MFold采用最近鄰能量規則計算一個結構的能量[13]。其原理是考慮到環區內所有堿基均存在相互作用的可能,因此計算環區內所有堿基對的能量。本系統采用MFold實現二級結構預測。確定目標mRNA的單鏈環環區,根據mFold輸出的mRNA的各堿基間配對情況,計算19nt的siRNA結合區域中未配對堿基的百分比,從而確定最佳的靶向位置,選擇合適位置的siRNA序列。

圖1 siRNA設計階段工作流程Fig.1 Workflow of siRNA design phase

2.2 特征分析

為保證設計結果的應用普遍性和設計規則的合理性,在前期工作中搜集和整理了3個siRNA數據集中的有效數據,如表1所示。通過統計學分析的方法進行了特征提取[14]。

表1 siRNA數據集Tab.1 siRNA dataset

特征提取的具體方案為:1)SR和FR數據集分別劃分為兩個部分,作為特征分析集和內部測試集。由于SG與特征分析集來自不同的源數據集,SG作為外部測試集。2)由于SG數據集中的數據是靶向一個基因的所有可能的siRNA,沒有經過挑選和設計,能夠反映自然狀態下siRNA沉默效率的整體分布規律。經統計分析得知其整體分布近似于正態分布,按此規律從SR和FR中隨機抽取特征分析集的樣本數據。3)采用SPSS11.5作為特征分析工具,SR特征集采用列聯分析法,FR特征集采用方差分析法,且兩組分析獨立進行。分析過程中涉及到與siRNA沉默效率相關的已知的所有序列特征,例如特定位置的堿基偏好、特征片段、GC含量、siRNA雙鏈穩定性差異等。當一個特征與siRNA沉默效率相關的顯著性檢驗水平α≤0.05時,判定它是與siRNA的沉默效率相關的特征。對比兩組特征得到最終的含有20個特征的相關特征集,并表示成一組siRNA設計規則。4)應用設計規則在內部測試集和外部測試集上對siRNA序列進行打分,根據得分結果評估該方案的可靠性。

2.3 BP神經網絡模型

研究發現,各相關特征對siRNA有效性的影響各異。BP神經網絡的自學習特性能夠挖掘出各特征上的影響因子,從而給出更準確的siRNA有效性評分結果。基于獲取的20個特征,構建了三層BP神經網絡模型。采用FR數據集作為樣本數據集,將反義鏈轉換成19nt的正義鏈用于BP神經網絡的訓練。20個特征向量化為20維列向量,每個維度表示 siRNA序列的特征分,作為BP的輸入。模型輸出一個siRNA序列沉默效率,表示為0和1之間的小數。隱含層節點數目設定為6。利用遺傳算法從初始輸入中挑選適當的初值,減少訓練過程的隨機性。

為了有效評估BP神經網絡模型,采用十折交叉驗證的方法分別在FR和SG兩個數據集上進行測試,并對比同等條件下不考慮權值的線性評分結果,如表2所示。測試結果表明,在兩個數據集中BP神經網絡的預測效果好于線性評分結果。SG數據集上的評分結果略高于FR數據集,由于SG數據集未參與模型訓練,表明系統所設計模型具有良好的自學習能力和一定的泛化能力。

2.4 SVM學習方法

SVM采用的二次尋優的方法得到全局最優點,能夠解決神經網絡方法存在的局部極值問題。將SVM應用于siRNA有效性預測,能夠提高結果的泛化性。利用LIBSVM軟件包構建SVM模型,輸入siRNA候選序列,輸出siRNA序列的有效集和無效集。定義沉默效率>50%的為有效siRNA序列,沉默效率<50%的為無效siRNA序列。將SVM模型與 BP神經網絡模型線性組合用于siRNA有效性預測。首先,SVM將siRNA候選序列劃分為有效和無效兩類。然后,選擇有效候選序列中的siRNA作為BP神經網絡模型的輸入,通過BP模型篩選得到siRNA序列最終評分結果。

表2 BP神經網絡模型與線性評分方法比較結果Tab.2 Comparison of BP neutral network model and linear scored method

實驗中選取FR數據集中800條序列作為訓練集,SG數據集中400條序列作為測試集,其中有效和無效序列數各占一半。圖2對比了BP、SVM和SVM+BP 3種方法在兩個數據集上測試結果。其中EP為有效序列的查準率,ER為有效序列的查全率,NR為無效序列的查全率。計算公式如下:EP=α/(α+γ),ER=α/(α+β),NR=δ/(δ+γ),式中α、β、γ、δ分別代表有效序列被預測為有效、有效序列被預測為無效、無效序列被預測為有效、無效序列被預測為無效的數目。由圖2可知,在FR訓練集中,SVM+BP方法表現出了接近BP方法良好的學習能力。在SG測試集中,SVM+BP表現出了接近SVM的良好的泛化能力。

圖2 3種機器學習方法的比較Fig.2 Comparison of three machine learning methods

2.5 BLAST特異性分析

為避免siRNA與非目標基因結合而產生脫靶效應,系統從兩個方面來進行特異性分析。一方面針對siRNA序列與全基因組數據庫內的非目標基因進行比對,剔除匹配過高的 siRNA序列。另一方面針對siRNA的seedregion區域(2nt~9nt)與非目標基因的3’UTR區域進行比對,剔除匹配過高的記錄。經過兩次匹配性篩選,有效地降低了siRNA與非目標基因結合的概率,減少了脫靶效應。系統中使用BLAST[15]并以mRNA數據庫為目標數據庫進行分析比對,并將篩選結果中的進行降序排列,取其中前十位作為最后的輸出記錄。

3 軟件測試分析

為了測試siRNA在線設計系統的設計效果,與現有的White?head和Dharmacon軟件進行了比對。針對P53mRNA,White?head和Dharmacon分別設計合成 14條,siRNA在線軟件(siRNA Online)設計合成13條siRNA。用設計結果轉染Hela細胞,并提取RNA通過熒光定量Real?time PCR檢測其RNAi效果。3種軟件產生干擾效率如表3所示。

表3 3種軟件干擾效率的比較Tab.3 The interference efficiency comparison of three softwares

表3中,ΔCt值表示RNAi實現效果的變量,其值越大則RNAi效果越好。分析各軟件設計得到的siRNA分子對應RNAi實驗得到的平均ΔCt值:White?head(10.93)>Dharmacon(10.81)>siRNA Online(10.68),表明siRNA Online的設計效果與White?head和Dharmacon軟件設計效果相當。從各軟件產生的有效 siRNA的個數分析,White?head(4個)>siRNA Online(2個)>Dharmacon(1個),表明siRNA Online系統具有良好的尋找有效siRNA的能力。

此外,siRNA Online還與siRNA Pro2.0軟件進行了比較。數據測試采用SR數據集。隨機選取14個目標mRNA,針對每個目標mRNA,在SR中有多條沉默效率已知的靶向該mRNA的siRNA分子記錄。對于每個目標 mRNA,分別用 siRNA Online和siRNA Pro2.0進行設計,兩個軟件設計結果如表4中所示。通過與SR數據集中的數據比對,siRNA Online的設計結果比siRNA Pro2.0獲得的有效siRNA數量多,且候選siRNA序列的沉默效果多為 Very High和 High。表明 siRNA Online具有較好的發現有效siRNA的能力。

表4 siRNA Online與siRNA Pro2.0設計結果比較Tab.4 Comparison of siRNA Online and siRNA Pro2.0 on design results

4 結論

1)設計并實現了一個siRNA有效性在線分析系統。利用統計分析方法提取了20個siRNA有效性特征用于siRNA有效性預測,并考慮了二級結構對預測結果的影響。采用SVM和BP神經網絡兩種機器學習方法應用于siRNA有效性預測,提高了預測精度。

2)采用了全序列BLAST比對以及seed region區域與mRNA的3’UTR區域的匹配的特異性分析方法,排除了大部分可能引起脫靶效應的候選siRNA序列,減少了脫靶效應的發生。

[1]Fire A,Xu S,Montgomery M K,et al.Potent and specific genetic interference by double?stranded RNA in Caenorhabditis elegans[J].Nature,1998,391(6669):806?811.

[2]Hayden C,Erika.RNA interference rebooted[J].Nature,2014,508(7497):443.

[3]Singh S K,Gaur R K.Progress towards therapeutic application of RNA interference for HIV infection[J].BioDrugs,2009,23(5):269?276.

[4]Hannon G J.RNA interference[J].Nature,2002,418(6894):244?251.

[5]Carthew R,Sontheimer E.Origins and mechanisms of miRNAs and siRNAs[J].Cell,2009,136(4):642?655.

[6]Huesken D,Lange J,Mickanin C,et al.Design of a genome?wide siRNA library using an artificial neural network[J].Nature Bio?technology,2005,23(8):995?1001.

[7]Gong W,Ren Y H,Wang Y,et al.siDRM:an effective and gen?erally applicable online siRNA design tool[J].Bioinformatics,2008,24(20):2405?2406.

[8]Naito Y,Ui?Tei K.Designing functional siRNA with reduced off?target effect[J].Methods in Molecular Biology,2013,942:57?68.[9]Ye D,Yu C C,Lawrence C E.Sfold web server for statistical fold?ing and rational design of nucleic acids[J].Nucleic Acids Re?search,2004,32(12):W135?W141.

[10]Yuan B,Latek R,Hossbach M,et al.siRNA selection server:an automated siRNA oligonucleotide prediction server[J].Nucleic Acids Research.2004,32(1):W130?W134.

[11]Montenmuros F D,Parise P.New technologies from siRNA world[J].Minerva Biotecnologica,2008,20(1):3?11.

[12]方翔,杜正平,曹以誠,等.siRNA pro 2.0:siRNA理性設計在線程序[J].中國生物化學與分子生物學報,2007,23(9):751?756.

[13]Zuker M.Mfold web server for nucleic acid folding and hybridiza?tion prediction[J].Nucleic Acids Research,2003,31(13):3406?3415.

[14]Wang Dongfang,Chen Xiang,Zhang Fa,et al.A method to im?prove the universality of siRNA design rules based on siRNA effi?ciency distribution[C]//2008 International Symposium on Infor? mation Science and Engineering,Shanghai,2008:84?87.

[15]Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool(BLAST)[J].Journal of Molecular Biology,1990,215(3):403?412.

siRNA online design system based on multi?machine learning methods

WANG Xuan1,ZHANG Fa2,CHEN Wei1,3
(1.School of Information Science and Engineering,Yanshan University,Qinhuangdao,Hebei 066004,China;2.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100083,China;3.Department of Information Engineering,Environmental Management College of China,Qinhuangdao,Hebei 066102,China)

siRNA Design has attracted attention as an important issue in RNAi research.As a targeted gene could have thousands of potential siRNAs,finding the most efficient siRNAs among them had a huge challenge.In this paper,a siRNA online design system was developed.It included multiple technologies such as feature analysis,machine learning methods.For filtering siRNA sequences on suitable location,the secondary structure of target RNA was also acted as a scoring factor which effect siRNA interference effi?ciency.To given target genes,this system showed effective siRNA sequences and related information sorting by the silencing effi?ciency.Compared with existing software and methods,siRNA Online has higher prediction accuracy.

siRNA;efficiency prediction;machine learning method;online design;

TP393;Q811

A

10.3969/j.issn.1007?791X.2015.05.013

1007?791X(2015)05?0458?06

2015?06?28 基金項目:國家自然科學基金資助項目(61232001,61202210);河北省高等學校科學技術研究青年基金資助項目(QN2015133)

?王璿(1977?),女,黑龍江齊齊哈爾人,博士,副教授,主要研究方向為并行計算、生物計算、數據庫理論,Email:wangxuan@ysu.edu.cn。

猜你喜歡
有效性效率方法
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
如何提高英語教學的有效性
甘肅教育(2020年6期)2020-09-11 07:45:28
制造業內部控制有效性的實現
提高家庭作業有效性的理論思考
甘肅教育(2020年12期)2020-04-13 06:24:56
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
跟蹤導練(一)2
“錢”、“事”脫節效率低
中國衛生(2014年11期)2014-11-12 13:11:32
船舶嚴重橫傾時應急行動的有效性
中國航海(2014年1期)2014-05-09 07:54:30
主站蜘蛛池模板: 亚洲视频免费在线看| 国禁国产you女视频网站| a级毛片视频免费观看| 日韩不卡免费视频| 福利在线不卡一区| 人妻中文字幕无码久久一区| 综合色区亚洲熟妇在线| 欧美综合区自拍亚洲综合绿色 | 国产亚洲视频中文字幕视频| 日韩成人免费网站| 欧美曰批视频免费播放免费| 成人午夜久久| 欧美性天天| 潮喷在线无码白浆| 国产嫩草在线观看| 少妇精品在线| 高清亚洲欧美在线看| 国产无码网站在线观看| 在线一级毛片| 久久综合干| 精品久久综合1区2区3区激情| 国产91高跟丝袜| 9966国产精品视频| 99久久精品视香蕉蕉| 国产成人91精品免费网址在线| 国产手机在线ΑⅤ片无码观看| 亚洲无码在线午夜电影| 国产视频欧美| 亚洲中文字幕在线观看| 无码综合天天久久综合网| 精品视频福利| a毛片在线| 精品久久人人爽人人玩人人妻| 精品丝袜美腿国产一区| 51国产偷自视频区视频手机观看 | 国产va在线观看| 国产精品大白天新婚身材| 精品久久国产综合精麻豆| 男人天堂亚洲天堂| 国产成人无码AV在线播放动漫 | 亚欧美国产综合| 噜噜噜综合亚洲| 99精品视频九九精品| 日韩黄色大片免费看| 免费A级毛片无码免费视频| 午夜福利在线观看入口| 久久国产精品电影| 香蕉伊思人视频| 日韩乱码免费一区二区三区| 欧美日本二区| 国产人妖视频一区在线观看| 在线a网站| 亚洲天堂在线免费| 在线精品亚洲国产| 欧美一级专区免费大片| 国产精品网曝门免费视频| 日韩高清无码免费| 亚洲AV成人一区国产精品| 为你提供最新久久精品久久综合| 91成人免费观看| 国产一在线观看| 中文字幕无码中文字幕有码在线| 成人在线观看不卡| 欧美啪啪网| 国产办公室秘书无码精品| 成色7777精品在线| 成人午夜精品一级毛片| 久久久久久久97| 91精品国产综合久久不国产大片| 国产激爽爽爽大片在线观看| 乱人伦99久久| 久草美女视频| 亚洲伊人久久精品影院| 日韩精品毛片人妻AV不卡| 亚洲天堂网在线播放| 久久99国产综合精品1| 久久国产精品娇妻素人| 波多野结衣一二三| 91在线中文| 免费无码网站| 中文字幕亚洲精品2页| 免费一级毛片|