999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能技術在生物信息學中的應用

2021-11-19 21:25:13張衛婷
電子技術與軟件工程 2021年16期
關鍵詞:生物文本分析

張衛婷

(咸陽職業技術學院 陜西省咸陽市 712000)

1 文本分析技術在生物信息學中的應用

1.1 蛋白質折疊識別

蛋白質的折疊識別,可以理解為在蛋白質眾多序列中準確識別其三維立體結構特殊類型,該應用是作為生物信息學重點研究方向存在。在蛋白質的一級序列中,常使用字母對標準氨基酸進行表示,而其序列信息在借助文本文件儲存在相關數據庫中。世界范圍內最大蛋白質序列數據庫當屬美國國立生物技術信息中心(NationalCenter for Biotechnology Information)的NR (Non-Redundant Protein Sequence Database)數據庫。NR 數據庫與常見的MySQL數據庫有所不同,其應用fasta 格式的文本文件,格式雖然簡單,但是內容卻異常豐富,使用該格式完成蛋白質序列儲存工作,這讓許多文本分析數學算法無須額外處理,直接應用在分析蛋白質序列工作中即可[1]。

1.2 應用原理

目前蛋白質從折疊識別會覆蓋蛋白質所有序列,直到構建三維空間停止,而應用方法主要是穿線法(Threading),即將目標序列作為“針”,在由蛋白質構建三維空間中進行穿梭,以科學方法對序列和結構是否具備高匹配度嚴格分析。匹配程度而打分分數具有正相關聯系。而對于蛋白質的折疊情況進行識別,其理論應用基礎為蛋白質即便序列并不是太過相似條件下,其空間結構也存在相似影響潛力,可以理解為蛋白質是擁有弱同源性[2]。在生物發展歷程中,蛋白質為保證在自我復制時仍可以擁有完整功能,就需要保證結構擁有保持穩定性質,而序列則會被各類突變因素影響,呈現變化狀態。可以將該特性描述成蛋白質結構比擁有相對保守序列。在這種條件影響下,可以從自然界發現序列并不相似,而結構卻有相同特征蛋白質結構。而文本分析對于蛋白質折疊的識別具有重要意義。目前科研界推崇一種以文本分析為主,將機器學習作為輔助工具使用的新型方法。應用該方法時,借助文本分析提供信息檢索這項服務完成相關工作。在將某蛋白質一級結構查詢清楚,對于折疊蛋白質識別目標,就是將應用囊括可能性固定模板,以序列,以及結構相關性科學排序,可以將其看作由百度搜索引擎,根據用戶向網站輸入查詢內容,會在網頁中顯示關聯度排名。而使用該分析算法,蛋白質擁有相似度越高。理論上會擁有更有優勢排名次序。所以,文本分析就是站在總體角度運行一種策略,可以理解為通過搜索引擎相關算法方式,實現蛋白質折疊類型高效檢索。而向機器學習輸入蛋白質特征向量,即設計參數,該研究可以用于表示蛋白質序列,以及分析結構相似性所有蛋白質指標。

1.3 文本存儲

作為表述蛋白質擁有的三維空間重要工具,文本在蛋白質研究中具有重要地位。雖然其結構可借助三維圖形顯示,而真實對蛋白質結構完成存儲工作卻為文本文件,并應用PDB 格式存儲到相關電腦或數據庫中。而PDB 數據庫對于生物大分子結構擁有超過16萬數據存儲量,過半數為蛋白質結構相關文件。正因為通過文本完成蛋白質結構文件存儲,也讓文本分析在蛋白質結構具體分析中發揮重大作用奠定良好條件,包括但不限于將信息從數據庫中提取、充分對數據展開分析,以及對蛋白質結構選擇性優化等[3]。

1.4 蛋白質分類

根據外表形態和應用功能,可以將生物體內所有蛋白質劃分為三類,分別是纖維狀蛋白、球狀蛋白、膜蛋白。在蛋白質中,膜蛋白相對特殊,真實二級結構并不具備較高預測準確率。其原因可能是膜蛋白在結構為生物膜之中,導致膜蛋白在跨膜區和非跨膜區無論是實際區別,還是具體功能,都存在較大差異。所以,膜蛋白和球蛋白擁有完全不同生化特性。精準獲得膜蛋白在跨膜區和非跨膜區數據信息,可以為判斷膜蛋白真實生物學功能提供有效幫助。所以,面向膜蛋白二級結構,展開預測算法開發,同樣為生物研究重要發展方向。

2 Docker技術在生物信息學中的應用

2.1 技術優勢

Docker不僅具備信息開放性,在應用也可以有效保證安全可靠,所以在生物信息學實際應用具有重要價值。

2.1.1 跨平臺支持

跨平臺支持。在生物信息學研究水平不但深入,各類信息數據呈指數形式快速增長,超過270 項的開源軟件都為生物信息學提供技術應用。可是,大量實用性工具卻使用各種編程語言編寫,例如C++、Python 等,不同語言需要各自運行環境,以及相應配置,才能完成高效使用目的。Docker 提供引用跨平臺能力,并不需要特殊配置,即可在不同服務環境下提供最優質的功能與,保證成果可以在多種條件下依舊復現,也可以多次使用工具而不發生影響結果的特殊情況[4]。

2.1.2 整合服務器

針對基因組完成測序數據相關分析,其研究對象不僅需要落實大規模資源計算,例如序列比對、基因組注釋,不要求過多計算,但是仍需要保持高度警惕處理的數據存儲、系統維護也在研究范圍內。這種不確定具體資源效果,對于許多獨立科研單位難以使用當前已獲得測序數據,進一步提升對基因分析難度。但是Docker 卻可以將大量計算資源全部整合,并以彈性方式完成擴充,從而借助最小成本,實現最大化硬件利用。

2.1.3 高效開發

在對生物信息學產生數據信息分析時,無論是輸入還輸出都要面對海量數據處理規模,這導致大部分測序數據常會擁有GB 級別規模,對于省級或者國家級科研項目則會出現TB 級別,即便是最長應用參考序列,其規模也在保持在GB 級別,這導致在實際應用中會產生反復調試,并對問題反復修正,雖然是眾多應用軟件開發必須要經歷內容,可是海量數據會在本地數據庫以及遠端服務器內產生多次重復性傳遞,消耗大量分析時間,在實際應用中也會出現數據復制時產生錯誤。但是Docker 卻在本地服務器上衍生數十個可以容納數據信息容器,并將所有容器中全部部署Docker 的同一鏡像,從而高效完成線上模擬實踐作業。而且,開源式社區也提供大量系統調試工具,也讓鏡像擁有改進能力,減少資源反復查找所需[5]。

2.1.4 高效利用資源

在生物信息學研究中,高通量測序技術會產生大量遠超過摩爾定律上限數據量,第二代技術已經在數據產生方面已經超過第一代100 ~ 1000 倍,但是很對測序數據的分析能力卻在多年中沒有得到更多提升。但是Docker 卻可以讓啟動以秒級單位計算,擁有較強運行能力,從而將研究重心集中于數據分析,其他產生時間消耗工序則被大量省略,有效降低系統負載,進而提高整體應用效率。

2.2 分析工具

通過Docker,將大量應用型工具和相關數據信息全部封裝于不發生信息復制錯誤的單一鏡像內,提供分析人員便利應用化條件,這讓Docker 在生物信息學應用越加廣泛,部分研究人員已經將該技術當開發首選方案。由BLASR、BWA 等構成NanoOK,其功能主要為多序列比對,并實現序列匹配,具體用途則是通過宏基因組充分比對,并以此為分析依據,展開應用更為廣泛的多樣本分析,重點關注多序列基因比對;而SBMLDock 則將研究對象放在數據模型上,通過模型不同構成比對,對于模型組成部分完成檢測,并將可能存在理解偏差進行注釋,最后相關數據信息提取等一系列作業,將生物學模型以系統化方式完成分析;而floweatchR 借助EBImage,將細胞以顯微形式獲取圖像信息,并對其進行分析,從而對確定細胞在檢測時真實位置,與檢測對細胞外界刺激產生運動狀態全部分析,最后獲得相應細胞軌跡,對于細胞在常態、外界刺激等研究具有重要參考價值。通過大量鏡像信息,借助標準化輸入輸出流程,完成參數控制,并讓多種分析應用工具擁有同樣接口,對于以往軟件配置難度有效件降低,并提升應用分析效率,打破過去資源共享各種阻礙。較為典型當屬SBMLDock 會提供以SBML格式對數數據書寫鏡像。而CWL 標準已經得到全球基因組學認可,健康聯盟也對其表示支持,現在廣泛應用于癌癥基因組研究項目當中,實用性較強[6]。

2.3 分析流程

Docker 可以將多種技術軟件,將通過串聯方式組成分析流程,將其全部封裝于鏡像中,并讓技術人員在應用時可以保持相同執行標準。而且,針對具體分析流程而制作Docker 鏡像,在生物信息學研究中,也可以作為一種應用成果使用。例如將Illumina HiSeq數據平臺提供測序數據作為研究對象,則可以提供專門負責數據傳輸,可以做到數據質量控制實踐應用Docker 鏡像,并在鏡像中封裝多種工具,例如FastQC。而以Docker 為工具,將病毒全部基因組檢測順序,并將病毒變異完整全流程高效分析,包括對病毒串聯基因組,并完成質量控制,將序列和生物基因進行比對,對病毒變異情況全面檢測,并將分析病毒組全部時間步驟注釋。也可以針對原核生物基因組展開分析,評估基因組,并將其與其他原核生物在對比后,選擇最具有參考價值基因組,用于以后實驗選擇。借助Docker 也可以提升生物醫學在分析作業效率。借助Tophat2 工具集可以將RNA 序列完整分析,并將該流程以數據形式保存在合適存儲設備中,而SAKE 則負責對基因組變異全面檢測,提升分析效率,BLAST 則將檢測對象調整到非編碼RNA 區域。通過應用Docker 工具集,可以對生物信息學大量需要消耗計算時間,數據信息繁瑣量任務簡化,在復用性方面得到研究學界一致認可[7]。而借助Galaxy 數據分析平臺,以SADI 前端標準,并從可視化視角對Docker 分析,可以從其鏡像完成UniProt 數據庫高效訪問,并對信息精準查詢,面對數據可以做到有效統計,對問題快速追蹤。保證可以在短時間內處理應用過程,提升分析質量,應用較為便捷。

3 總結

無論是文本分析還是Docker,都在生物信息學表現良好,其應用價值也被國內各類研究高校的科研人員廣泛認可,未來仍有進一步發展良好趨勢。而我國目前針對生物信息學應用仍處于初級階段,真正應用內容仍有待挖掘,希望未來包括生物在內多種科研領域,可以將人工智能技術充分發揮,推動我國科研水平穩定提升。

猜你喜歡
生物文本分析
生物多樣性
天天愛科學(2022年9期)2022-09-15 01:12:54
生物多樣性
天天愛科學(2022年4期)2022-05-23 12:41:48
上上生物
當代水產(2022年3期)2022-04-26 14:26:56
隱蔽失效適航要求符合性驗證分析
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 中文字幕欧美日韩| 亚洲AV成人一区国产精品| 欧美成人怡春院在线激情| 免费人成在线观看视频色| 一级爱做片免费观看久久| 亚洲国产看片基地久久1024| 亚洲人成网站18禁动漫无码 | 久久国产精品娇妻素人| 99这里只有精品免费视频| 在线观看免费国产| 国产成人亚洲日韩欧美电影| 欧美不卡视频在线观看| 久久综合丝袜长腿丝袜| 精品一区二区三区自慰喷水| 成人国产一区二区三区| 亚洲性网站| 国产精品真实对白精彩久久| 九色91在线视频| 亚洲精品成人片在线观看 | 亚洲女同一区二区| 亚洲天堂啪啪| 91偷拍一区| 高潮爽到爆的喷水女主播视频| 国产精品福利一区二区久久| 国产一级做美女做受视频| 尤物亚洲最大AV无码网站| 欧美日韩精品综合在线一区| 国内精品视频区在线2021| 无码中字出轨中文人妻中文中| www.日韩三级| 丁香五月激情图片| 黄色网址手机国内免费在线观看| 日本a级免费| 玖玖免费视频在线观看 | 92精品国产自产在线观看 | 欧美综合区自拍亚洲综合天堂 | 国产精品lululu在线观看 | 精品一区国产精品| 欧美成人午夜影院| 欧美午夜一区| 国产激情无码一区二区APP| 国产二级毛片| 99久久精品国产综合婷婷| 日韩福利在线观看| 国产又大又粗又猛又爽的视频| 国产精品三区四区| 狠狠色综合网| 免费看a毛片| 第一页亚洲| 91探花国产综合在线精品| 免费高清毛片| 久久精品免费国产大片| 亚洲综合九九| 国产精品永久久久久| 亚洲欧美成人综合| 99久久精品视香蕉蕉| 特级aaaaaaaaa毛片免费视频| 亚洲国产精品人久久电影| 久久久久人妻精品一区三寸蜜桃| 国内精品小视频在线| 99国产精品一区二区| 国产小视频在线高清播放 | 色综合天天娱乐综合网| 亚洲黄色片免费看| 亚洲一区二区在线无码| 国产一二三区视频| 91久久大香线蕉| 人妻熟妇日韩AV在线播放| 国产精品.com| 在线播放精品一区二区啪视频| 99久久国产自偷自偷免费一区| 婷婷综合色| 亚洲精品爱草草视频在线| 亚洲国产欧美国产综合久久 | 91亚洲精品第一| 亚洲av无码人妻| 91精品免费久久久| 超碰91免费人妻| 久久久久免费看成人影片| V一区无码内射国产| 97综合久久| 亚洲日本中文综合在线|