摘 要:隨著社會經濟的不斷進步與發展,計算機技術的不斷創新改革,計算機算法受到了越來越多生物信息學者的關注和重視。計算機算法作為生物信息學中的重中之重,是一個必不可缺的關鍵組成部分,生物信息學中的問題具有數量繁多、計算量大的鮮明特征,必須采用最先進合理的計算機算法,才能不斷提高處理生物信息學問題的效率。文章將進一步的對計算機算法在生物信息學中的應用展開分析和探討。
關鍵詞:計算機算法;生物信息學;應用研究
引言
生物信息學作為一門新興的交叉學科,它涵蓋了計算機科學、生物學以及統計學等不同的學科。它的主要研究內容是通過應用計算機對各種生物數據信息進行檢索、分析以及儲存。在生物信息學中,它的各種組合問題都具有數量繁多、計算量大的鮮明特征,為了能有效地解決各類組合難問題,就必須不斷提高計算的處理速度,創新計算機算法,保證各算法和程序的高效性。
1 在生物信息學中普遍被應用的計算機算法
在生物信息學中那些常見NP-難的組合優化問題可以分為以下幾個:群體單體型檢測問題、個體單體型檢測問題、多元聚合酶鏈反應引物集設計問題、標簽SNPs選擇問題、序列比對問題以及基因芯片的探針設計問題[1]。這些問題都具有大量的信息數據,對于計算機的處理速度要求偏高。所以,必須不斷優化計算機算法,對計算機算法在生物信息學中的應用展開分析和研究。通常來說,生物信息學中組合優化問題采用的計算機算法主要包括以下幾種:近似算法、精確算法、啟發式算法以及參數化算法等。采用近似算法通??梢缘玫捷^為滿意的時間復雜度。精確算法則是生物信息學中遇到難度大組合問題的首要選擇,然而它具備偏高的時間復雜度[2]。啟發式算法相對于傳統的計算機算法,前者獲得解的收斂速度會快很多。參數化算法通過從組合問題的參數特性研究分析入手,建立出多維的數學模型,從而有效地解決問題。
2 啟發式算法在生物信息學中的應用
啟發式算法通常被普遍應用于較大規模生物信息學的組合問題中,啟發式算法具體包括了以下幾種不同的算法:粒子群優化算法、神經網絡算法、遺傳算法、混沌免疫進化算法、模擬退火算法。
粒子群優化算法又可以稱為微粒群算法或者微粒群優化算法,它是通過模擬鳥群尋食行為而不斷發展起來的一種基于群體合作的隨機搜索的優化算法。通常情況下,可以將它歸類為群集智能的一種,被納入了多主體優化系統。粒子群優化算法的主要發明者為Kennedy教授和Eberhart教授。在解決組合優化問題過程中,粒子群優化算法通過將問題的每一個解相對應的找出空間中某只鳥的位置,將空間中所有的鳥統稱為粒子,每一個粒子的飛行都通過隊員的飛行經驗以及自身的飛行經驗進行適當的調整。當某個粒子在實際的飛行過程中遇到最佳的飛行位置,這個就是粒子的最優解,也就是個體的極值。而如果是整個集體的最優解,也就是群體的極值,它為每個粒子所遇到過的最佳位置總和。在實際的算法操作過程中,粒子是否處于較優的位置需要通過優化函數決定的適應度來確定。與此同時,粒子的飛行速度直接關系到每個粒子的飛行距離以及方向。粒子群優化算法最大的優勢就在于它不需要依靠大量的經驗參數,簡捷實用、適用于并行處理、具備較快的收斂速度等[3],而它的弊端則是收斂精度不夠高、容易局限于局部的極值。
神經網絡算法在生物信息學中的主要作用是用來對生物神經系統信息處理過程的模擬。神經網絡算法主要可以分為兩個層面,一個為輸出層面,另一個為輸入層面。在這兩個層面中間還存在些許隱藏的學習層面,這些學習層面中又包含了很多的結點[4]。不同結點之間的連接方式多種多樣,與此同時,每個結點如何把輸入信號轉換為輸出信號的選擇性也有很多[5]。要想對神經網絡進行有效的訓練,就必須提供大量的數據信息。神經網絡在得到訓練后,就能夠起到從相同類型沒有處理過的數據中獲取信息的作用。神經網絡算法最大的不足在于,無法從大量的生物信息數據參數中提取出最簡單的知識。
3 參數化算法
參數化算法作為一種先進的計算機算法,通過將計算實踐和計算理論有效地結合在一起,從而不斷提高解決生物信息學組合問題的效率。通過學習參數計算理論可以知道,在生物信息學中的某些NP-難問題能夠實行參數化,簡單來說就是合理設計出算法復雜度為“0”的計算方法。在這個過程中,c作為一個常數,n則作為問題的規模,k是一個參數,這個參數的變化過程只能保持在一個小的范圍中。一旦常數c的數值較小,參數化算法就能充分的抓住k作為一個小參數的特性,較為快速的破解掉生物信息學中的NP-難問題。
4 結束語
綜上所述,要想大力發展生物信息學,就必須將生物學和計算機學緊密的結合在一起。既要加強生物學方面知識的學習,還要不斷對計算機算法進行改革創新,提高計算機算法的運行速度以及精確度,共同促進生物信息學穩定持續的發展。
參考文獻
[1](沙特) Alsuw aiyel M H.算法設計技巧與分析[M].吳偉昶,方世昌,等,譯.北京:電子工業出版社,2008:371-407.
[2](美) Baxevanis And reas D,F rancis Ouellette B F.生物信息學:基因和蛋白質分析的實用指南[M].李衍達,孫之榮,等,譯.北京:清華大學出版社,2008:13-120.
[3]楊久俊,鄧輝文,滕姿.基于混沌免疫進化算法的聚類算法分析[J].計算機科學,2008,8:154-156.
[4]謝民主.單體型組裝問題參數化建模及算法研究[D].長沙:中南大學,2008.
[5]黃艷新,周春光,鄒淑雪,等.一種求解類覆蓋問題的混合算法[J].軟件學報,2009,16(4):513-522.
作者簡介:苗濤(1991-),男,漢族,陜西省榆林市人,江南大學理學院2011級本科在讀,研究方向:計算機算法、數學。