999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

哈希方法在生物信息學研究中的應用探討

2018-09-21 11:12:10耿彧白濤
中國管理信息化 2018年12期

耿彧 白濤

[摘 要]哈希表由于能夠實現高效的數據存儲和查找,操作時間可達到O(1)級,所以其被廣泛應用于信息安全、操作系統、數據挖掘和生物信息等領域。本文對哈希方法在生物信息中的應用進行了探討,同時介紹了其他特殊的哈希方法在生物信息相關問題中的解決策略。哈希方法的引入能更好地提高生物信息大數據的存儲與檢索性能。

[關鍵詞]生物信息計算;哈希方法;最小哈希;相似哈希

doi:10.3969/j.issn.1673 - 0194.2018.12.064

[中圖分類號]TP312;R28 [文獻標識碼]A [文章編號]1673-0194(2018)12-0-02

1 哈希方法在組裝技術中的應用

哈希函數可把任意長度的輸入通過一定的算法轉換成固定長度的哈希值,將某種類型的數據元素盡量均勻隨機地映射到一個整數空間。哈希表根據設定的哈希函數和處理沖突方法將一組關鍵字映射到一個有限的地址區間上,在實際中不可避免地產生哈希沖突,一個良好的哈希函數應保證散列均勻、沖突少。在基因序列組裝技術中,通常采用不同的哈希方法對k-mers實現快速存儲與查找。如Meta-IDBA采用一次哈希方法實現宏基因組序列組裝,將k-mers存儲于一個數組中,按數組類型的位數對k-mer進行分段,再對每段進行異或運算。然而,一次哈希函數建立的哈希表策略可能產生較高的沖突率,因此考慮采用多次哈希和多級哈希方法保證裝填因子在更合理的情況下減少沖突率。多次哈希方法先采用一種哈希函數對關鍵字進行散列,然后對發生沖突的關鍵字采用不同哈希函數再次散列。多級哈希方法根據關鍵字的哈希值對數據元素進行“分類”,如SOAPdenovo采用二級哈希方法實現組裝,第一級哈希函數將k-mer進行循環冗余程序計算,按照所得哈希值查找已確定的循環冗余校驗表,得到對應的桶號(0~255),然后對每個桶再次建立第二級哈希表。

以染色體chr19為參考序列,分別采用一次哈希、二次哈希和二級哈希方法,從裝填因子、沖突率和平均查找長度幾個性能指標對不同長度的k-mer進行分析,為基因組序列組裝中哈希方法的選擇提供參考依據。輸入數據為雙末端讀段,插入距離服從正態分布N(500 bp,49 bp),讀段長度為100 bp。一次哈希方法中哈希函數采用分段疊加法,每段長度取27 bp;二次哈希方法中第一次哈希函數采用分段異或法,第二次哈希函數采用分段疊加法;二級哈希方法中第一級哈希函數采用低八位與255進行按位與運算,產生256個桶,再用第二級哈希函數分段疊加法實現桶內的哈希存儲。對于生物信息中涉及的大數據,用公共溢出區的方法按順序查找空位,其效率相對較低,所以通常采用鏈地址法解決沖突。

(1)在無變異的情況下。k值分別取23 bp、45 bp和63 bp,覆蓋度為100×。裝填因子、沖突率和平均查找長度的比較如圖1所示。

一次哈希方法和二次哈希方法中所用哈希表長度均為227,k值越大k-mer數目越少。裝填因子與k值成正比,沖突率、平均查找長度與k值成反比,即k取值越大哈希效果越好。通過分析可見,二次哈希方法性能更優。

(2)對性能較優的二次哈希方法,覆蓋度取值為30×,k-mer取值為63 bp,實現不同變異率下的比較分析,變異率分別為0、10-4和10-5。從圖2可見,隨著變異率的增大,裝填因子、沖突率及平均查找長度均有所增加。

2 其他Hash方法

2.1 最小哈希(Minhash)

Minhash可以用來快速估算兩個集合的相似度。Yang將Minhash用于DNA序列的聚類;VICUNA引入Minhash解決片段重疊群(Contig)中的讀段聚類問題。Jaccard Index是距離的一種度量標準,用來計算集合的相似性。對于集合A和B,當A∪B中具有最小哈希值的元素也在A∩B中,則hmin(A)=hmin(B)。其中,hmin(S)表示集合S中的元素經過哈希函數后,具有最小哈希值的元素。集合A和B的相似度為集合A和B經過哈希函數運算后取得最小哈希值相等的概率,即J(A,B)=Pr[hmin(A)=hmin(B)]。根據Minhash思想計算兩個集合的相似度時,可采用單哈希函數和多哈希函數的解決策略。使用多哈希函數時,如哈希函數個數為k,用k個哈希函數分別對集合A和B求哈希值。每種哈希函數都會得到一個相應的最小哈希值,min(A)={a1,…,ak},min(B)={b1,…,bk}那么A和B的相似度為:J(A,B)=(min(A)k∩min(B)k)/(min(A)k∪min(B)k)。

2.2 相似哈希(Similarity Hash)

相似哈希是一種局部敏感哈希函數,不僅能定性地判斷同類型數據元素是否相同,還能進一步定量分析同類數據元素之間的相似度,即越相似的元素相似哈希值越相近,反之,哈希值相差越遠。將相似哈希的思想引入比對技術中,將讀段拆分為不覆蓋的k段,每一段轉換為一個特征集合,該集合是一個n維的向量V,給特征集合中的每個特征都賦予一個權重,由于讀段中每個位點的地位是均等的,所以每個特征的權值都置為1。由于MD5函數產生的哈希值具有隨機性強的特點,所以對讀段中的k段可采用MD5作為哈希函數進行散列,得到一個n位的哈希值h;如果h的第i位為1,則向量V的第i位加上權值;如果h的第i位為0,則向量V的第i位減去權值;將讀段的k段按位統計,進行累加,如果第i維的累加值大于0,則將相似哈希值中該位置為1,否則置為0,所得結果即為此序列的相似哈希值。

3 結 語

哈希函數可以實現快速索引功能,具有O(1)級的時間復雜度,使其得到了廣泛應用。然而哈希表是基于數組創建的,很難再次拓展,而且裝填因子的大小會影響哈希函數的性能。目前衍生出了許多哈希方法,但不同的應用對哈希函數有著不同的要求。

主要參考文獻

[1]Peng Y,Leung H C M, Yiu S M.Meta-IDBA:a De Novo Assembler for Metagenomic Data[J].Bioinformatics,2011(13).

[2]Li R,Zhu H,Ruan J.De novo Assembly of Human Genomes with Massively Parallel Short Read Sequencing[J].Genome Research,2010(2).

[3]Yang X,Charlebois P,Gnerre S.De Novo Assembly of Highly Diverse Viral Populations[J].Bmc Genomics,2012(1).

主站蜘蛛池模板: 色综合激情网| 亚洲最大在线观看| 狠狠色狠狠色综合久久第一次| 国产成人精品日本亚洲| 亚洲欧美成aⅴ人在线观看| 伊人丁香五月天久久综合| 欧美亚洲中文精品三区| 国产欧美性爱网| 中文字幕天无码久久精品视频免费| 伊人久久婷婷五月综合97色| 67194成是人免费无码| 无码国产偷倩在线播放老年人| 亚洲AV无码久久精品色欲 | 国产呦视频免费视频在线观看| 2019年国产精品自拍不卡| 国产在线观看91精品亚瑟| 色悠久久综合| AV无码无在线观看免费| 国产玖玖视频| 久久精品中文字幕免费| 国产亚洲精品自在久久不卡| 呦视频在线一区二区三区| 免费看的一级毛片| 黄色国产在线| 国内丰满少妇猛烈精品播| 一本大道AV人久久综合| 亚洲无码在线午夜电影| 波多野结衣一区二区三区四区| 亚洲天堂网2014| 国产精品亚洲专区一区| 国产99视频精品免费视频7| 欧美日本中文| 久久青草视频| 婷婷色中文网| 91精品小视频| 67194成是人免费无码| 97se亚洲综合在线| 日韩精品免费一线在线观看| 中文字幕精品一区二区三区视频| 男人天堂亚洲天堂| 久久6免费视频| 99这里只有精品免费视频| 日本午夜视频在线观看| jizz亚洲高清在线观看| 色综合婷婷| 国产爽歪歪免费视频在线观看| 成人一区在线| 欧美人人干| 欧美成人午夜视频免看| 五月婷婷丁香综合| 一本色道久久88| 亚洲自偷自拍另类小说| 国产视频 第一页| 丁香亚洲综合五月天婷婷| 91系列在线观看| 高清视频一区| 国产91成人| 中文字幕在线不卡视频| a级毛片免费看| 国产精品视频a| 国产综合另类小说色区色噜噜| 亚洲 成人国产| 91精品亚洲| 亚洲区第一页| 国产自产视频一区二区三区| 亚洲第一极品精品无码| 亚洲午夜天堂| 亚洲成网站| 亚洲男人的天堂在线观看| 熟妇丰满人妻| 99视频精品在线观看| 在线日本国产成人免费的| 亚洲永久色| 免费高清a毛片| 久久精品波多野结衣| 国产成人av一区二区三区| 91黄色在线观看| 国内熟女少妇一线天| 日韩福利视频导航| 99热这里只有精品免费国产| 女人一级毛片| 国产精品太粉嫩高中在线观看|