999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于生物特征基因數據的統計學研究

2018-05-14 14:14:03趙萬通韓延波張浩男
科技風 2018年10期
關鍵詞:數據挖掘

趙萬通 韓延波 張浩男

摘要:本文主要從生物特征基因的提取出發,進而展開對特征基因數據的統計學分析、聚類以及到最終的特征基因表達差異分析,得出結論。本文研究內容的意義在于能夠通過比較同種樣本在不同時期或不同形態下的基因表達差異來得到對我們人類自身有益的、對科學領域研究有價值的基因信息,從而更好的給生物技術領域提供數據支持。

關鍵詞:生物信息;特征基因;統計學分析;數據挖掘

提及特征基因數據,就不得不說起生物信息學,人類在該領域進行的挖掘、剖析等操作依舊是將計算機作為關鍵的方式及工具,其探究活動以蛋白質學與基因組學為主。具體來說,它是在分子層面,通過應用數學、計算機科學及統計分析中衍生出的一系列方法,將切入點選擇為基因組DNA分子序列,在將蛋白質編碼信息數據獲悉之后對其展開結構模擬與預估,并以此為據來針對特定蛋白質功能展開藥物開發的一類學科。因而,以內容為基準,可對生物信息學做出如下闡述:新興算法和統計學研究;數據集的轉化和分析;開發針對數據管理的新工具。而本文所做的工作,則是簡要說明生物特征基因數據分析的過程,包括從最初的樣本數據預處理到后期的統計聚類分析等。

一、國內外研究現狀

在科技持續精進的大背景下,基因組計劃的發展也表現得頗為迅猛,但是相應的數據量也在日益增長,所以我們必須通過生物信息領域的一些相關方法來對這些數據進行收集、整理和分析,然后這些信息才能變成有用的知識和信息。即只有借助生物學手段對此類信息加以處理之后才可以對基因組產生無誤的理解與認識。

(一)國外研究現狀

在生物信息學發展方面,國外給予了極高的關注,諸多的專業研究組織及企業接二連三的創立,相應的科技企業以及制藥工業內部的相應部門也愈來愈多。1993年,歐洲生物信息學研究所EBI開始籌備創建。1995年,日本也建立了信息生物學中心CIB。現如今,大部分核酸及蛋白質數據庫都是源自于上述三個國家。而現階段全球最大的分子生物信息研究、研發及服務組織European Molecular Biology Network是由歐洲國家所創建,其借助計算機網絡達成了德、法、英等多國相應資源的共同分享。與此同時,這些國家又各自創設了自有的相應機構及數據庫,并且都有自己的核心分析技術,為自己國家在該領域內的發展提供支持,其中一部分也會向全球公開供應。

(二)國內研究現狀

近年來,我們國家關于生物信息學的研究也取得了不少的進步,先后建成了北京大學生物信息學中心、中國科學院上海生命科學院生物信息中心等,一些高等院校也已將該學科作為一門專業進行開設。2002年,國家自然科學基金委在生物物理學、生物化學以及生物醫學工程學科的基礎上創建了生物信息學項目,國家 863計劃也特意創設了與其相關的技術主題,以國家需求為內驅力,促使該學科長足發展。不過,由于研究開展的時間較晚加之其他的多個緣由,導致我們國家在該領域的發展與發達國家相比還很落后。由此可見,我國對生物信息學領域的深入研究刻不容緩。

二、特征基因數據的預處理

(一)生物數據特點

細胞在特定條件中的全基因組數據都可借助生物微陣列實驗而獲取,數百數千個基因在細胞中的絕對或者相對豐度都涵蓋在其內,而條件不一樣下的相應數據即可構成一個A×B的數據矩陣M,通常狀況下A>>B,各個基因HYPERLINK"http://www.bio1000.com/reseach/gene/"\t"http://www.bio1000.com/experiment/fenzi/_blank"在某種條件下的表達水準都可借助其中相應的元素加以代表,而基因在B個條件下的表達則由行向量所代表,某條件下各個基因的表達則由水平列向量所代表。

(二)數據處理方法

在對特征基因數據HYPERLINK"http://www.bio1000.com/zhuanti/product/201308/444070.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"進行整理、剖析和數據挖掘前,經常要按照實際情況對其進行數據預處理,包括對數據遺失的修補、對殘缺數據的移除以及對相似數據的捏合等處理方法,按照分析的具體目的而展開過濾,同時依據分析方式來選取相應的數據轉換手段。但是在現實之中,時空特異性是生物細胞中的基因表達的一個特別之處,在某一條件下可以真正表達的基因所占據的比例極小。所以,DNA微陣列實驗所獲取的數據矩陣里出現的絕大多數基因表達譜曲線都較為平緩,即基因表達水平變化很小。生物學研究者對于此類基因通常不會過多關注,然而它們的出現卻會導致數據剖析活動變得更加繁雜,并且有礙于結果的客觀性,所以對這些數據進行過濾是非常有必要的。基因表達HYPERLINK"http://www.bio1000.com/zt/gene/jiyin.html"\t"http://www.bio1000.com/experiment/fenzi/_blank"譜數據在完成此處理之后,以及在聚類分析等操作開始之前,通常還需完成數據的轉換,也就是將其形式加以改變,使其更適于挖掘。由此看來,數據的轉換處理離不開數據的標準化。數據的標準化即為把全部數據轉換至相同的一個范疇之中,從而使對比及運算都變得較為簡單,然而在標準差與0較為相近的時候便會出現極大的噪聲,恰是因為如此所以才會必須完成上述的過濾處理。在標準化結束之后,各個基因表達譜的平均值都為0,標準差為1。

三、數據的統計學分析

(一)數據的統計

在大部分現代生物學當中,統計分析是重中之重,是前者的根基。諸多的生物學假說都是借助繁雜的統計學模型擬合而成的。當前,統計學軟件的功能已經十分強大,而且使用便捷,任何人都可以借助其完成模型,數據的處理是此方面的關鍵。在該領域信息分析期間,統計分析的運用從開始到結束都是不可或缺的。數據的統計主要是通過對樣本進行相關性分析以及顯著性檢驗來判斷表達出不同性狀的基因之間的相關性,以便于更好的對其進行聚類和比較分析。

斯皮爾曼相關性分析:可在多個范疇之內加以運用,其等級相關對數據條件的要求的嚴苛度并不及積差相關系數,僅需兩個變量的觀測值是匹配的等級評定信息,或者是通過持續變量觀測資料轉變而獲取的等級信息,都可借助斯皮爾曼等級相關展開探究,而對兩個變量的整體排列狀態等都不存在限制。

肯德爾相關性分析:肯德爾相關系數是用以對兩個隨機變量相關性的統計值進行測量。一個肯德爾檢驗即可被視作一個無參數假設驗證HYPERLINK"http://www.so.com/s?q=%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C&ie=utf8&src=se_lighten_f"\t"http://blog.sina.com.cn/s/_blank",其借助運算而獲取的相關系數來對兩個隨機變量的統計依賴性加以驗證。此系數的數值為1~1,一旦τ=1,則代表兩個隨機變量的等級相關性完全相同;一旦τ=1時,則結果相反;一旦τ=0,則代表二者間具有單一性。

我們主要通過這兩種系數來進行相關性分析,從而能夠根據得到的相關性情況更好的對數據進行聚類。

(二)數據的聚類

聚類分析是統計學中極為關鍵的方法,應用面較為廣闊。上文中首先運用統計學中的相關性分析檢驗如斯皮爾曼相關系數、肯德爾相關系數等對樣本數據進行相關性檢驗,目的是以此來判斷表達出不同性狀基因之間的相關性,以便于更好的進行聚類。所以,下面將介紹兩種常用的聚類方法,主要用來對樣本數據進行聚類分析。

Kmeans聚類:指定聚類,也就是指定變量至某一個類,必須使其與這個類中心的間距比其至其它相應中心小。它是一種迭代聚類方法,它要求最接近某一類中心距離的那些變量歸為這一類,而再借助每個類中的平均將該類中心值加以代替,所以才會如此命名。這可以由一個交替最小化算法優化過程中給出,因此我們可以獲得最優的中心值。算法輸入:初始隨機選擇一個基因作為中心值,對剩余的每個基因比較到每個中心的距離的大小,將其賦給距離最小的那一類,然后重新計算該類的中心值。算法輸出:不斷重復上述算法,直至符合方差最低標準的聚類。

模糊聚類:此類分析是關系到事物相互間的模糊邊界的時候依據相關條件展開對事物的類別劃分的數學方法。在數理統計HYPERLINK"https://baike.baidu.com/item/%E6%95%B0%E7%90%86%E7%BB%9F%E8%AE%A1/408183"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"活動當中,經常用到聚類分析HYPERLINK"https://baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank",它是一種多元剖析的方式,借助數學手段對樣本的關聯性加以定量明確,從而使分出的類別具有較強的客觀性。事物之間的界限,有些是確切的,有些則是模糊的。譬如天氣的陰、晴邊界即為模糊。基本過程為:變量或者樣本之間的相似系數HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%B3%BB%E6%95%B0"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank"展開運算,創設模糊相似矩陣HYPERLINK"https://baike.baidu.com/item/%E7%9B%B8%E4%BC%BC%E7%9F%A9%E9%98%B5/10369874"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";借助模糊運算來合成優化相似矩陣,以獲取模糊等價矩陣HYPERLINK"https://baike.baidu.com/item/%E7%AD%89%E4%BB%B7%E7%9F%A9%E9%98%B5"\t"https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/_blank";最后依照各種的截取水準λ對獲取的上述矩陣加以截取類別劃分。

通過以上幾種方法對所研究樣本數據進行聚類分析,并得到相應的分析圖形與表格,最后通過分組對比獲取的結果可將特征基因在各類樣本數據中的表達區別展現出來。

四、總結

本文針對現代生物信息學中的統計學分析方法進行了簡單的闡述,伴隨前者的高速發展,特定功能基因篩選己經成為了該領域研究的一個重要方向,從海量數據中篩選出對生物遺傳性狀和生命活動有指導意義的信息已變成當前該領域的全新探索方向。在此過程中,統計學在生物信息分析活動中得到了大量的運用。同時也進行了數據處理方法分析,對待研究的樣本數據做預處理和統計分析,包括從相關性分析到聚類分析等。文章的實施目的在于能夠從以上分析的基礎上提取出一些對科學研究有價值的數據,以便于更好促進對生物信息領域的理解,也能更好的為人類基因組學提供數據支持。

雖然目前針對特征基因數據可以用多種分析方法來分析,但是實際操作中難免會遇到一些客觀因素帶來的問題,比如:基因有其復雜性,故在對樣本進行分析過程中,可能會造成一定的誤差;相關性分析的方法都有其使用條件,因而不能涵蓋所有類型的數據;當前對基因數據的研究還只是停留在初級階段,所使用的手段還很有局限性。所以,對于之后要進行的工作以及對最終結果的論證還需要相關技術人員做進一步的基因蛋白數據庫比對研究。

參考文獻:

[1]郭樂樂.統計聚類在生物信息分析中的應用[D].蘭州大學碩士論文,2014.

[2]肖文莉.圖形表示在生物信息學中的研究及應用[D].燕山大學碩士論文,2016.

[3]趙屹,谷瑞升,杜生明.生物信息學研究現狀及發展趨勢[J].醫學信息學雜志,2012,(5).

作者簡介:[JP2]趙萬通(1994),男,遼寧海城人,大連海洋大學理學院在讀研究生,研究方向為生物信息處理;張浩男(1994),男,遼寧大連人,大連海洋大學理學院在讀研究生,研究方向為生物信息處理。[JP]

*通訊作者:韓延波(1977),男,遼寧營口人,大連海洋大學合作發展辦公室主任,碩士,助理研究員,研究方向為教育管理。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: a网站在线观看| 五月婷婷精品| 国产 日韩 欧美 第二页| 日韩午夜福利在线观看| 欧美日韩国产高清一区二区三区| 综合色在线| 热99精品视频| 2021国产乱人伦在线播放| 亚洲福利视频网址| 欧美va亚洲va香蕉在线| 国产精品第一区| 日韩欧美国产中文| 国产视频a| 97青青青国产在线播放| 波多野吉衣一区二区三区av| 老司机久久99久久精品播放 | 欧美午夜久久| 亚洲男人的天堂网| 国产福利免费视频| 亚洲国产清纯| 国产精品视频导航| AV片亚洲国产男人的天堂| 无码'专区第一页| 欧美v在线| 欧美19综合中文字幕| 日本精品视频一区二区| 伊人久久精品亚洲午夜| 久久青草免费91观看| 亚洲综合色区在线播放2019| A级毛片无码久久精品免费| 婷婷综合缴情亚洲五月伊| 国产91在线|日本| 国产成人久久777777| 国产青青草视频| 91视频首页| 中文毛片无遮挡播放免费| 女人18一级毛片免费观看| 久久精品免费国产大片| 精品一区二区三区自慰喷水| 97青草最新免费精品视频| 国产又粗又爽视频| 国产精品欧美在线观看| 亚洲综合九九| 91色在线观看| 欧美另类图片视频无弹跳第一页| 狠狠色丁香婷婷综合| 欧美成人一级| 日韩在线视频网站| 国产激爽大片在线播放| 日韩在线视频网站| 中文字幕色在线| 看你懂的巨臀中文字幕一区二区| 这里只有精品在线| 日韩福利在线观看| 91成人在线观看视频| 白丝美女办公室高潮喷水视频| 美女一级毛片无遮挡内谢| 中文字幕乱码中文乱码51精品| 人妻精品全国免费视频| 久久网综合| 日本三级欧美三级| 久久久91人妻无码精品蜜桃HD| 538精品在线观看| 久久香蕉国产线看观| 色婷婷色丁香| 素人激情视频福利| 中文字幕啪啪| 日韩av无码DVD| 四虎精品黑人视频| 欧美三级视频在线播放| 久久综合丝袜日本网| 国产成人精品亚洲日本对白优播| 毛片基地视频| 免费福利视频网站| 日韩毛片在线播放| 久久亚洲天堂| 一级一级一片免费| 免费一看一级毛片| 国产成人夜色91| 狠狠ⅴ日韩v欧美v天堂| 99精品久久精品| 18禁不卡免费网站|