999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小腦基因表達數據的模糊多尺度聚類分析*

2011-02-03 03:50:34唐世星張吉強張彥琦
中國衛生統計 2011年3期
關鍵詞:生物學信號分析

陳 軍 潘 艷 唐世星 張吉強 劉 嶺 張彥琦 易 東△

小腦基因表達數據的模糊多尺度聚類分析*

陳 軍1潘 艷2唐世星3張吉強4劉 嶺1張彥琦1易 東1△

目的為了更好地建立符合生物學意義的基因歸類,為一些未知基因的功能提出解釋提供參考。方法首先對小腦組織隨機抽取100組預處理后的基因表達數據,對每個由7個時間點所成的基因表達信號做多尺度分析,其次在各個尺度下運用改進的FCM算法設計了一個歸類閥值,并利用模糊聚類Xie-Beni指數得到了最優聚類數并實現各個尺度下小腦組織基因的聚類,并把每一層對應的聚類結果輸出到文本文件,最后找出各層聚類結果完全一致的基因進行歸類并進行生物學解釋。結果 得到的小腦組織基因最優聚類數為3類,通過分類結果對照發現,各類中的大多數基因生物學意義接近。結論 運用多尺度分析并結合FCM算法應用于基因聚類是有效的,結果具有一定生物學意義,能對生物學基因聚類及基因功能解釋具有一定指導作用。

多尺度分析 FCM算法 Xie-Beni指數 聚類 基因

*:國家自然科學基金(No.30872184)

1.第三軍醫大學衛生統計學教研室(400038)

2.重慶師范大學生命科學學院(401331)

3.承德石油高等專科學校數理系(067000)

4.第三軍醫大學神經生物學教研室(400038)

△通訊作者:易東,E-mail:yd_house@hotmail.com

聚類分析是大規模基因表達譜目前使用最廣泛的統計技術,主要任務是將具有相似表達模式的基因進行歸類,從而發現特征相似或生物功能相似的一組基因,使人們更深入地認識諸多生物現象的本質,如基因功能、發育、癌癥和藥理等。聚類分析也是探索未知基因功能的重要工具,且是后續研究的基礎。其中模糊C均值(FCM)聚類算法是目前對基因分類比較好的一種方法〔1,2〕。

目前幾乎所有的聚類方法都屬于硬聚類,即每個樣本最后歸類時都屬于非此即彼,類與類之間沒有交集。但從生物學角度看,對其進行非此即彼的嚴格劃分并不符合生物學自然規律,某些基因可能屬于多個類別,參與多個生物過程或生物過程中的調控,因此針對于這個問題我們需找到一些更符合生物學特點的歸類方法。本文在此基礎上提出了一種新的聚類思路,將FCM聚類算法進行了改進并引入了小波多尺度分析思想,將其應用于胎兒小腦基因表達數據的聚類分析,來實現這一目標。其綜合思路是將基因表達信號分解成多個尺度成分(或層),從宏觀到微觀進行綜合分析,若探討某兩個基因是否可以聚為一類可以從這兩個基因的表達信號的各個尺度下的一個變化趨勢進行綜合考慮,也就是從宏觀到微觀的變化趨勢進行一個綜合考慮,如果這兩個基因在各個尺度下的變化趨勢一致,我們完全有理由認為它們可以聚為一類,這樣就更有效地分離出有相近生物學功能或調控的基因;而利用FCM聚類算法確定的最終隸屬度矩陣確定一個閥值我們可以實現在每一個尺度成分下基因聚類的軟劃分,即某個基因可以同時歸屬于幾個類別,這樣更加符合生物學特點。

多尺度分析作為數據處理和現象分析的一種重要統計方法,國內外學者對此做了比較系統的理論研究〔3-5〕。由于其數據處理和現象分析全面,其應用前景十分廣闊。而各種聚類方法一般需要預先給定聚類數,這對于在大多數情況下聚類數是未知的基因表達數據很不適用,因此本文還對FCM聚類算法使用Xie-Beni指數作為聚類結果的評價指標〔6〕,使用Matlab軟件進行了仿真得到最優聚類數,并對結果進行了生物學解釋。

多尺度模型及FCM聚類算法

1.多尺度分析

多尺度分析源于傅里葉變換,但其理論研究和實際應用領域已經遠遠超過傅里葉變換。在理論方面,該方法主要是建立在小波多分辨率分析及Mallat分解及重構算法之上的;在應用方面,多尺度分析必須要選擇好小波函數,確定分解及重構層數〔7〕。現在,多尺度分析的應用領域非常廣泛,對于具有多層尺度特性的具體問題,都可以嘗試建立多尺度分析,此時,是建立了一個小波分析的多尺度模型,即是建立了一個從宏觀到微觀的空間幾何模型。廣義上說,多尺度模型包含了空間尺度、時間尺度及語義尺度等〔8〕。

對于一列信號,記為s,對其進行小波多尺度分析,即指對信號進行多個尺度的分解與重構,從不同的尺度分析其信號的方法。下面以對s進行三層多尺度分析來說明其原理。如圖1所示,對于信號s,通過小波變換分解為a1和d1,a1稱為近似系數,或者從頻率上稱為低頻部分;d1稱為細節系數,從頻率上稱為高頻部分。a1中含有原始信號s的有用成分較多,能夠起到有效的近似替代原始信號s的作用,而d1則代表了噪聲。在第一層上,我們有s=a1+d1。要是需要做更細的劃分,我們可以將低頻部分d1再次分解為a2和d2,同理可以再將第二層的低頻部分a2再次分解為a3和d3。以此類推,如果進行更多尺度的分解,則有ak=ak+1+dk+1。

圖1 三層多尺度分解示意圖

若要將信號完全重構,則有

在實際應用中,我們一般根據需要先確定分解和重構的層數。如果去掉某些高頻部分,則可達到降噪的目的。當原始信號的噪聲不是很強時,我們可以只去掉很少一部分的噪聲信息,這樣可以保留更多的原始信號。

2.FCM聚類算法

(1)FCM聚類算法的優點

①從生物學角度看,某些基因可能與多個類別高度相關,對其進行非此即彼的嚴劃分不符合自然規律。

②由于生物樣本對象和實驗因素的影響,在微陣列數據中存在大量噪音數據,而模糊聚類具有很強的噪音魯棒性,能夠在一定程度上減少噪音數據帶來的影響。已有文獻以FCM法為例詳細論證了模糊聚類的噪音魯棒性。

鑒于以上兩個方面的原因,我們認為模糊聚類更適合于對基因表達數據進行分析。

(2)改進的FCM聚類模型

FCM聚類算法,即模糊ISODATA,是用隸屬度確定每個數據點屬于某個聚類的程度的一種聚類算法。FCM算法是一種柔性的模糊劃分,其思想是使得被劃分到同一簇的對象之間相似度最大,而不同簇之間的相似度最小。FCM算法的目標函數的一般形式為:

(3)Xie-Beni指數

模糊聚類的最主要不足在于無論所給的聚類數如何,它總能將樣本集進行分類,因此大多數聚類算法需要事先確定樣本集的分類數。關于樣本集的最優分類數問題屬于聚類有效性問題,文獻〔10〕指出Xie-Beni指數是一種具有較好效果的模糊聚類有效性指標,其計算公式如下:

并且當聚類數c取得對應最優類數c*時,V值最小。文獻〔11〕指出加權指數m的取值不僅與給定樣本集的結構有關,而且與樣本的模糊劃分有關,此處我們取加權指數m=2。即Xie-Beni指數公式為:

根據(3)式確定最優聚類數c*的步驟如下:①給定c的范圍是[2,]〔12〕;②計算當時每個整數c對應的V值;③選取最小V值對應的c值,即為最優聚類數c*。

多尺度聚類模型及實例分析

1.多尺度聚類模型

對小腦組織的一組基因芯片數據,設基因芯片微陣列實驗中,對小腦組織按照時間順序進行了T次試驗,每次試驗所生成的芯片有N個基因,則可以得到N×T的基因表達矩陣。該模型的具體實施步驟為:

(1)對原始基因表達矩陣進行預處理;

(2)對每個基因在各個時間點所組成的信號作多尺度分解,記尺度數為K;

(3)將每個基因的第一尺度信號(記為aK)還原為基因表達數據,組成小腦組織N個基因在第一尺度的表達矩陣B1(N×T);同理,第m個尺度上的信號aK+dK+…+dK-m+1還原后組成N×T維的矩陣Bm(N×T),由此我們得到了還原后的K個尺度的基因表達矩陣;

(5)基因歸類:矩陣C的任意兩行組成的向量表示任意兩基因在m個尺度下的聚類結果。如果兩向量相等即此時對應的二基因的聚類結果在各個尺度下完全一致,此時,我們認為可將此二基因歸為一類,依次類推。

若基因A與基因B歸為一類,基因B與基因C歸為一類,但根據歸類準則基因A與基因C不能歸為一類,則此時基因B就同時歸屬于兩類;而如果根據歸類準則基因A與基因C也歸為一類,那么此時基因A、B、C同時歸屬于一類。這樣某些基因最后可能會同時歸屬于某幾個類即最后的分類屬于軟劃分,這樣是符合生物學意義的。

因為最后歸類時為一個取交集的思想,因此最后可能有某些基因不在任何分類中,會有缺失信息,因此多尺度聚類屬于一個優化聚類。

(6)結合生物信息學相關知識對歸類結果進行解釋及評估。模型的具體實施步驟見圖2。

圖2 多尺度聚類模型示意圖

2.實例分析

(1)數據預處理

一般我們認為ratio'>2或者ratio'<0.5的基因是表達有顯著變化的基因。一般情況下,當數值大于2時,我們認為基因上調;當數值小于0.5時下調。本文使用如下方法對原始基因表達數據xij按照如下步驟進行預處理:①在原始數據中去挑選出滿足0<xij<0.5或者xij>2的數據;②對挑選出的數據取以2為底的對數。通過對原始10080組數據進行預處理,最終得到了1068組有顯著變化的基因表達數據,我們隨機抽取其中100組連續有效數據作為實驗(在不引起混淆的情況下,下文把這100組基因表達數據簡稱為基因數據)。

(2)多尺度分析結合FCM算法對小腦基因的聚類分析

本文首先對小腦基因進行多尺度分解及重構,小波基函數選擇為Db5,尺度選為3層,第一尺度重構信號為a3,第二尺度重構信號為a3+d3,第三尺度重構信號為a3+d3+d2,此時得到的各尺度信號既可以有效表現出原始信號的大致概貌,又對峰值有很好的體現,且各尺度信號之間的一致性也表現的比較好。下使用上述多尺度聚類模型對各個尺度重構的基因表達數據進行模糊聚類分析,使用Matlab軟件的模糊邏輯工具箱提供的函數,對于每個聚類數c(由Xie-Beni指數的求解步驟可知,c的取值范圍在2~10之間)進行迭代,編寫程序〔10〕進行模糊聚類,得出不同尺度不同的c值對應的Xie-Beni指數以及對應的聚類隸屬度矩陣U=(uij)c×N。由此最后我們可以得出各尺度最優的聚類數均為c*=3,因此我們將這100個基因分為3類。在聚類過程中,3個尺度的方差分析結果均有P<0.01,說明聚為3類能顯著地將這100個7個時間點變量區分開。

最后若某兩個基因在各尺度下的分類結果完全一致,則最終歸入到同一類,依此下去統計出最終的分類結果(見表1所示,這里我們只錄入基因的實驗標號)。

聚類結果分析及生物學解釋

1.聚類結果的分類結果分析

從本文所得結果可以看出,將這100個基因分為3類是最優的聚類結果,類與類之間存在重復基因,如第43號基因同時歸入第二類及第三類,45號基因同時歸入第一類及第三類,這可能與某些基因的功能比較繁雜,參與生物學調控的方面比較多有關系,由文獻〔13,14〕可知第43號基因KH-type splicing regulatary protein(KSRP)是一個參與了細胞發育中的多個過程的多領域RNA粘合蛋白質,而第45號基因myosin IC在細胞生長發育過程中參與了多個生物過程調控,與它們屬于多分類相吻合;而這3類的基因的位置相對比較接近,即每個類中的基因成團分布在某幾個塊上。我們認為,在基因芯片的數據處理上,由聚類結果在基因芯片上的位置進行推測,在基因芯片制作的過程中,基因位置的選擇或許有一定的規律,可能會將功能相似的基因放在一個塊上,而且,位置越接近的基因實驗條件越相近,其相互影響越大,從而在基因表達上有一定的同趨性。所以,從分類結果來看,我們認為是比較合理的。

表1 最終分類結果

2.聚類的生物學解釋

數學模型推測出的分類結果是否合理,最好的方法是以實驗方法去驗證,而對于基因分類的結果好壞,最好的方法就是從生物學的角度進行解釋,看所得結果是否符合生物學意義,類間的基因是否同質,這里的同質是指類間的基因是否在生物過程、細胞組成、分子功能這些方面有相似的地方。由于本課題研究的是胎兒發育過程中的小腦組織基因的調控規律,因此我們著重選擇生物過程、發育過程、代謝過程、細胞構成、生物過程中的調控等項目,同時我們在基因類中只考慮具有調控功能的基因,并將類中所屬的基因映射到Gene Bank(http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly)中查詢其詳細功能,代表性結論如下:

第一 類:例 如 No.22(as paraginyl-tRNA synthetase)、No.27(protein tyrosine phosphatase,receptort)、No.42(Lutheran blood group(Aubergerb antigen))、No.45(myosin IC)、No.58(phosphatidylinositol(4,5)bisphosphate)這5個基因都在細胞生長發育的過程起到了一定調控作用。如No.22(asparaginyl-tRNA synthetase)是一種Ⅱ型合成酶,它對細胞的生長發育起到明顯的促進作用,在生物過程中起正調控作用;文獻〔14〕顯示No.45(myosin IC)與細胞生物合成及基因表達的轉錄過程有一定關聯。

第二類:例如No.13(CLIP-associating protein 2)、No.19(single-stranded DNA binding proteinB)、No.33(guanine nucleotide binding protein)、No.43(KH-type splicing regulatary protein(KSRP))、No.53(hypothetical protein FLJ22638)這5個基因均屬于組蛋白家族。

第三類:例如No.2(thyroid hormone receptor interactor 7)、No.3(transcription elongation factor B(SIII))、No.43(KH-type splicing regulatary protein(KSRP))、No.45(myosin IC)、No.67(polymyositis/scleroderma autoantigen 1)、No.89(chondroitin sulfate proteoglycan 6)這5個基因都參與了mRNA轉錄的過程,而其中No.43(KH-type splicing regulatary protein(KSRP))還屬于組蛋白家族,因此也屬于第二類;而No.45(myosin IC)還參與了生物過程調控,因此也屬于第一類。

展望與建議

從聚類結果的分類結果及生物學意義分析來看,分類結果比較合理,符合FCM算法Xie-Beni指數最小以達到最優聚類,而分類結果的生物學解釋也基本合理。結果表明該算法具有較高的準確性和穩定性,是一種有效的基因表達數據聚類方法,可以為進一步分析基因的生物學功能提供一個參考。

該模型的不足在于:(1)模糊隸屬度的確定沒有一個明確的準則以及結果的生物學解釋還不夠全面充實,我們從Gene Bank數據庫只能查詢某些基因的功能,不能查出基因之間的一些關系,因此結果的生物學驗證不夠充實和具體;(2)多尺度聚類為一個優化聚類,但是可能不能完全將所有個體歸類,比如本例最終的聚類結果中少了1號及4號樣本。如何能更加全面地考慮所有樣本的信息是模型仍需改進的地方;(3)尺度數及小波基函數的確定尚沒有統一理論指導,仍處于探索性階段,做大量實驗以及查閱大量文獻做對比來驗證優劣,如何找到一個適用的判別法則是我們今后工作的努力方向。

1.Futschik ME,Kasabov NK.Fuzzy clustering of gene expression data.IEEE Trans on Fuzzy System,2002(1):414-419.

2.岳峰,孫亮,王寬全,等.基因表達數據的聚類分析研究進展.自動化學報,2008,34(2):113-120.

3.文成林.多尺度動態建模理論及其應用.北京:科學出版社,2008:1-9.

4.潘泉,張磊,崔培玲,等.動態多尺度系統估計理論與應用.北京:科學出版社,2007:1-6.

5.Willsky AS.Multiresolution Markov models for signal and image processing.Proceedings of the IEEE,2002,90(8):1396-1458.

6.普運偉,金煒東,朱明,等.核空間中的Xie-Beni指標及其性能.控制與決策,2007(7):830-835.

7.樊啟斌.小波分析及其應用.武漢:武漢大學出版社,2007:64-66,194-196.

8.李霖,吳凡.空間數據多尺度表達模型及其可視化.北京:科學出版社,2005:35-38.

9.劉青,鄧慶山.基于有效性測度的基因表達數據的模糊聚類分析.計算機工程與科學,2005,27(9):74-76.

10.Xie XL,Beni GA.A validity measure for fuzzy clustering algorithm.IEEE Trans on Pattern Anal Machine Intel,1991(8):841-846.

11.宮改云,高新波,伍忠東.FCM聚類算法中模糊加權指數m的優選方法.模糊系統與數學,2005(1):143-148.

12.于劍,程乾生.模糊聚類方法中的最佳聚類數的搜索范圍.中國科學(E 輯),2002(2):274-280.

13.Hall MP,Huang S,Black DL.Differentiation-induced colocalization of the KH-type splicing regulatory protein with poly pyrimidine tract binding protein and the c-src pre-mRNA.Molecular biology of the cell,2004,15(2):774-786.

14.Ivan CB,Edward DK.Localization of myosin IC and myosin II in Acanthamoeba castellaniiby indirect immunofluorescence and immunogold electron microscopy.The journal of cell biology,1990,111(5):1895-1904.

Fuzzy Multiscale Clustering Analysis of Cerebella Gene Ex- pression Data

ChenJun,PanYan,TangShixing,etal.Depart-mentofMedicalStatistics,ThirdMilitaryMedicalUniversity(400038),Chongqing

ObjectiveIn order to establish genetic classification in according with biological significance,and give reference to interpret some unknown gene’s function.MethodsFirst of all we did a multiscale analysis toward cerebella gene expression signal,subsequently we used an improved FCM clustering algorithm and design a classification threshold in various scales,then we used fuzzy clustering Xie-Beni index to achieve the optimal number of clusters and accomplish the clustering of cerebella genes of various scales,and each of class corresponding gene labelwas exported to txtfile,finally we found out the genes which were classified exactly the same in every layer and were conducted their biological explanations.ResultsThe optimal number of clusters of cerebella genes was 3 categories,and we according to the classification results comparison,we found thatmajority of genes in various types had close biological significance.ConclusionIt is effective to gene clustering where usemultiscale analysis combine FCM algorithm,the result has certain biological significance,it can give guidance in biological gene clustering and explaining gene function.

Multiscale analysis;FCM algorithm;Xie-Beni index;Clustering;Gene

猜你喜歡
生物學信號分析
谷稗的生物學特性和栽培技術
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
隱蔽失效適航要求符合性驗證分析
完形填空二則
初中生物學糾錯本的建立與使用
初中生物學糾錯本的建立與使用
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
電力系統及其自動化發展趨勢分析
基于LabVIEW的力加載信號采集與PID控制
主站蜘蛛池模板: av大片在线无码免费| 国产精品深爱在线| 都市激情亚洲综合久久| 亚洲国产精品人久久电影| 亚洲男人的天堂网| 久久精品电影| 国产成+人+综合+亚洲欧美| 久久这里只有精品国产99| 欧美日韩高清| 国产在线一区视频| 永久免费av网站可以直接看的| 男人天堂伊人网| 91激情视频| 99热这里只有精品2| 国产午夜无码片在线观看网站| Aⅴ无码专区在线观看| 亚洲无码视频一区二区三区 | 中文字幕亚洲精品2页| 国产网友愉拍精品| 国产成人高清精品免费5388| 久久久久久久久18禁秘| 国产丝袜啪啪| 亚洲va视频| 97se亚洲综合在线韩国专区福利| 玖玖免费视频在线观看| 日日碰狠狠添天天爽| 人妻精品全国免费视频| 永久毛片在线播| 国产成人精品男人的天堂下载| 国产真实乱人视频| 欧美高清国产| 99热亚洲精品6码| 国产麻豆va精品视频| 天天综合网色| 国产丝袜一区二区三区视频免下载| 激情综合婷婷丁香五月尤物| 国产午夜不卡| 午夜毛片免费看| 99ri国产在线| 欧美色伊人| 日韩二区三区无| 91精品国产自产91精品资源| 国产爽爽视频| 日韩欧美高清视频| 亚洲天堂啪啪| 欧美狠狠干| 日韩成人在线视频| 69综合网| 三上悠亚在线精品二区| 97视频免费在线观看| 高清不卡毛片| 免费AV在线播放观看18禁强制| 国产91麻豆视频| 自拍偷拍一区| 91精品aⅴ无码中文字字幕蜜桃| 国产主播在线一区| 99久久精品国产麻豆婷婷| 久久精品丝袜| 手机在线看片不卡中文字幕| 免费看av在线网站网址| 亚洲人成网站日本片| 91系列在线观看| 在线播放国产99re| 欧美成人午夜视频免看| 精品無碼一區在線觀看 | 特级欧美视频aaaaaa| 欧美成人免费一区在线播放| 色综合成人| 亚洲男人在线| 巨熟乳波霸若妻中文观看免费| 欧美一区二区福利视频| 视频在线观看一区二区| 亚洲天堂网在线观看视频| 欧美一区中文字幕| 国产精品蜜臀| 国产精品欧美在线观看| 蜜臀AV在线播放| 国产成人亚洲精品无码电影| 中国国产高清免费AV片| 视频国产精品丝袜第一页| 一本一道波多野结衣av黑人在线| 欧美性色综合网|