模糊聚類(lèi)法在動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)趨勢(shì)聚類(lèi)中的應(yīng)用*

2015-03-09 06:52:04山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系250012劉盈君公曉云薛付忠

中國(guó)衛(wèi)生統(tǒng)計(jì) 2015年1期

山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系（250012）王璐張濤劉佳劉盈君公曉云薛付忠

山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系（250012）王璐張濤劉佳劉盈君公曉云薛付忠△

目的探討模糊C均值聚類(lèi)方法（FCM）在動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)不同動(dòng)態(tài)趨勢(shì)聚類(lèi)中的應(yīng)用。方法使用模糊C均值聚類(lèi)方法，分別對(duì)模擬的動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)基因表達(dá)進(jìn)行聚類(lèi)，識(shí)別不同的變化模式。結(jié)果對(duì)模擬數(shù)據(jù)的分析顯示，F(xiàn)CM可以準(zhǔn)確地識(shí)別模擬設(shè)定的不同動(dòng)態(tài)變化趨勢(shì)，并將其聚為一類(lèi)；同時(shí)，通過(guò)設(shè)定隸屬度閾值我們可以避免對(duì)噪聲變量的聚類(lèi)。而對(duì)動(dòng)態(tài)基因組表達(dá)數(shù)據(jù)的實(shí)例分析表明FCM可以有效地將具有相同表達(dá)模式的基因聚類(lèi)，并且能給出類(lèi)間關(guān)系。結(jié)論模糊C-均值聚類(lèi)可以用于動(dòng)態(tài)組學(xué)數(shù)據(jù)不同動(dòng)態(tài)變化模式的聚類(lèi)，幫助我們更有效地探索生物信息。

動(dòng)態(tài)組學(xué)數(shù)據(jù) 模糊C均值聚類(lèi)

生命過(guò)程是動(dòng)態(tài)連續(xù)的，且存在一定的趨勢(shì)和規(guī)律。傳統(tǒng)的組學(xué)研究多為基于靜態(tài)采樣設(shè)計(jì)的分類(lèi)研究，很難追蹤生物體的縱向變化趨勢(shì)。而動(dòng)態(tài)組學(xué)研究設(shè)計(jì)是指在一個(gè)連續(xù)時(shí)間段內(nèi)的多個(gè)時(shí)間點(diǎn)上對(duì)生物樣本進(jìn)行采樣并測(cè)量的設(shè)計(jì)類(lèi)型［1］。它使得分析生物體在疾病或外界干預(yù)刺激下的動(dòng)態(tài)變化規(guī)律變?yōu)榭赡堋Ｏ啾扔陟o態(tài)采樣，動(dòng)態(tài)采樣使得我們可以測(cè)量和控制不同類(lèi)型的變異，例如代謝動(dòng)力學(xué)的個(gè)體差異，生理節(jié)奏，以及響應(yīng)快慢的差異等，從而幫助我們更準(zhǔn)確地找到隨時(shí)間變化的關(guān)鍵標(biāo)記物。例如，通過(guò)測(cè)量酵母菌細(xì)胞周期不同時(shí)間點(diǎn)的基因組表達(dá)水平，我們可以識(shí)別同酵母菌細(xì)胞周期相關(guān)的關(guān)鍵基因并了解其變化規(guī)律，從而為我們理解細(xì)胞周期的調(diào)控過(guò)程提供新的線索。

近年來(lái)，動(dòng)態(tài)設(shè)計(jì)的組學(xué)研究逐漸成為熱點(diǎn)。而如何識(shí)別動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)中隨時(shí)間變化的關(guān)鍵生物標(biāo)記物及其變化趨勢(shì)，是統(tǒng)計(jì)分析的關(guān)鍵。動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)除具有縱向數(shù)據(jù)的特點(diǎn)外，還具有一般組學(xué)數(shù)據(jù)的高維、小樣本特性，并且其中存在許多變化趨勢(shì)相似的變量以及不隨時(shí)間變化的噪聲變量。利用單變量統(tǒng)計(jì)分析，例如重復(fù)測(cè)量方差分析，我們可以識(shí)別隨時(shí)間變化的標(biāo)記物，但是無(wú)法識(shí)別其復(fù)雜的變化趨勢(shì)，且忽略了變量間的相關(guān)性。而使用無(wú)監(jiān)督的聚類(lèi)分析，能夠同時(shí)考察所有變量，將其中變化趨勢(shì)一致的生物標(biāo)記物識(shí)別出來(lái)，這對(duì)于生物機(jī)制的研究具有重要意義。模糊聚類(lèi)允許將聚類(lèi)對(duì)象模糊歸類(lèi)，即使其以不同的隸屬度屬于不同的類(lèi)，避免了隨機(jī)化變量的歸類(lèi)，因而對(duì)噪聲更加穩(wěn)?。?］，適合于分析存在著大量噪聲的組學(xué)數(shù)據(jù)。同時(shí)該算法允許類(lèi)間重疊，并給出各個(gè)類(lèi)之間的關(guān)系，因此能幫助我們更有效地挖掘生物樣本數(shù)據(jù)中蘊(yùn)含的復(fù)雜的生物網(wǎng)絡(luò)調(diào)控信息。目前模糊C均值聚類(lèi)算法已經(jīng)被應(yīng)用于組學(xué)數(shù)據(jù)的聚類(lèi)分析中［3-5］。

本文在簡(jiǎn)要介紹模糊C均值聚類(lèi)原理的基礎(chǔ)上，通過(guò)對(duì)模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的分析介紹其在動(dòng)態(tài)組學(xué)數(shù)據(jù)中的應(yīng)用，考核其識(shí)別不同變化趨勢(shì)的效果。

原理和方法

模糊C均值算法（fuzzy C-means clustering，F(xiàn)CM）是通過(guò)計(jì)算隸屬度來(lái)確定每個(gè)數(shù)據(jù)點(diǎn)屬于各個(gè)類(lèi)的程度的一種聚類(lèi)算法。該算法于1973年由Bezdek［6］提出，作為早期硬C均值聚類(lèi)（HCM）方法的一種改進(jìn)。

FCM的核心思想為：按照隸屬度模糊劃分，將n個(gè)向量xi（i＝1，2，…，n）分為c個(gè)模糊組，并求每組的聚類(lèi)中心，使目標(biāo)函數(shù)達(dá)到最小。模糊C均值算法與K均值聚類(lèi)相似，主要區(qū)別在于FCM使用模糊劃分，對(duì)于每個(gè)數(shù)據(jù)點(diǎn)用取值在（0，1）間的隸屬度來(lái)確定其屬于各個(gè)組的程度。隸屬矩陣U中的元素uij取值在0到1之間，表示個(gè)體xj隸屬于組i的程度，并且滿足每個(gè)給定數(shù)據(jù)點(diǎn)xj的隸屬度和等于1：

FCM的目標(biāo)函數(shù)為：

上式中dj＝‖xj－cj‖為樣本xj到模糊組i聚類(lèi)中心vi的歐氏距離；m為模糊參數(shù)，滿足m∈［1，∞）。推導(dǎo)使目標(biāo)函數(shù)最小化的條件，可以得到更新質(zhì)心的計(jì)算公式：

和更新隸屬度矩陣的計(jì)算公式

FCM算法過(guò)程如下：

（1）初始化隸屬矩陣U，使其滿足式（1）中的約束條件；

（2）使用（3）式，計(jì)算每個(gè)聚類(lèi)的質(zhì)心ci，i＝1，…，c。

（3）根據(jù)新的質(zhì)心，使用（4）式更新隸屬度矩陣U。

（4）計(jì)算目標(biāo)函數(shù)。如果它小于某個(gè)確定的閾值，或它相對(duì)上次目標(biāo)函數(shù)值的改變量小于某個(gè)閾值，則算法停止。否則返回步驟（2）。

上述算法也可以先初始化聚類(lèi)中心，再進(jìn)行迭代。FCM算法不能確保算法收斂于最優(yōu)解，其性能依賴(lài)于聚類(lèi)中心的初始位置。同時(shí)，算法需要預(yù)先設(shè)定聚類(lèi)數(shù)目c和模糊系數(shù)m。對(duì)于c的設(shè)定，我們可以借助多種非監(jiān)督簇評(píng)估度量來(lái)近似確定正確的聚類(lèi)個(gè)數(shù)。m是決定模糊聚類(lèi)性能的重要參數(shù)，隨著m值增大，劃分會(huì)變得越來(lái)越模糊，則聚類(lèi)效果越差；而如果m過(guò)小，聚類(lèi)結(jié)果則會(huì)接近于硬聚類(lèi)，當(dāng)m＝1時(shí)，聚類(lèi)將完全退化為硬聚類(lèi)。對(duì)于如何更好地確定初始聚類(lèi)中心，及合適的聚類(lèi)個(gè)數(shù)和模糊系數(shù)，一直是研究的重點(diǎn)和難題。

FCM算法的輸出為c個(gè)聚類(lèi)中心點(diǎn)向量，和一個(gè)c×n的隸屬度矩陣。聚類(lèi)中心表示的是每個(gè)類(lèi)的平均特征，可以認(rèn)為是該類(lèi)的代表點(diǎn)。隸屬度矩陣中包含每個(gè)樣本屬于各個(gè)類(lèi)的隸屬度，我們可以按照最大隸屬原則或通過(guò)設(shè)置隸屬度閾值確定每個(gè)樣本點(diǎn)的歸類(lèi)。

目前FCM方法已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域，有簡(jiǎn)便的實(shí)現(xiàn)方法，例如MATLAB軟件中的FCM命令，R軟件中用于基因組數(shù)據(jù)聚類(lèi)分析的M fuzz包［7］。本文將使用R中的M fuzz包進(jìn)行分析。

模擬實(shí)驗(yàn)

1.模擬數(shù)據(jù)設(shè)置。為考察模糊C均值聚類(lèi)能否將具有不同變化趨勢(shì)的變量分別聚類(lèi)，我們?cè)O(shè)置了5種變化趨勢(shì)的變量。設(shè)t表示時(shí)間點(diǎn)，為取值［1，12］間的整數(shù)，e服從標(biāo)準(zhǔn)正態(tài)分布，5種變量隨時(shí)間變化的模型如下：

①單調(diào)遞增y＝t＋e

②單調(diào)遞減y＝-t＋e

③先減后增y＝β×cos（w×t）＋e

④先增后減y＝-β×cos（w×t）＋e

⑤周期波動(dòng)y＝-β×cos（2×w×t）＋e

設(shè)置其中β＝3，w＝2π／12，每個(gè)變量都包含有12個(gè)時(shí)間點(diǎn)的數(shù)據(jù)，而每種趨勢(shì)的變量個(gè)數(shù)為30個(gè)。同時(shí)設(shè)置500個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的噪聲變量，共650個(gè)變量。最后將數(shù)據(jù)標(biāo)準(zhǔn)化，使其每個(gè)變量均值為0，標(biāo)準(zhǔn)差為1。

2.模糊C均值聚類(lèi)法分析過(guò)程

（1）模糊參數(shù)的選擇

m的設(shè)置既要防止噪聲變量被歸類(lèi)，又要避免分類(lèi)過(guò)于模糊從而使聚類(lèi)效果變差。根據(jù)這一原則，可以使用文獻(xiàn)［8］提供的簡(jiǎn)便方法直接計(jì)算，得到最優(yōu)m取值為1.27。不同的文獻(xiàn)對(duì)m的取值提出了不同的計(jì)算方法，有一種常用的方法是直接設(shè)m為2。我們使用模擬數(shù)據(jù)比較不同m值時(shí)的聚類(lèi)效果。設(shè)置聚類(lèi)個(gè)數(shù)為5，進(jìn)行FCM聚類(lèi)，以隸屬度大于0.5作為變量被歸類(lèi)的閾值，聚類(lèi)結(jié)果如表1所示。結(jié)果顯示，m值增加，噪聲變量的歸類(lèi)減少，但趨勢(shì)變量聚類(lèi)效果變差。而在m取值1.27時(shí)，既保證了所有的趨勢(shì)變量都被正確聚類(lèi)，又最大程度防止了噪聲數(shù)據(jù)的聚類(lèi)。

表1 模擬數(shù)據(jù)在設(shè)定不同m值時(shí)的FCM聚類(lèi)結(jié)果

（2）模糊聚類(lèi)個(gè)數(shù)選擇

我們通過(guò)繪制最小類(lèi)間距離隨聚類(lèi)個(gè)數(shù)變化的曲線來(lái)近似確定聚類(lèi)個(gè)數(shù)。由于隨著聚類(lèi)個(gè)數(shù)的增加，最小類(lèi)間距離下降，當(dāng)聚類(lèi)數(shù)目達(dá)到最佳時(shí)，其最小類(lèi)間距離下降變慢，因此根據(jù)圖中的拐點(diǎn)我們可以大致確定數(shù)據(jù)中存在的簇個(gè)數(shù)。如圖1所示，當(dāng)聚類(lèi)數(shù)目達(dá)到5時(shí)，其最小類(lèi)間距離便基本不再有明顯下降，提示我們可將聚類(lèi)數(shù)目設(shè)為5，這與我們的設(shè)定也是一致的。

圖1 模擬數(shù)據(jù)的最小類(lèi)間距離隨聚類(lèi)個(gè)數(shù)變化曲線

（3）模糊C均值聚類(lèi)分析結(jié)果

算法的輸出為各個(gè)類(lèi)的聚類(lèi)中心及隸屬度矩陣。結(jié)果顯示，模擬設(shè)定的5種趨勢(shì)變量分別以較大的隸屬度屬于5個(gè)不同的簇，而噪聲變量則均以較小的隸屬度隨機(jī)歸入各類(lèi)。為了避免噪聲變量的歸類(lèi)，我們進(jìn)一步設(shè)定隸屬度閾值，即變量只有在對(duì)某一類(lèi)的隸屬度大于某一閾值時(shí)才將其歸入該類(lèi)。如表2所示為設(shè)定不同隸屬度閾值時(shí)的聚類(lèi)結(jié)果。結(jié)果顯示，當(dāng)隸屬度閾值增大時(shí)，噪聲變量被歸類(lèi)的情況相應(yīng)減少。如圖2所示為隸屬度閾值0.8時(shí)的趨勢(shì)聚類(lèi)結(jié)果。

表2 模擬數(shù)據(jù)在設(shè)定不同隸屬度閾值時(shí)的FCM聚類(lèi)結(jié)果

圖2 設(shè)定隸屬度閾值0.8時(shí)的趨勢(shì)聚類(lèi)結(jié)果

實(shí)例分析

為進(jìn)一步說(shuō)明模糊C均值聚類(lèi)在動(dòng)態(tài)組學(xué)數(shù)據(jù)動(dòng)態(tài)趨勢(shì)聚類(lèi)中的應(yīng)用，本文使用公開(kāi)的細(xì)胞周期全基因組表達(dá)數(shù)據(jù)［9］。該資料包含在酵母菌細(xì)胞周期的17個(gè)時(shí)間點(diǎn)上測(cè)量的3000個(gè)基因表達(dá)數(shù)據(jù)，研究基因表達(dá)水平與細(xì)胞有絲分裂周期的關(guān)系。在進(jìn)行FCM分析時(shí)，以不同基因作為聚類(lèi)對(duì)象，基因在每個(gè)時(shí)間點(diǎn)上的均值作為其特征，數(shù)據(jù)格式如表3所示。

表3 酵母菌基因表達(dá)數(shù)據(jù)

分析步驟如下：

1.數(shù)據(jù)預(yù)處理

（1）缺失值處理。去除缺失大于25%的變量，共有49個(gè)變量被排除，對(duì)于其余的缺失值以該變量的均值填補(bǔ)；

（2）噪聲濾除。為了更好排除噪聲影響，我們將其中變異較小的變量（變量標(biāo)準(zhǔn)差小于0.5）濾除，以提高聚類(lèi)效果，共有2379個(gè)變量被排除，最終變量數(shù)為572個(gè)；

（3）數(shù)據(jù)標(biāo)準(zhǔn)化。使每個(gè)變量其均數(shù)為0，標(biāo)準(zhǔn)差為1，以保證變化趨勢(shì)相似的基因在歐氏空間上距離相近。

2.模糊系數(shù)的選擇，計(jì)算可以防止隨機(jī)變量歸類(lèi)的最小m值，得到最優(yōu)m為1.15。

3.聚類(lèi)個(gè)數(shù)的選擇，通過(guò)繪制聚類(lèi)個(gè)數(shù)的最小類(lèi)間距離曲線（如圖3所示），找到曲線拐點(diǎn)位置，確定最優(yōu)聚類(lèi)個(gè)數(shù)為12。

圖3 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)FCM聚類(lèi)最小類(lèi)間距離隨聚類(lèi)個(gè)數(shù)變化曲線

4.設(shè)置m為1.15，C為12，使用FCM算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類(lèi)。

得到隸屬度矩陣，設(shè)置最小隸屬度閾值0.8，則最終有325個(gè)變量被聚類(lèi)，聚類(lèi)1～聚類(lèi)12的變量個(gè)數(shù)依次為：31、25、16、50、33、39、28、23、14、26、19、21，變量個(gè)數(shù)如表4，相應(yīng)的聚類(lèi)效果如圖4所示。通過(guò)聚類(lèi)效果圖，我們可以清楚地看到各個(gè)類(lèi)基因隨時(shí)間變化的趨勢(shì)，其中聚類(lèi)2、聚類(lèi)4和聚類(lèi)9可以看到明顯的周期趨勢(shì)，可能為與細(xì)胞周期有關(guān)的關(guān)鍵基因。

更進(jìn)一步分析，我們可以根據(jù)隸屬度矩陣可以計(jì)算類(lèi)間相關(guān)關(guān)系，計(jì)算公式為：其中Vkl表示第k類(lèi)和第l類(lèi)的相關(guān)關(guān)系，N為所有變量數(shù)，在這里為572，uik表示第i個(gè)體對(duì)第k類(lèi)的隸屬度。即對(duì)同時(shí)對(duì)于兩類(lèi)隸屬度大的變量越多，則兩類(lèi)相關(guān)性越強(qiáng)。根據(jù)類(lèi)間的關(guān)系，我們便可以獲得全局的聚類(lèi)結(jié)構(gòu)。如圖5所示為根據(jù)聚類(lèi)中心矩陣進(jìn)行PCA降維得到的全局聚類(lèi)結(jié)構(gòu)，其中類(lèi)間連線表示類(lèi)間相關(guān)，連線越粗表示相關(guān)性越強(qiáng)?？梢?jiàn)，第6類(lèi)和第9類(lèi)相關(guān)性較強(qiáng)，第10類(lèi)同時(shí)與第3類(lèi)和第12類(lèi)相關(guān)性較強(qiáng)，提示這些類(lèi)的基因可能存在生物學(xué)關(guān)聯(lián)。

圖4 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)趨勢(shì)聚類(lèi)結(jié)果

圖5 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)聚類(lèi)中心降維得到的全局聚類(lèi)結(jié)構(gòu)

討論

本文通過(guò)對(duì)模擬數(shù)據(jù)及實(shí)例的分析驗(yàn)證了模糊C均值聚類(lèi)法對(duì)于動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)中變量動(dòng)態(tài)趨勢(shì)識(shí)別的有效性。在模擬實(shí)驗(yàn)中FCM法準(zhǔn)確的識(shí)別了我們?cè)O(shè)定的不同變化趨勢(shì)，并且通過(guò)閾值的設(shè)定我們可以避免噪聲的隨機(jī)歸類(lèi)。而對(duì)于真實(shí)動(dòng)態(tài)基因表達(dá)數(shù)據(jù)的分析顯示了FCM方法可以識(shí)別表達(dá)模式相似的基因。組學(xué)數(shù)據(jù)維數(shù)較高，因此在聚類(lèi)前進(jìn)行濾除掉變異較小的變量，可以更好地避免噪聲干擾，得到更理想的聚類(lèi)結(jié)果。觀察不同變化模式的聚類(lèi)效果圖，我們可以發(fā)現(xiàn)變化趨勢(shì)更有意義的基因，例如與細(xì)胞周期相關(guān)的基因，并對(duì)其進(jìn)行進(jìn)一步研究。同時(shí)，由于聚為同一類(lèi)的基因多具有相同功能，我們還可以根據(jù)已知功能的代謝物，推知某些未知基因，從而獲得更多的生物信息［10］。因此說(shuō)，F(xiàn)CM可以有效用于動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)的預(yù)分析，幫助我們探索變化趨勢(shì)相同的生物標(biāo)記物，揭示變量之間的關(guān)系，為進(jìn)一步探索生物信息提供依據(jù)。

但是模糊聚類(lèi)法在也存在著一些問(wèn)題，如需要設(shè)置模糊系數(shù)m和聚類(lèi)數(shù)目C，及對(duì)初始聚類(lèi)中心敏感，這些一直都是研究的重點(diǎn)和難點(diǎn)。對(duì)于m的設(shè)置，有一種普遍的做法是將m直接設(shè)置為2［11］，而本文通過(guò)對(duì)模擬數(shù)據(jù)的分析表明這種武斷的做法會(huì)使聚類(lèi)效果下降。而正確的方法應(yīng)該是在防止隨機(jī)變量被聚類(lèi)和保證聚類(lèi)效果之間取得平衡。對(duì)于聚類(lèi)數(shù)目的設(shè)定，本文中使用簇個(gè)數(shù)的最小類(lèi)間距離曲線［11］，對(duì)模擬數(shù)據(jù)的分析證明了其有效性。雖然這種方法在時(shí)間點(diǎn)過(guò)少，或類(lèi)間重疊較大時(shí)并不總是有效的，但是仍然能幫助我們洞察數(shù)據(jù)中的簇個(gè)數(shù)。針對(duì)FCM的聚類(lèi)效果對(duì)于初始聚類(lèi)中心敏感，易陷入局部最優(yōu)的問(wèn)題，許多學(xué)者已經(jīng)進(jìn)行了大量的改進(jìn)，如引入遺傳算法，模擬退火等優(yōu)化技術(shù)［12-13］，或通過(guò)對(duì)不同的初始聚類(lèi)中心多次執(zhí)行FCM算法選取最優(yōu)結(jié)果。這些方法如何運(yùn)用到動(dòng)態(tài)組學(xué)數(shù)據(jù)分析并提高聚類(lèi)效果還需要進(jìn)一步研究。

1.Nicholson JCLK.Handbook of Metabonomic and Metabolomics.London：Elsevier，2007：174-179.

2.Futschik ME，Carlisle B.Noise-robust soft clustering of gene expression time-course data.J Bioinform Comput Biol，2005，3（4）：965-988.

3.Gasch AP，Eisen MB.Exploring the conditional coregulation of yeast gene expression through fuzzy k-means clustering.Genome Biol，2002，3（11）：RESEARCH0059.

4.Dembele D，Kastner P.Fuzzy C-means method for clustering microarray data.Bioinformatics，2003，19（8）：973-980.

5.Li X，Lu X，Tian J，et al.Application of fuzzy c-means clustering in data analysis of metabolomics.Anal Chem，2009，81（11）：4468-4475.

6.Bezdek JC.Pattern Recognition with Fuzzy Objective Function Algorithms.Norwell：Kluwer Academic Press，1981.

7.Kumar L，E FM.Mfuzz：a software package for soft clustering of microarray data.Bioinformation，2007，2（1）：5-7.

8.Schwammle V，Jensen ON.A simple and fast method to determine the parameters for fuzzy c-means cluster analysis.Bioinformatics，2010，26（22）：2841-2848.

9.Cho RJ，Campbell MJ，Winzeler EA，et al.A genome-wide transcriptional analysis of the mitotic cell cycle.Mol Cell，1998，2（1）：65-73.

10.Eisen MB，Spellman PT，Brown PO，et al.Cluster analysis and display of genome-wide expression patterns.Proc Natl Acad Sci USA，1998，95（25）：14863-14868.

11.Tan P，Steinbach M.數(shù)據(jù)挖掘?qū)д?北京：人民郵電出版社，339，361.

12.聶生東，張英力，陳兆學(xué).改進(jìn)的遺傳模糊聚類(lèi)算法及其在MR腦組織分割中的應(yīng)用.中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào)，2008（6）：860-866.

13.Richardt FK，Müller C.Connections between fuzzy theory，simulated annealing，and convex dualit.Fuzzy Sets and Systems，1998.

（責(zé)任編輯：郭海強(qiáng)）

Clustering the Dynamic Profile of Dynamic Omics Data Using Soft Clustering Method

Wang Lu，Zhang Tao，Liu Jia，et al（Department of Biostatistics，School of Public Health，Shandong University（250012），Jinan）

ObjectiveWe applied fuzzyC-means soft clustering to the clustering of dynamic profiles in dynamic omics data.MethodsSoft clustering was implemented here using the fuzzyC-means algorithm to reveal the dynamic profiles in both the simulated dynamic data and real dynamic gene expression data.Procedures to find optimal clustering parameters were developed.ResultsFCM was able to detect the dynamic profiles in both simulated data and real gene expression data.In addition，it can define the overall relation between clusters，and thus a global clustering structure.ConclusionFuzzyC-means clustering is an efficient tool to reveal the hidden structure in dynamic omics data.

Dynamic Omics data；FuzzyC-means cluster

本研究獲國(guó)家自然科學(xué)基金資助（81302514）、山東省自然科學(xué)基金（ZR2013HQ056）

△通信作者：薛付忠，E-mail：xuefzh＠sdu.edu.cn

中國(guó)衛(wèi)生統(tǒng)計(jì)2015年1期

中國(guó)衛(wèi)生統(tǒng)計(jì)的其它文章: 我院重癥監(jiān)護(hù)室醫(yī)院感染的統(tǒng)計(jì)分析; 2007-2014年沈陽(yáng)市兒童醫(yī)院門(mén)診人次構(gòu)成及變化分析; 中國(guó)人壽命、死因與健康危險(xiǎn)因素*
——全球疾病負(fù)擔(dān)研究最新結(jié)果; 應(yīng)用綜合指數(shù)法評(píng)價(jià)我院五年醫(yī)療工作質(zhì)量; 技能型-綜合型實(shí)習(xí)教學(xué)體系在醫(yī)學(xué)統(tǒng)計(jì)學(xué)實(shí)習(xí)教學(xué)改革的應(yīng)用探索*; 醫(yī)療器械臨床試驗(yàn)貝葉斯統(tǒng)計(jì)應(yīng)用指導(dǎo)原則簡(jiǎn)介*

模糊聚類(lèi)法在動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)趨勢(shì)聚類(lèi)中的應(yīng)用*

原理和方法

模擬實(shí)驗(yàn)

實(shí)例分析

討 論

討論