非負矩陣分解在微陣列數據分類s和聚類發現中的應用

2014-08-03 01:06:56任重魯李金明

計算機工程與科學 2014年7期

任重魯，李金明

(南方醫科大學基礎醫學院生物信息學系，廣東廣州 510515)

1 引言

微陣列技術源于斯坦福大學的cDNA芯片和Affymetrix公司的寡核苷酸探針技術，經過十多年的發展，現在已經成為生命科學研究中不可或缺的重要手段[1]，其高通量的特性成為研究人類疾病的有力工具。微陣列技術大致可以分為基因芯片、microRNA芯片、甲基化芯片以及蛋白結合芯片等，這些芯片產生了海量的待處理和分析數據。如何對微陣列數據進行準確而合理的分析，已成為有效應用微陣列技術的瓶頸問題，并已成為當前生物信息學的重要研究內容和研究方向[2]。

在人類疾病中，癌癥(惡性腫瘤)因為較高的發病率和死亡率繼續成為全球的負擔[3]。癌癥具有高度異質性，形態學相似、臨床表現相似的癌癥很可能需要不同的治療方案[4]，相同病理分期的癌癥卻有著不同的預后表現[5～6]，這些都給癌癥的臨床治療和術后輔助化療帶來不確定性。從分子生物學的角度去揭示癌癥異質性，劃分不同癌癥亞型，用以輔助臨床診斷、治療癌癥具有重要意義。在以往的研究中，科學家利用DNA微陣列或基因芯片技術及其后續數據分析，系統地揭示了卵巢癌[7]、前列腺癌[8]、乳腺癌[9]、膠質細胞瘤[10～11]等的不同亞型、預后相關的基因標簽、復發相關的基因標簽，癌癥的發生發展以及轉移相關[12～13]的基因和通路。主要使用的數據挖掘方法是對基因表達譜進行聚類發現和類別預測分析。通過基因篩選或特征提取獲得信息基因，用之建立分類器，然后再考查信息基因的功能來對癌癥亞型進行生物學的定義。

在數學上，微陣列數據一般為N×M的矩陣，N表示基因或者探針數量，M表示樣本數量,往往M?N，也就是具有典型的小樣本、高維度的特點[14]。矩陣分解[15]可以表示成：

D=M+ε=AP+ε

(1)

其中，D表示原有微陣列數據，M表示通過因式分解重建的數據矩陣，A提供了在各模式(Metagenes)中基因的分布，P則表示不同模式的度量，也就是不同模式的表達譜(Metagene Expression Profiles)，是原有數據同重建數據之間的誤差。廣義上講，應用在微陣列數據分析中的主成分分析PCA(Principal Component Analysis)、奇異值分解SVD(Singular Value Decomposition)、獨立分量分析ICA(Independent Component Analysis)、網絡分量分析NCA(Network Component Analysis)、非負矩陣分解NMF(Non-negative Matrix Factorization)、貝葉斯分解BD(Bayesian Decomposition)等方法都屬于矩陣分解的范疇。

本文對NMF算法做深入闡述，系統地回顧其在微陣列數據分類分析和聚類發現中的應用，NMF在算法上做出的改變和擴展，秩的確定方法，以及現有的主要分析軟件。總結了各種NMF方法在經典數據集中的應用結果。最后對NMF算法的應用和結果做了相應的討論。

2 NMF在微陣列數據分類中的解釋和計算方法的改進

2.1 NMF在微陣列數據分類中的解釋

1999年，Lee D D和Seung H S[16]首先將NMF方法應用在了圖像的特征識別上。并于2001年給出了NMF的算法實現[17]，通過多重迭代的策略使得公式(1)逐步逼近原始數據，從而建立了NMF的應用基礎。其實早于Lee D D和Seung H S的工作，Paatero和Tapper就把正矩陣分解PMF(Positive Matrix Factorization)的方法應用在了對環境科學和天體物理的數據降維處理上了[18]。Kim P M和Tidor B[19]第一次將NMF方法用于大尺度基因表達數據的分析，把擁有6 316個基因300個樣本的數據用50個NMF維度表示出來，同時試圖注釋每一個NMF維度中的基因簇并預測不同維度之間的功能聯系。之后Brunet J P[20]明確定義了原始數據分解后形成的兩個矩陣的生物學含義，以及秩的確定方法。將公式(1)中的字母替換成NMF習慣的表示方法，D、A、P分別替換成X、W、H，得到：

X=WH+ε

(2)

其中，X是N×M的原始微陣列數據矩陣，有N個基因、M個樣本；W和H分別是N×k和k×M的非負矩陣；W中的每一列定義成一個元基因(Metagene)，wij表示組成第j個元基因的原始基因i的系數；H中的每一列表示各元基因在每一個樣本中的表達值，而hij表示了第i個元基因在第j個樣本中的表達水平，也就是說矩陣H存儲了每一個元基因的表達譜，有幾個元基因那么樣本就被分成了幾類；k就是元基因的數量，同時也是樣本分類確定的數目。那么，把微陣列數據進行非負矩陣分解之后，確定了合適的k值也就確定了樣本分類數目，從而達到了給樣本分類的目的。

相比于傳統的矩陣分解方法，NMF方法有以下幾個優點：

(1)矩陣元素非負，可直觀地解釋每個組成成分，比如上面提到的元基因解釋方法。

(2)NMF通常會得到稀疏矩陣的結果，它把原始數據盡可能地壓縮，可以很好地通過數量不多的標簽基因對樣本進行分類。

(3)NMF結果中的每個分量之間都不是正交的，這同SVD、PCA等方法不同，分量之間有重疊的基因或許是屬于多個代謝通路或生物學過程[21]；另外Kim M H和Seo H J[22]等人通過在五個基因表達數據集上比較六種矩陣分解方法(其中兩種正交分解方法，四種非正交分解方法)和K-均值算法發現，非正交的矩陣分解方法在微陣列數據聚類中明顯優于正交的矩陣分解方法。

2.2 標準算法和擴展

2.2.1 標準算法

Lee D D和Seung H S給出了NMF的標準算法：

步驟1選定秩k。

步驟2隨機正整數初始化公式(2)中的W和H，維數分別是N×k和k×M。

步驟3迭代直到滿足終止條件為止:

(3)

(4)

③標準化W的每一列。

終止條件是使得目標函數：

‖X-WH‖2=∑ij(Xij-(WH)ij)2

(5)

或者

D(X‖WH)=

(6)

達到最小化。Brunet J P對Lee D D和Seung H S的標準算法做了生物學方面的解釋，并定義了元基因(Metagene)和元基因表達譜等術語，從而使得NMF方法能夠真正地應用到對癌癥基因組微陣列數據進行分類分析和類別預測中去。基于捕捉亞類的需要，應用在微陣列數據分類和聚類發現分析中的NMF，都應該使用公式(6)作為目標函數，因為它和相應的迭代公式(3)和(4)能更好地發現數據中的最基本結構[20]。

2.2.2 改進的算法

眾所周知，由非負約束的經典算法得到的結果(H和W)本身就有稀疏性和局部代表性。然而，在分類分析中，為了得到更清晰的類邊界[18]和獲得幾乎沒有重復基因的元基因[23]，在加強NMF計算結果的稀疏性方面人們做了大量工作[24～26]。他們有的對H矩陣進行稀疏化，有的對W矩陣進行稀疏化，還有的對H和W矩陣同時進行稀疏化。

(1)稀疏非負矩陣分解SNMF(Sparse Non-negative Matrix Factorization)。

增強NMF結果稀疏性的研究最早的工作是Hoyer于2002年提出的，他利用線性稀疏編碼(Linear Sparse Coding)方法重建目標函數公式(5)：

(7)

Liu等人[27]在借鑒了目標函數公式(7)之后，又進一步將目標函數公式(6)加入稀疏約束，改寫成：

Xij+(WH)ij)+a∑i,jHij

其中，通過α來調節H中元素的稀疏性，從而把公式(3)改寫成：

并且建議使用“稀疏非負矩陣分解(SNMF)”這一術語來對加入稀疏約束的NMF算法命名。Gao等[23]利用加強矩陣稀疏性的方法首先將SNMF算法應用在癌癥數據的分類分析中。在三個經典的癌癥樣本集上證明了加入稀疏約束的NMF算法在錯分率上要優于標準的NMF方法[20]。

(2)非平滑非負矩陣分解nsNMF(non-smooth Non-negative Matrix Factorization)。

Pascual-Montano等人[26]采用了不同的方法去加強NMF結果的稀疏性，他引進了一個平滑因子，這個平滑因子可以同時改變W和H的稀疏性，將公式(2)改寫成：

X=WSH+ε

其中，

其中，S是一個k×k維的矩陣;I是單位矩陣，1是元素為1的維向量;0≤θ≤1，是控制平滑程度的參數，當θ=0時，模型就變成了標準NMF。整體算法流程同標準NMF相同，只需要在公式(3)中把W用WS替換；在公式(4)中把H用SH替換；在目標函數公式(6)中把WH用WSH替換。Carmona-Saez P等人[28～30]利用nsNMF來分析微陣列數據，并且開發了專門對微陣列數據進行聚類分析和分類分析的軟件bioNMF。

(3)其它的改進算法及應用。

眾所周知，核磁共振成像MRSI(Magnetic Resonance Spectroscopic Imaging)的數據無論從可解釋性，還是識別特定組織的不確定性都給腦腫瘤的病理確診帶來了挑戰。Li等人[31]利用改進的hNMF(hierarchical Non-negative Matrix Factorization)方法來分析人類腦瘤的MRSI數據，該方法能夠精確地識別出三種腦腫瘤區的組織類型(正常、腫瘤和壞死)。Ortega-Martorell S等人[32]也利用改進的Convex-NMF(Convex Non-negative Matrix Factorization)方法對腦腫瘤的MRSI數據進行劃分，該方法對大多數的研究樣本具有高度的敏感性和特異性，能夠利用有效的閾值安全地區分腫瘤和非腫瘤區域。

另外，Lee等人[33]在研究PPARs基因的毒理作用時使用Simultaneous NMF(Simultaneous Non-negative Matrix Factorization)方法對多重、多維基因芯片表達數據進行分解。該方法在四個數據集上同時進行矩陣分解，發現了新的關于PPARs基因的代謝過程和藥理作用，該結果提示可以在藥物發現過程中進行早期的毒性探測。

2.3 初始化方法和秩的確定

NMF這種局部最優的迭代算法，對初始化的W和H選擇很敏感。隨機初始化的和矩陣有時得不到全局最優的結果[34]，就使得分類結果很難找到生物學含義。一般的做法是多次運行隨機初始化的數據，然后保留擁有最小目標函數值的那一組分解結果。另外，也有人嘗試用獨立分量分析獲得的矩陣中的非負元素來作為W和H的初始化。而目前應用在微陣列數據處理方面的NMF初始化一般還沿用Lee D D和Seung H S的標準算法，這就給另一種方法的引入帶來了契機，這一方法同時解決了選定秩k的問題。

2003年Monti S等人[35]利用重采樣方法來評估非監督聚類結果的一致聚類CC(Consensus Clustering)概念被Brunet J P用在了解決NMF因隨機初始化而導致不穩定的結果上，并且定義了同型相關系數CCC(Cophenetic Correlation Coefficient)來定量地衡量聚類結果穩定性。給定一個M×M的連通矩陣C，如果樣本i和j屬于同一類，元素cij=1，否則cij=0。NMF算法多次隨機初始化運行，就會得到連通矩陣集合{C1,C2,…,Cp}，p是NMF算法運行次數，那么一致矩陣中的元素為：

相應地，同型相關系數被定義成兩個距離矩陣元素之間的皮爾森相關系數：

(8)

雖然Brunet J P的方法被廣泛接受，還是有一些人對如何確定秩有著其它的做法。Kim P M和Tidor B[19]利用原始數據X和分解得到的WH之間的均方根誤差來確定取值范圍。Hutchins L N[36]特別提出在以k為橫軸、殘差平方和RSS(Residual Sum of Squares)為縱軸的圖像里，當殘差平方和出現波動的位置就是合適的k位置。Kim M H和Seo H J[22]利用間隙統計量[37]GS(Gap Statistic)來確定最優的分類數目，間隙統計量最小的時候，秩k最優。

2.4 分類結果的質量評估

Table 1 Equations for outcome assessment表1 對分類結果質量評估的幾個公式

聚類有效性的評價是找到合適的度量方法來判斷某一聚類劃分的可接受性，也就是聚類結果要使得類內樣本具有高度的相似性或盡可能地接近；而使得類間的樣本具有最遠的距離或盡可能地分散。以Dunn指數為例，它綜合考慮了類內緊湊性和類間距離，是一個復合指數，分母表示類內最大距離，分子表示類間最小距離，那么Dunn指數越大說明聚類有效性越高。

聚類穩定性的評價是用來驗證聚類算法得到結果的真實性，也就是結果在多大程度上不是因為偶然性造成的。它假設當多重樣本是來自同一總體分布的抽樣結果時，聚類算法將在樣本上得到同總體相似的結構。以同型相關系數為例，0≤ρκ≤1，ρκ越大分類越穩定。

3 NMF算法的實現和數據分析的結果

3.1 NMF算法的實現

自從將NMF方法用于微陣列數據的分類分析和聚類發現之后，先后出現了很多個可以實現分析功能的軟件。Brunet J P最早開發了基于Matlab的代碼來分析微陣列數據，之后又有人寫出了C++的版本[41]，可在Linux操作系統下運行，但是沒有被廣泛使用。值得一提的是，Carmona-Saez P等人[29～30]開發了免費的圖形界面bioNMF軟件和基于Web網頁的分析工具，該軟件有三個模塊組成，包括標準NMF算法、雙向聚類分析、樣本分類分析，其中雙向聚類分析采用的是nsNMF算法。該軟件操作簡單，參數明確，同時結果以重排序的一致聚類圖片顯示，具有很強的直觀性。此外，其它的免費軟件還有Yamayo開發的基于GenePattern[42]的NMF分析模塊，該模塊有基因篩選功能和分類分析功能。Qi Q等人[43]對BRB-ArrayTools軟件也添加了NMF分析模塊。BRB-ArrayTools是被廣泛使用的針對微陣列數據分析的集成軟件包，它以Excel加載宏的形式呈現，對于不善編程的生物學家來說，用戶界面友好熟悉。

另外，作者推薦Gaujoux R等人[44]編寫的在R/Bioconductor平臺[45]上使用的免費NMF軟件包。該軟件包中包含了六種NMF算法，三種初始化方法，還有三種終止條件；并且該軟件包有很好的兼容性，允許使用者按照自己的需要去添加新的算法、初始化方法和終止條件，從而得到令人滿意的結果。表2中列出了在微陣列數據分析中利用NMF算法的軟件。

3.2 數據分析結果

在以往的研究中，使用最多的數據集是急性白血病數據集[46]、中樞神經系統腫瘤數據集和髓母細胞瘤數據集[47]，三個數據集的信息在表3中給出。

Table 2 Existing implementations of the NMF algorithm for microarray analysis表2 用于微陣列數據分類分析主要的NMF算法實現

Table 3 Information about the three datasets表3 常用的三個數據集相關信息

對改進的NMF算法的評估大都通過應用如表3所示的數據集進行。本文使用急性白血病數據集來說明NMF方法(核心算法為：NMF、nsNMF)相對于其它傳統方法(系統聚類、K-均值聚類)把樣本歸類正確率的優勢。急性白血病數據集中包含三個疾病亞型，分別是AML(11例)、ALL-B-cell(19例)和ALL-T-cell(8例)；共有5 000個基因的表達值在38個樣本中變異最大。在R平臺下使用非負矩陣分解的NMF軟件包和一致聚類的ConsensusClusterPlus軟件包來比較聚類結果。

Figure 1 Results of the five clustering approaches in acute leukemia dataset圖1 在急性白血病數據上使用5種聚類分析方法的結果

從圖1的五個分圖中可以看到，圖1a和圖1b將38個樣本明顯分成三個樣本簇，這三個樣本簇完美地對應了急性白血病的三個亞型；而圖1c中傳統的系統聚類結果，無論使用何種類間度量方法都無法得到有意義的劃分，說明系統聚類方法的結果無法在生物學含義上進行解釋，更傾向于強行地把數據劃分出層次結構；圖1d和圖1e則在系統聚類方法和K-均值聚類方法上使用了重采樣方法，來提高分類正確率，但是圖中反映出的聚類結果并不理想。表4給出了急性白血病樣本集在四種方法下的分類正確率(由于系統聚類不能反映正確劃分故不考慮其樣本簇的正確率)。

Table 4 Performance comparisons of the four approaches表4 四種方法的分類表現

本文結果同其它研究相似，增強稀疏性的NMF算法和改變正交性的NMF算法[48]都要比最初由Lee D D和Seung H S提出的NMF算法在分類分析中的表現好。把NMF算法、經過改進的NMF算法(比如SNMF、nsNMF)同傳統的矩陣分解方法(PCA、SVD等)或者層次聚類(Hierarchical Clustering)、K-均值聚類、自組織映射(SOM)等非監督聚類方法相比較[20～22]，發現在對微陣列數據分類分析和聚類發現中，NMF及其經過改進的算法在分類正確率上都要好于傳統的方法，并且NMF方法更容易發現數據本身具有的基本結構，而不是被諸如層次聚類這樣的方法強行地把數據分出層次結構。另外，在聚類發現中NMF更多地被用來得到秩的值，也就是確定樣本被分為幾類和每個樣本的類標簽，之后再用其它的基因選擇方法(PAM[49]、CLaNC[50])對有類標簽的樣本進行基因選擇操作，從而得到重要的標簽基因，并考查標簽基因的生物學含義。

4 結束語

微陣列數據分類分析的目的一般來說是識別出具有生物學意義的標簽基因，這些具有標簽作用的基因能夠對疾病的發生、發展有指示作用，進一步的探討使得基于特定分子表達譜的個體治療成為可能。有監督的聚類分析和非監督的分類分析是經常使用的方法。

非負矩陣分解及其擴展算法能夠應用在微陣列數據分析中，使得微陣列數據分析又多了一種有力的方法。盡管非負矩陣分解有著收斂速度慢、局部最優、結果依賴初始化、算法復雜、對于數據量大的數據較耗費時間等局限性，但是它的非負約束、稀疏性約束使得計算結果更易于用生物學知識來解釋。一般來說，它要比傳統的聚類或分類方法更有效，因為它有助于發現微陣列數據中真正存在的層次結構。建議在使用非負矩陣分解的時候同樣使用一種傳統的分類方法，兩種方法的結果經過對照或者綜合分析之后，得到的最終結果更趨于真實。由于元基因的組成基因可以成為分類標簽，非負矩陣分解還可以作為基因選擇的方法；此外，盡管增加稀疏性，但是元基因之間還是會有重疊的基因出現，這些基因可能同時在多個通路或者生物學過程中，往往這種“身兼數職”的基因在要分析的問題中有更為重要的意義。

總之，非負矩陣分解是一種分析和解釋具有大尺度性質的微陣列數據的新方法，現在越來越多地應用到實際問題中[10,51～53]，尤其在近兩年非負矩陣分解被廣泛地應用到新的研究領域中。在宏基因組學研究中，Jiang X等人[54]利用NMF方法來探索海洋微生物的生物地理學方面的問題，用少數生態成分的線性組合來解釋來自不同標本采集點的微生物的8 214個蛋白質家族。結論認為NMF篩選的方法要優于PCA篩選的方法，它揭示了不同標本采集點之間的功能距離同環境距離有很強的相關性，而跟地理距離相關性不大。另外，在研究復雜疾病方面，Wang H M等人[55]用NMF方法來研究復雜疾病的內在表型，將176例晚發老年癡呆癥(Late-onset Alzheimer’s Disease)樣本分成三個亞型并提取同每個亞型相關的易感性基因，并且給復雜疾病的病理機制的研究提供了新的方法，有助于更好地理解基因型和表型之間的關系。可見，隨著更多克服非負矩陣分解缺陷的新方法不斷出現，非負矩陣分解的應用及表現不會局限在微陣列的數據分析，它還可以應用在圖像處理[31～32]、聲音處理、文本挖掘、信息檢索等領域。

[1] Russell S, Meadows L, Russell R. Microarray technology in practice[M].Xiao Hua-sheng,Zhang Chun-xiu, Wu Xue-mei, et al,translation. Beijing:Science Press,2010.(in Chinese)

[2] Huang De-shuang. Research on mining approaches for gene expression profiles data[M].Beijing:Science Press,2009.(in Chinese)

[3] Jemal A, Bray F, Center M M, et al. Global cancer statistics[J]. CA Cancer J Clin, 2011, 61(2):69-90.

[4] Valk P J M, Verhaak R G W, Beijen M A. Prognostically useful gene-expression profiles in acute myeloid leukemia[J]. The New England Journal of Medicine, 2004, 350:1617-1628.

[5] Barrier A, Boelle P-Y, Roser F, et al. Stage ii colon cancer prognosis prediction by tumor gene expression profiling[J]. Journal of Clinical Oncology, 2006, 24(29):4685-4691.

[6] Wang Y, Jatkoe T, Zhang Y, et al. Gene expression profiles and molecular markers to predict recurrence of dukes’b colon cancer[J]. Journal of Clinical Oncology, 2004, 22(9):1564-1571.

[7] The Cancer Genome Network. Integrated genomic analyses of ovarian carcinoma[J]. Nature, 2011, 474(7353):609-615.

[8] Taylor B S,Schultz N,Hieronymus H,et al.Integrative genomic profiling of human prostate cancer[J]. Cancer Cell, 2010, 18(1):11-22.

[9] Sorlie T, Perou C M, Tibshirani R, et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications[J]. PNAS, 2001, 98(19):10869-10874.

[10] Li A, Walling J, Ahn S, et al. Unsupervised analysis of transcriptomic profiles reveals six glioma subtypes[J]. Cancer Research, 2009, 69(5):2091-2099.

[11] Verhaak R G, Hoadley K A, Purdom E, et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in pdgfra, idh1, egfr, and nf1[J]. Cancer Cell, 2010, 17(1):98-110.

[12] Jorissen R N, Gibbs P, Christie M, et al. Metastasis-associated gene expression changes predict poor outcomes in patients with dukes stage b and c colorectal cancer[J]. Clinical Cancer Research, 2009, 15(24):7642-7651.

[13] Smith J J, Deane N G, Wu F, et al. Experimentally derived metastasis gene expression profile predicts recurrence and death in patients with colon cancer[J]. Gastroenterology, 2010, 138(3):958-968.

[14] Vinciotti V, Tucker A, Kellam P, et al. Robust selection of predictive genes via a simple classifier[J]. Appl Bioinformatics, 2006, 5(1):1-11.

[15] Kossenkov A V, Ochs M F. Matrix factorization methods applied in microarray data analysis[J]. Data Mining and Bioinformatics, 2010, 4(1):72-90.

[16] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401:788-791.

[17] Lee D D, Seung H S. Algorithms for non-negative matrix factorization[J]. Adv. Neural Inform Process System, 2001, 13:556-562.

[18] Devarajan K. Nonnegative matrix factorization:An analytical and interpretive tool in computational biology[J]. PLoS Computional Biology, 2008, 4(7):e1000029.

[19] Kim P M, Tidor B. Subsystem identification through dimensionality reduction of large-scale gene expression data[J]. Genome Res, 2003, 13(7):1706-1718.

[20] Brunet J P, Tamayo P, Golub T R, et al. Metagenes and molecular pattern discovery using matrix factorization[J]. PNAS, 2004, 101(12):4164-4169.

[21] Frigyesi A, H?glund M. Non-negative matrix factorization for the analysis of complex gene expression data, identification of clinically relevant tumor subtypes[J]. Cancer Informatics, 2008, 6:275-292.

[22] Kim M H, Seo H J, Joung J G, et al. Comprehensive evaluation of matrix factorization methods for the analysis of DNA microarray gene expression data[J]. BMC Bioinformatics, 2011, 12(Suppl 13):S8.

[23] Gao Y, Church G. Improving molecular cancer class discovery through sparse non-negative matrix factorization[J]. Bioinformatics, 2005, 21(21):3970-3975.

[24] Hoyer P O. Nonnegative sparse coding[C]∥Proc of Neural Networks for Signal Processing XII, 2002:557-565.

[25] Hoyer P O. Non-negative matrix factorization with sparseness constraints[J]. Journal of Machine Learning Research, 2004, 5:1457-1469.

[26] Pascual-Montano A,Carazo J M,Kochi K,et al.Nonsmooth nonnegative matrix factorization (nsnmf)[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(3):403-415.

[27] Liu W, Zheng N, Lu X. Non-negative matrix factorization for visual coding[C]∥Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2003:293-296.

[28] Carmona-Saez P, Pascual-Marqui R D, Tirado F, et al. Biclustering of gene expression data by non-smooth non-negative matrix factorization[J]. BMC Bioinformatics, 2006, 7:78-96.

[29] Mejia-Roa E, Carmona-Saez P, Nogales R, et al. Bionmf:A web-based tool for nonnegative matrix factorization in biology[J]. Nucleic Acids Res, 2008, 36(Web Server issue):W523-W528.

[30] Pascual-Montano A, Carmona-Saez P, Chagoyen M, et al. Bionmf:A versatile tool for non-negative matrix factorization in biology[J]. BMC Bioinformatics, 2006, 7:366-374.

[31] Li Y, Sima D M, Cauter S V, et al. Hierarchical non-negative matrix factorization (hnmf):A tissue pattern differentiation method for glioblastoma multiforme diagnosis using mrsi[J]. NMR Biomed, 2013, 26(3):307-319.

[32] Ortega-Martorell S, Lisboa P J, Vellido A, et al. Convex non-negative matrix factorization for brain tumor delimitation from mrsi data[J]. PLoS One, 2012, 7(10):e47824.

[33] Lee C M, Mudaliar M A, Haggart D, et al. Simultaneous non-negative matrix factorization for multiple large scale gene expression datasets in toxicology[J]. PLoS One, 2012, 7(12):e48238.

[34] Shi Jin-long, Luo Zhi-gang. Research on the advances of nonnegative matrix factorization and its application in bioinformatics[J]. Computer Engineering & Science, 2010, 32(8):117-123.(in Chinese)

[35] Monti S, Tamayo P, Mesirov J, et al. Consensus clustering:A resampling-based method for class discovery and visualization of gene expression microarray data[J]. Machine Learning, 2003, 52:91-118.

[36] Hutchins L N, Murphy S M, Singh P, et al. Position-dependent motif characterization using non-negative matrix factorization[J]. Bioinformatics, 2008, 24(23):2684-2690.

[37] Tibshirani R, Walther G, Hastie T. Estimating the number of clusters in a data set via the gap statistic[J]. J.R.Statist, 2001, 63:411-423.

[38] Rousseeuw P. Silhouettes:A graphical aid to the interpretation and validation of cluster analysis[J]. Journal of Computational and Applied Mathematics, 1987, 20:53-65.

[39] Frades I, Matthiesen R. Overview on techniques in cluster analysis[J]. Methods in Molecular Biology, 2010, 593:81-107.

[40] Kim H, Park H. Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis[J]. Bioinformatics, 2007, 23(12):1495-1502.

[41] Wang G, Kossenkov A V, Ochs M F. Ls-nmf:A modified non-negative matrix factorization algorithm utilizing uncertainty estimates[J]. BMC Bioinformatics, 2006, 7:175-184.

[42] Reich M, Liefeld T, Gould J, et al. Genepattern 2.0[J]. Nature Genetics, 2006, 38:500-501.

[43] Qi Q, Zhao Y, Li M, et al. Non-negative matrix factorization of gene expression profiles:A plug-in for brb-arraytools[J]. Bioinformatics, 2009, 25(4):545-547.

[44] Gaujoux R, Seoighe C. A flexible r package for nonnegative matrix factorization[J]. BMC Bioinformatics, 2010, 11:367-375.

[45] Gentleman R C, Carey V J, Bates D M, et al. Bioconductor:Open software development for computational biology and bioinformatics[J]. Genome Biology, 2004, 5(10):R80.81-R80.16.

[46] Slonim D K, Tamayo P, Mesirov J P, et al. Class prediction and discovery using gene expression data[C]∥Proc of the 4th International Conference on Computational Molecualr Biology, 2000:236-272.

[47] Pomeroy S L, Tamayo P, Gaasenbeek M, et al. Prediction of central nervous system embryonal tumour outcome based on gene expression[J]. Nature, 2002, 415:436-442.

[48] Wang Y, Jia Y, Hu C, et al. Fisher non-negative matrix factorization for learning local features[C]∥Proc of Asian Conference on Computer Vision, 2004:27-30.

[49] Tibshirani R, Hastie T, Narasimhan B, et al. Diagnosis of multiple cancer types by shrunken centroids of gene expression[J]. PNAS, 2002, 99(10):6567-6572.

[50] Dabney A R. Clanc:Point-and-click software for classifying microarrays to nearest centroids[J]. Bioinformatics, 2006, 22(1):122-123.

[51] Networks C G A. Comprehensive molecular characterization of human colon and rectal cancer[J]. Nature, 2012, 487(7407):330-337.

[52] Govi S, Dognini G P, Licata G, et al. Non-negative matrix factorization to perform unsupervised clustering of genome wide DNA profiles in mature b cell lymphoid neoplasms[J]. Br J Haematol, 2010, 150(2):226-229.

[53] Inamura K, Fujiwara T, Hoshida Y, et al. Two subclasses of lung squamous cell carcinoma with different gene expression profiles and prognosis identified by hierarchical clustering and non-negative matrix factorization[J]. Oncogene, 2005, 24(47):7105-7113.

[54] Jiang X, Langille M G, Neches R Y, et al. Functional biogeography of ocean microbes revealed through non-negative matrix factorization[J]. PLoS One, 2012, 7(9):e43866.

[55] Wang H M, Hsiao C L, Hsieh A R, et al. Constructing endophenotypes of complex diseases using non-negative matrix factorization and adjusted rand index[J]. PLoS One, 2012, 7(7):e40996.

附中文參考文獻：

[1] 史蒂夫·拉塞爾，莉薩·梅多斯，羅斯林·拉塞爾. 生物芯片技術與實踐(中文版)[M]. 肖華勝，張春秀，武雪梅，等譯.北京:科學出版社,2010.

[2] 黃德雙. 基因表達譜數據挖掘方法研究[M]. 北京:科學出版社,2009.

[34] 石金龍, 駱志剛. 非負矩陣算法及其在生物信息學中的應用[J]. 計算機工程與科學,2010,32(8):117-123.