喬羽, 姚舒威
(復旦大學 計算機科學技術學院, 上海 200433)
蛋白質是人體細胞的重要組成成分,與人體各項生命活動息息相關,研究蛋白質的功能對生物制藥,疾病預測等眾多領域有著重要的意義。基因本體(Gene Ontology, GO)是描述蛋白質功能最常用的標準之一,包含生物學的3個不同類別:分子功能(Molecular Function Ontology, MFO)、生物進程(Biological Process Ontology, BPO)、細胞組成(Cellular Component Ontology, CCO)。基于生化實驗確定蛋白功能,雖然標注精準,但是對時間和資源的耗費卻十分巨大,無法進行大規模的標注。這也使得UniProt數據庫中擁有實驗標注的蛋白質還不足總量的1%,如何低成本且高效地確定大量蛋白質的功能成為了研究瓶頸。利用機器學習的方法進行自動的蛋白質功能預測(Automatic Function Prediction, AFP)成為研究熱點[1-2]。
為了評估蛋白質功能預測方法的效果,CAFA(The Critical Assessment of protein Function Annotation algorithms)提供了一個公平且統一的評測平臺。CAFA按照一種延時評估的方式進行評測:即先選出測試集(T0時刻),經過幾個月的時間累積實驗標注(T1時刻),最后用這些新的標注去評估預測方法。目前已經舉辦了3次比賽:CAFA1(2010-2011),CAFA2(2013-2014)和CAFA3(2016-2017),結果中絕大多數的優秀方法都利用了序列信息,這證明了蛋白序列的重要作用[3-4]。
為了提高蛋白質功能預測的精度,我們希望能夠充分利用除了蛋白質序列以外的其它信息源。事實上,負責蛋白功能標注的管理員也常常通過閱讀蛋白質的相關文獻來進行功能標注。許多學者已經將文本分類方法應用于蛋白質功能預測的領域,如Wong等人[5]提出了一個基于詞袋模型的文本稀疏表示的蛋白質功能預測方法。……