俠之大者,為國為民。武俠小說中,大俠往往有奇遇。段譽吞了莽牯朱蛤、郭靖飲下梁子翁的藥蛇血,兩人于是百毒不侵。凡此種種,類似主動免疫(接種疫苗)或被動免疫(血清療法)的原始版本。動物免疫血清用于傳染病治療已有上百年的歷史,德國科學家馮·貝林因此獲得首枚諾貝爾生理學與醫學獎。當前,康復患者血漿治療新冠肺炎依然有效。這些療法其實質是多克隆抗體藥物。從1986 年美國食品藥品監督管理局批準第1 個單克隆抗體藥物迄今,全球上市的單抗藥已有上100 個,廣泛用于腫瘤、自身免疫性疾病、傳染病等各類疾病的治療。近十年來,全球最暢銷的十大藥物中,抗體藥物每每占據半壁甚至更多江山。阿達木單抗常年蟬聯最暢銷藥物之首,年度銷售額近200 億美元。因此,開發單抗藥物,為國為民,不僅緩解人類病痛,還能推動社會經濟發展。
雖然開發單抗藥物的成功率高于傳統化學藥物,但仍是萬里挑一。近年來,抗體可開發性預測已成為生物信息學研究的一個熱點。早期預測抗體可開發性可減少研發成本,加快研發進程,降低市場價格,利國利民。該領域的經典研究是所謂的可開發性指數(DI)計算,相應方法已整合到價格不菲的DS 軟件平臺中。然而,貴不見得好。該方法基于同源建模得到的抗體結構,運算速度慢,結果也常不靠譜。這篇論文基于抗體序列,繞過結構,直接預測抗體的交叉或自身相互作用,而這些互作會直接影響抗體的可開發性。相應預測模型速度飛快,可處理大規模抗體數據,開發的網絡程序CISI2.0 自由免費。但這還遠遠不夠。
最近,百度旗下的生物信息公司百圖生科與清華大學智能產業研究院正在合作舉辦2021 全球抗體親和力預測大賽,任務是根據抗原和抗體的氨基酸序列預測抗體?抗原結合的親和力。廣義上講,親和力是開發抗體藥的前提,因此,預測可開發性首先要預測抗體?抗原結合的親和力。我們期待包括親和力預測在內的更多更好的抗體可開發性預測方法與工具的問世,讓生物信息的學子們能為國為民做出自己的貢獻!
當前,生命科學正處于第三次革命中,關注于生物信息存儲、傳輸與表達,是理解“生命是什么”的最佳契機。生物醫學也處于一個百花開放、百家爭鳴的時代,“生物信息學”“系統生物學”“合成生物學”等多個學科快速發展,“Hi-C”“單細胞”“相分離”“焦亡”等是當前分子生物學領域最火的名詞。
分子生物學的研究大都繞不開“基因的表達”。調控基因表達最關鍵的調控元件就是啟動子,它負責和RNA 聚合酶的特異性結合,從而轉錄出RNA。因此,開發能夠準確識別啟動子的模型,對于研究基因的表達意義重大。該文章對2005 年以來開發的39 個用于原核啟動子識別的計算工作進行了總結和展望。論文對已發表的用于原核啟動子識別的基準數據集進行了搜集和整理,整理得到的資料為將來如何構建合理的、具有代表性的訓練和測試數據提供了參考;進而,對廣泛使用的DNA 序列描述符進行了介紹,這些DNA 序列特征提取方法不但可以用原核啟動子的預測,也可以用于其他DNA 調控元件的表征;再次,是關于序列特征的優化算法應用,包括基于信息論的mRMR 和基于概率論的F-Score 等算法,如何將這些算法的優點結合,是提高啟動子識別精度的一個途徑;最后是關于機器學習方法的應用。
目前,盡管已經對原核啟動子預測的研究取得了較滿意的結果,但這些模型僅限于大腸桿菌等少數幾個模式生物。將這些方法用于更多的物種上,構建合適的模型,也是未來的發展方向。希望該文章能為更多學者就此問題研究時,提供新思路、新角度。