姚建華 徐雯麗 蔣舒仰 胡 靜 李 佳
中國科學院能量調控材料重點實驗室,中國科學院上海有機化學研究所(上海 200032)
化學信息學是采用計算機科學和信息學方法及技術解決化學問題[1-3]的一門學科,是涉及化學、數學、計算機科學以及化學應用領域等多學科的交叉學科,屬人工智能范疇。化學信息學方法和技術可用于解決各個領域中的化學問題。所謂化學問題主要包括:分子設計、合成設計/反應預測、結構確定。
化學信息學方法主要有三大類:基于數據、基于邏輯和基于原理。
具體而言,基于數據即建立對應的數據庫系統,并利用數據庫系統獲取所需的數據和信息。這種方法的特點是只能得到已被數據庫系統收錄的化學信息,且只適用于獲取已知對象的數據。基于邏輯即充分利用已收集的大量正確的化學實驗數據,以及相關的邏輯推理、歸納和演繹的方法,對已收集的數據進行分析、歸納,從中獲取相關的知識、規則和關系,并利用這些規則、知識和對應關系,對新化合物、合成路線/反應、結構和譜圖進行相應的預測。這種方法的特點是可以處理大批量的數據和大的體系,但它不能從原理上解釋預測結果。基于原理即利用相關的理論計算方法計算化合物的能量和相關性質,根據計算結果,實現分子設計、合成設計/反應預測、結構解析及譜圖模擬。該方法的特點是可以從原理上解釋它們的結果,但不適用于處理大批數據和大的體系??梢?,三類方法各有特點,適用于解決不同狀態下的化學問題。
自1946年第一臺計算機誕生起,人們就開始關注,如何利用計算機處理各種數據。在化學領域,在1957年之前,便有相關研究工作的報道[4-5]。隨著應用研究的不斷深入,計算機在化學領域的應用,從化學研究本身的數據存儲、查詢和分析,逐步深入到分子設計、合成設計/反應預測、結構確定,即應用于解決化學問題的工作中[2,6-7]。
1998年之前,采用計算機技術開展分子設計、合成設計或結構確定工作,通常以“計算機輔助”作為標識,并未形成專門的一個學科。1998年,布朗(Brown)博士認識到應用信息技術和管理已成為藥物發現過程中的一個關鍵部分,并首次提出了化學信息學的定義:化學信息學可將這些信息資源組合起來,將數據轉化為信息,再將信息轉化為知識,以便于在確定和優化藥物先導方面快速作出較合理的決策[8]。盡管布朗博士基于藥物研發領域提出了化學信息學的概念,但隨著計算機和信息技術在化學領域中應用的不斷深入,化學信息學的定義經多次完善后,在2003年,它的定義被描述為:應用信息學方法及技術解決化學問題[3]。之后,它的定義繼續得到補充和完善:化學信息學是采用計算機科學和信息學方法及技術解決化學問題[1-3]的一門學科,是涉及化學、數學、計算機科學以及化學應用領域等多學科的交叉學科。它的方法和技術可用于解決所有領域中的化學問題。
2003年,以色列化學家A.Shani博士發表了一篇題為“化學幾乎無處不在”的文章[9]。在該文中,他介紹了化學的作用,以及與化學相關的領域,如生物、醫藥、生態、材料、地球科學、農業、環境、生物體內的各種變化等,它們都與化學密不可分。為此,我們可以認為這些領域中的部分問題,本質上是屬于化學問題的范疇:分子設計、合成設計/反應預測、結構確定。
分子設計即采用多種技術發現具有特定應用所需特定性質的新化學實體[10]。
應用于分子設計的化學信息學方法主要包括:(1)基于數據,即利用化合物數據庫系統,查詢化合物的相關信息;(2)基于邏輯,即建立結構與性質關系模型,并基于模型預測化合物的性質;(3)基于原理,即采用理論計算方法,計算化合物的物理化學參數,并根據計算結果,預測化合物的特定性質。
合成設計/反應預測即采用各種方法和技術設計獲得某個化合物的合成路線/反應途徑。應用于合成設計/反應預測的化學信息學方法主要包括:(1)基于數據,即利用反應數據庫系統,查詢合成路線/反應途徑的相關信息;(2)基于邏輯,即建立反應物生成產物的規則,并基于規則設計預測特定化合物的合成路線/反應途徑;(3)基于原理,即采用理論計算方法,計算反應物變成產物所需的能量,相關的電荷及鍵長等參數,并根據計算結果,推測反應物變成產物的可能性,并解釋其反應機理。
結構確定包含兩部分工作:(1)結構解析;(2)譜圖模擬。結構解析即根據一組譜圖推斷一組候選化合物。譜圖模擬即根據化合物的化學結構獲得預測對應的譜圖。
應用于結構解析的化學信息學方法主要包括:(1)基于數據,即利用譜圖數據庫系統,查詢被解析的譜圖所對應化合物的結構信息;(2)基于邏輯,即建立譜圖與化學結構的對應關系,并根據對應關系,預測可能的化合物結構。
應用于譜圖模擬的化學信息學方法主要包括:(1)基于數據,即利用化合物數據庫系統,查詢與指定化合物相關的譜圖信息;(2)基于邏輯,即建立結構與譜圖關系模型,并基于模型預測化合物的譜圖;(3)基于原理,即采用理論計算方法,計算化合物的譜圖數據,并根據計算結果,預測化合物對應的譜圖。
最后,比較模擬得到的譜圖和被解析譜圖,如果兩張譜圖相同,則用于譜圖模擬的化合物即為被解析譜圖的化合物。
解決三大類化學問題的化學信息學方法有三種,但在實際應用中,通常沒有固定的使用模式,需要根據問題的內容制定使用方案。
化學信息學的方法研究主要集中在基于數據和基于邏輯兩類。
基于數據的研究工作主要為“建立數據庫系統”。通常一個數據庫系統的建立包含兩個部分內容:(1)數據采集和規范化處理;(2)數據管理系統的設計與開發。具體的研究內容主要包括:(1)應用圖論[11]/化學圖論[12-13]方法,實現化學結構的存儲、分析和運算;(2)數據規范化處理規則的建立;(3)數據管理系統的數據結構設計、查詢算法設計和系統開發,這部分工作屬軟件工程[14]范疇。
基于邏輯的研究工作主要為“知識發現,建立知識庫系統”。對于分子設計和結構確定而言,研究內容主要包括:(1)應用圖論/化學圖論方法實現化學結構的存儲、分析和運算;(2)應用數據分析方法,如回歸分析、方差分析、聚類分析、神經網絡等[15],實現化合物性質數據的分析;(3)采用統計學和機器學習方法[16-19]研究化合物結構與性質的關系,并建立對應的關系模型。對于合成設計/反應預測而言,研究內容主要包括:(1)應用圖論/化學圖論方法實現化學反應數據的存儲、分析和運算;(2)將圖論/化學圖論與數據分析方法組合,實現反應物生成產物的規則提?。唬?)建立知識庫管理系統:知識管理系統的數據結構設計、查詢算法設計和系統開發,這部分工作屬軟件工程范疇。

圖1 傳統模式
從人類學會使用火,就開始了最早的化學實踐活動。人類對“煉丹”和“煉金”活動本質的認識,為化學最終成為一門科學積累了素材。隨著人類各種生產活動內容的積累,人們總結感性知識,進行化學變化的理論研究,使化學成為自然科學的一個分支。自從化學成為一門獨立的學科后,隨著化學研究的不斷深入,以及與其他學科的交叉,新的化學分支學科不斷產生,現有的分支學科有:有機化學、無機化學、分析化學、高分子化學、物理化學、環境化學、核化學、材料化學、生物化學、元素有機化學、天然有機化學、藥物化學和食品化學等。自化學信息學誕生至今,尚未滿30年??梢姡噍^于已有的化學分支學科,化學信息學是一門非?!澳贻p”的化學分支學科。與其他分支學科不同,它不做實際的化學實驗,但它應用計算機科學和信息學技術開展相應的化學研究工作;同時,它將相關的數學方法/算法轉化成適用于處理化學信息的方法/算法。
化學信息學方法和技術的應用,將促進化學研究從傳統模式(見圖1)向現代模式轉換(見圖2),并可提高解決化學問題的效率,降低盲目性。

圖2 現代模式