可持續發展
高效識別“已知的未知物質”
盡管“大數據”一詞由來不久,但是科學家們早已試圖尋找各種方法,從而對爆發式增長的化學數據進行管理和分析。當年,美國化學文摘社旗下的CAS REGISTRY數據庫收錄第1 000萬個獨一無二的有機和無機物質,歷時30余年。而如今,CAS REGISTRY數據庫最近收錄1 000萬個物質只需要半年不到的時間。目前,CAS REGISTRY數據庫收錄了數百萬的化學物質數據,被業界譽為化學物質信息的“黃金標準”。
事實上,收錄數據并非易事。處理大數據的挑戰在于,在確保即時結果有效性的前提下,還需使用不同方法對文本信息、物質結構以及數值數據進行管理與分析?;瘜W家們常常會依賴基于計算機的手段,對海量的信息進行有效地解讀與分析,如此一來,他們就可以快速回到實驗室從事研究工作。我們可以從科學家收集并分析物質性質的角度來闡述這一個觀點。
作為物質性質數據的可靠信息來源,CAS REGISTRY數據庫在2014年3月份已經收錄了8 600多萬種有機和無機物質?;瘜W家們可以通過CAS REGISTRY數據庫中獲得48億個預測及實驗性質和譜圖標簽,同時還能基于物質性質的共性,對已知的化合物進行性質對比,對未知的化合物進行探究。如通過可觀測的熔點檢索具備相似性質的潛在化合物。
化學家們通常會利用大型的物質數據庫去說明質譜分析法的結果。20世紀60年代末,絕大多數的質譜儀只能測定標稱質量數據。如今,新型的質譜儀具備更強大的功能,不僅能夠測定精確的質量數據,還能將誤差控制在百萬分之幾的范圍內。即便先進的儀器能夠提供分子式數據,但熟練的質譜分析員仍然急需解決一個問題,那就是如何將這些數據轉化為結構式數據。因此,基于計算機可獲得的物質數據庫及其實驗性數據能夠幫助科學家們節省時間和預算。
2011年,伊士曼公司研究員James Little在《美國質譜學會志》上發表的一篇論文提到,他和同事引用了Donald Rumsfeld提出的“已知的未知物質”來描述這樣一類物質:雖然對于研究人員來說是未知的,但它有可能已經存在于已公開的物質數據庫中。Little的論文以一些細微樣品的發現歷史作為引言,并詳細介紹了如何將罐頭涂層工藝中發現的污染物識別為一種特定環狀二聚體的研究案例。通常情況下,當合適的食品模擬溶劑接觸到食品包裝中的聚合物涂層后,會生成可萃取物。而美國食品藥物管理局對上述生成的萃取物有著非常嚴格的規定。在這個案例中,當合作實驗室的研究人員將伊士曼公司生產的聚酯涂層涂覆到金屬罐上時,通過液相色譜質譜聯用儀(LCMS)觀察發現,罐頭涂層上的萃取物(即污染物)不僅包括常見的直鏈和環狀聚酯,還出現了一種意想不到的UV吸收物質。
Little的團隊利用精確的電噴霧質譜分析,確認該污染物中含有分子式C36H40O6,隨后使用CAS旗下的檢索工具SciFinder對這個分子式進行檢索,得到近200個相關物質的信息。由于研究人員熟悉一些樣品的來龍去脈,因此他們檢索了所有學術參考資料,并以“罐頭涂層”作為關鍵詞去篩選專利和期刊文章。最終,根據四篇參考文獻的資料,研究人員發現一種常見于環氧樹脂罐頭涂層的萃取物Cyclo-DiBADGE(CAS登記號為20583-87-3)與污染物的所有數據信息相匹配。原來,合作實驗室的研究人員不小心將另一家公司的環氧樹脂涂料涂染到伊士曼公司的聚酯涂層上,才發生了這次“小意外”。除了上述方法,研究人員還可以利用SciFinder最近新添的檢索功能來搜索并識別這一污染物,即根據物質的分子量來檢索。盡管化學數據庫中有許多物質的數值屬性信息,考慮到分子量與質譜分析有著非常密切的關系,SciFinder數據庫還會專門將其收錄進來。
如今的質譜分析調查顯示,分子態離子的質量可以通過直接檢索分子量獲得。隨后對列出的一系列物質選項進行篩選,即可破譯“已知的未知物質”的結構。例如,假設某一種巴比妥酸鹽可能會導致血液成分不均衡。同時,質譜分析儀顯示該物質的分子態離子的質量約為232.24。在此基礎上檢索該物質的分子量,然后根據引用的頻率對檢索結果進行排序,很快就會查到該物質最有可能是苯巴比妥。最后利用SciFinder確認這一結果,即在SciFinder中查詢實驗性質譜數據,將其與該物質最近測量的質譜進行對比。當一個化學物質數據庫擁有大量物質性質和質譜信息時,它能夠幫助研究人員提高研究效率、節省時間和金錢。
美國化學文摘社Roger Schenck
(本欄目編輯:涂閩)