江啟煜 何曉華 劉秀峰



摘要:隨著中醫藥藥理實驗和生命科學研究的不斷發展,中藥從宏觀到微觀層次已經積累了大量的實驗數據以及文獻信息,通過整合這些大數據,研發中藥生物分子信息文獻系統,具有重要意義。中藥生物分子信息文獻系統可以實現“中藥-化學成份-靶蛋白-生物通路-文獻信息”的多層次信息檢索功能,并且具有蛋白基因關聯知識推理發現功能,能夠方便研究人員獲取中藥的所有相關化學成份、靶點、以及生物通路等數據信息,從而有助于分析中藥對疾病的分子作用機制,而且系統的推理功能能夠分析出兩個或多個靶點之間的相互作用關聯路徑,使研究人員進一步探索多靶點之間的機制作用途徑。
關鍵詞:中藥;生物信息;文獻系統;大數據
中圖分類號:R285? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2019.15.004
文章編號:1006-1959(2019)15-0010-04
Abstract:With the continuous development of traditional Chinese medicine pharmacology experiments and life science research, Chinese medicine has accumulated a large amount of experimental data and literature information from the macro to the micro level. It is of great significance to integrate the big data and develop the biomolecular information literature system of traditional Chinese medicine. The traditional Chinese medicine biomolecular information literature system can realize the multi-level information retrieval function of "Chinese medicine-chemical composition-target protein-biological pathway-document information", and has the function of protein gene-related knowledge reasoning and discovery, which can facilitate researchers to obtain all relevant chemistry of traditional Chinese medicine. Data information such as components, targets, and biological pathways, which help to analyze the molecular mechanism of Chinese medicine on disease, and the system's reasoning function can analyze the interaction path between two or more targets, making research The personnel further explored the mechanism of action between multiple targets.
Key words:Traditional Chinese medicine;Biological information;Literature system;Big data
一直以來,中藥生物分子領域的專業數據和科技文獻資源缺乏,基礎數據和文獻資源離散分布于大量論文和文獻檢索系統中,不利于科研人員的研究探索。因此,如何研發具有專業結構性知識檢索功能以及知識發現推理功能的中藥生物分子信息數據文獻系統,將具有重要的科研意義。本研究基于多個著名的國際生物學數據庫(如TCMID[1]、Pubchem[2]、HIT[3]、Reactome[4]、TCMSP[5]等),及文獻數據庫,將大量的中藥、化學成份、蛋白、基因、生物通路等生物信息大數據進行多層次的結構化關聯整合,形成從宏觀到微觀的中藥-化學成份-蛋白(基因)-生物通路-文獻信息的多層次中藥生物分子關聯信息數據庫。本系統的研發將能夠為中醫藥研究提供方便可靠的中藥生物分子信息基礎數據分析支持及文獻資源支撐,有力促進中醫藥與生命科學領域的研究發展,從中發現更多的科學突破,具有顯著現實應用價值與推廣前景。
1系統提供的檢索模式
本系統支持三種檢索模式:單庫檢索、跨庫檢索、集群跨庫檢索。①單庫檢索:用戶選中某個數據子庫,輸入檢索詞或組合檢索式,返回其在本數據庫的相關信息。例如選擇中藥子庫檢索中藥名返回該中藥的標準藥名、功效、屬性、分類等信息,選擇選擇文獻信息子庫檢索中藥名返回該中藥的相關文獻信息。②跨庫檢索模式:該模式是本平臺的檢索特色,用戶選擇同時檢索的幾個數據庫并輸入檢索詞,返回其在其它子庫的所有關聯信息,節省了用戶層層檢索查詢的時間。例如用戶需要查找一個化學成份對應的靶點(靶蛋白)信息和相關文獻,按照現有的檢索方法,用戶必須先檢索出該化學成份相應的每一個靶點,再檢索出每一個靶蛋白相應的文獻。而在本跨庫檢索模式下,用戶只需選中化學成份-蛋白子庫以及文獻信息子庫,輸入檢索詞或組合檢索式,即可直接返回該化學相應的所有靶蛋白信息以及相應的文獻信息。③集群跨庫檢索模式:與跨庫檢索模式類似,但該模式可支持同時輸入多個中藥,多個化學成份(化學成份集),或多個蛋白基因(蛋白基因集)進行檢索,該功能更有利于藥物機制的探索分析和新藥開發研究,因為很多中藥發揮作用都是通過多成份多靶點的綜合作用。例如已知某疾病的主要靶點集中在若干靶蛋白上,將這些靶蛋白通過該平臺進行集群跨庫檢索,即能獲得這些靶點相應的中藥有效化學成份。
2系統應用領域
2.1中藥基本信息檢索? 每一種中藥,能夠檢索的信息字段包括ID、標準藥名、同義藥名、拼音名、英文名、功效、性能、分類等。應用該檢索功能,能夠獲取中藥相關的一般信息,及其化學成份與靶點列表。在系統檢索界面中選中“中藥”選項卡,并在檢索框輸入檢索詞,點擊檢索后,將在后臺數據庫對相應字段進行模糊檢索并返回相應結果。系統除了檢索中藥名字段外,也同時檢索同義藥名字段。例如檢索“大黃”或者“川軍”,系統將返回大黃的標準藥名、同義藥名、拼音名、英文名、功效、性能、分類等信息,并且以列表鏈接的形式,枚舉該中藥相關的所有化學成份以及靶點。當點擊上述列表中的具體某個化學成份或靶點時,分別跳轉到相應的化學成分以及靶點的具體信息頁面。用戶通過利用系統的該項檢索功能,不但能夠方便收集中藥的一般信息,而且能夠系統性地研究某一類功效性能的中藥的共性靶點或參與的生物通路。系統界面如圖1所示。
2.2中藥-化學成份-靶蛋白檢索? 每個中藥包含許多有效化學成份(小分子化合物),每個化學成份可能對應數千個靶蛋白(靶點),靶蛋白間的相互作用關系有數十萬條以上,大量的靶蛋白又參與了人體許多不同的生物通路,所以從宏觀到微觀層次的數據量非常復雜與巨大。系統能夠檢索的某個中藥具體的化學信息(圖2)及靶點信息(圖3)包括:化學成份名、化學成份對應的CAS號、inchkey、化學成份作用的靶蛋白全名、靶蛋白Symbol 號及其Uniport ID。在系統檢索主界面選中“化學成份”選項卡,并在檢索框輸入檢索詞,點擊檢索后,系統將在后臺數據庫對相應字段進行模糊檢索,例如檢索“alpha-Curcumene”,系統將返回alpha-Curcumene的標準化學名、同義名、CAS號、inchkey等信息,并且以列表鏈接的形式,枚舉該化學成份相關的所有中藥及靶點。當點擊上述列表中的具體某個中藥或靶點時,分別跳轉到相應的中藥以及靶點的具體信息頁面。如果在主界面選中“靶點”選項卡,并在檢索框輸入檢索詞,點擊檢索后,系統將在后臺數據庫對相應字段進行檢索,并返回靶點的靶蛋白全名、靶蛋白Symbol 號、Uniport ID,及其參與的生物通路,并以列表鏈接的形式,枚舉該靶點相關的所有中藥及化學成份。可見本系統的中藥-化學成份-靶蛋白的多層次生物信息是環環相扣的,用戶只需要在如何一個信息層次入口檢索,其相關的所有其它層次信息,都將會被檢索顯示,這樣的功能設計將有利于用戶進行中藥、化學成份、靶蛋白任何一個信息點的信息收集與應用。因此,在實際研究中,用戶可以通過該系統直接檢索某個中藥的所有相關化學成份,靶點,以及生物通路,從而進一步分析藥物靶點與已知疾病靶點的相互作用,明確中藥對疾病的分子作用機制。
2.3中藥-化學成份-靶蛋白相關文獻檢索? 本系統提供中藥,化學成份,以及靶蛋白的相關文獻信息檢索功能。在系統檢索主界面中選中“文獻”選項卡,并在檢索字段中選擇檢索字段,并輸入檢索詞,最后選擇檢索的邏輯運算條件,點擊檢索后,系統將進行相應字段的模糊檢索并返回相應檢索結果。可以選擇的檢索字段包括:題名,作者,刊物,出版年份,摘要。檢索的邏輯運算條件包括AND和OR。進行檢索后,系統將返回滿足條件的文獻鏈接列表,每個文獻鏈接點擊后返回該文獻的FAU(作者)、TI(文題)、JT(刊名)、DP(出版時間)、PG(頁碼)、AB(摘要)、SO(出版信息)等字段信息。系統界面見圖4。例如檢索式為TI=“Glutamate receptor 3” And? AB=“Interleukin-2”,則返回文題包含“Glutamate receptor 3”并且摘要包含“Interleukin-2”的所有中藥相關文獻。 通過系統的該項文獻檢索功能,用戶能夠方便快速獲取許多中藥相關的研究文獻信息,獲取中藥的相關研究動態,而不需要使用第三方的文獻數據庫進行進一步的檢索。
2.4蛋白基因關聯知識發現推理? 由于中藥-化學成份-靶蛋白之間具有相互關聯作用,從而可以生成關聯矩陣,通過特定的算法構建復雜關聯網絡,系統可以針對特定的檢索詞串,從復雜關聯網絡的某個節點開始,以最短路徑為依據,搜索相關的關聯節點,并生成輸出關聯拓撲子網絡,是解析中藥作用機制的關鍵。在系統主界面中點擊“推理預測”,并輸入兩個或多個檢索詞,系統將返回這些檢索詞的關聯網絡。例如用戶可以通過系統的推理功能,將某個藥物靶點與某個疾病靶點作為檢索詞輸入,此時系統將能計算該藥物靶點與疾病靶點的關聯作用路徑,從而能夠解析作用機制。或者用戶將兩個或多個藥物靶點作為檢索詞輸入,即能夠分析出這兩個或多個藥靶之間的相互作用關聯路徑,因此該功能有重要創新意義,見圖5。
3總結
傳統中醫藥的不斷傳承與當前中醫藥的現代化發展是相輔相成的,通過生物信息大數據的整合以及文本挖掘技術,研發中藥生物分子信息文獻系統,能夠有助于更深入從宏觀到微觀多層次揭示中藥的藥理分子機制,闡析中醫藥的科學內涵,促進中醫藥的科學化與信息化。隨著中藥化學成份與靶點實驗數據的巨量增長,本系統將更加突出中醫藥大數據的特色,知識發現推理能力亦趨強大,更能滿足用戶的需求。
參考文獻:
[1]Xue R,Fang Z,Zhang M,et al.TCMID:Traditional Chinese Medicine integrative database for herb molecular mechanism analysis[J].Nucleic Acids Res,2013,41(1):1089-1095.
[2]Wang Y,Suzek T,Zhang J,et al.PubChem BioAssay:2014 update[J].Nucleic Acids Res,2014,42(1):1075-1082.
[3]Ye H,Ye L,Kang H,et al.HIT:linking herbal active ingredients to targets[J].Nucleic? Acids Res,2011,39(2):1055-1059.
[4]Croft D,Mundo AF,Haw R,etc.The Reactome pathway knowledgebase[J].Nucleic Acids Res,2014,42(3):472-477.
[5]Ru J,Li P,Wang J,et al.TCMSP:a database of systems pharmacology for drug discovery from herbal medicines[J].J Cheminform,2014,6(1):13.
[6]陳陵,徐燎宇.大數據時代對中醫藥發展的思考[J].中醫文獻雜志,2019,37(1):66-69.
[7]陶永鵬,劉朝霞,頊聰.大數據背景下有關中醫藥現代化思路的探討[J].中華中醫藥雜志,2019,34(2):470-473.
[8]劉艷飛,孫明月,姚賀之,等.大數據技術在中醫藥領域中的應用現狀及思考[J].中國循證醫學雜志,2018,18(11):1180-1185.
[9]劉菊紅,曾召,張曉艷,等.中醫藥文獻大數據分析平臺的構建[J].中國中醫藥信息雜志,2018,25(8):4-8.
[10]楊進,羅漫,張啟蕊.文本挖掘在中醫藥文獻分析中的應用[J].廣東藥學院學報,2010,26(2):216-220.
[11]濮正平,夏江明,謝巍,等.基于文獻的舒肝解郁膠囊臨床應用文本挖掘研究[J].中國中藥雜志,2017,42(17):3430-3433.
[12]沈姍姍,姜淼,鄭光,等.基于文本挖掘探討中醫外治法和食療在糖尿病中應用規律[J].中國實驗方劑學雜志,2015,21(1):209-212.
[13]呂婷,姜友好.文本挖掘在生物醫學領域中的應用及其系統工具[J].中華醫學圖書情報雜志,2010,19(4):56-64.
[14]胡雙,陸濤,胡建華.文本挖掘技術在藥物研究中的應用[J].醫學信息學雜志,2013,34(8):49-53.
[15]展俊平,鄭光,姜淼等,文本挖掘探索慢性腎小球腎炎“證-癥-方-藥”相應規律[J].中國實驗方劑學雜志,2013,19(3):315-320.
收稿日期:2019-1-25;修回日期:2019-2-5
編輯/肖婷婷