胡雪琴,楊寅,崔蒙*
1.浙江中醫藥大學浙江省骨傷研究所,浙江 杭州 310053;2.中國中醫科學院中醫藥信息研究所,北京 100700
關于中醫藥數據挖掘研究理念變遷的探討
胡雪琴1,楊寅2,崔蒙2*
1.浙江中醫藥大學浙江省骨傷研究所,浙江 杭州 310053;2.中國中醫科學院中醫藥信息研究所,北京 100700
中醫藥數據挖掘工作已開展近 20余年,在此過程中,中醫藥數據挖掘的理念在不斷變遷。按年代的先后順序,其變遷大致可以分為 3個階段。國家科技計劃“九五”和“十五”期間是第一階段,是起始階段,這一階段中醫藥數據挖掘研究的特征遵循“大數據”的三大理念;“十一五”和“十二五”期間是第二階段,是全盛時期,這一階段中醫藥數據挖掘研究的特征是遵循“精準醫學”三大理念;第三階段主要是國家科技計劃的“十三五”和“十四五”期間,是突破創新階段,這一階段將受人工智能影響,試圖發現可以超越個體的、適用于中醫臨床的優秀群體經驗。
中醫藥;數據挖掘;大數據
數據挖掘(data mining)是數據中的知識發現(knowledge-discovery in databases, KDD)過程中的一個步驟。具體來說,KDD由數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示這 7個步驟組成和完成;根據其功能,數據挖掘可定義為從存放在數據庫、數據倉庫或其他信息庫中的大量數據中發現有趣知識的過程[1]。數據挖掘是一門新興的交叉性學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術[2]。數據挖掘技術已被應用于計算機軟件及計算機應用、自動化技術、互聯網技術、企業經濟及中醫學等多個學科領域中。
如果世界是由物質、能量和信息三大要素構成的,那么中醫藥學由于其產生的時代背景所限,其研究的主要世界構成要素必然是信息[3]。定性或定量化的信息亦即數據,對于信息的獲取、存儲、處理和傳播都具有極其重要的意義。而數據挖掘在數據處理中占有極為重要的地位。通過數據挖掘,可以發現中醫藥學概念間的關聯關系、新的知識,甚或新的規律,這對于促進中醫藥理論、方法、技術的進步,大力提高中醫臨床療效,加快中藥新藥研發均具有重要意義。因而,近20余年來中醫藥領域在不斷地開展數據挖掘研究工作。隨著科技的不斷發展和創新,中醫藥數據挖掘的理念也在不停地變遷。按年代的先后順序,其變遷大致可以分為 3個階段:起始階段、全盛時期和突破創新階段。
第一階段大約是在1995-2005年,主要在國家科技計劃“九五”和“十五”期間。這是中醫藥數據挖掘研究的肇始階段,中醫藥數據挖掘工作尚未得到充分重視。在這一時期,中醫藥數據挖掘主要是遵循了大數據的三大理念,即全數據、混雜性和相關關系[4]。具體地說,就是盡可能地收集所能收集到的全部數據,把所有能夠收集到的數據混雜在一起進行分析,分析的重點是發現數據間的關聯關系。該階段研究的目的是試圖發現中醫藥“書同文、車同軌”的“大一統”規律。換言之,就是發現如同西醫一樣,適用于所有情況的中醫藥統一規律。盡管那個時期大數據這個概念還沒有提出,大數據理念也沒有彰顯,但中醫藥數據挖掘的研究工作,卻提前不自覺地遵循了大數據的三大理念。
該階段內,中國中醫科學院中醫藥信息研究所匯集了所有有出處的方劑(約10萬余首),研制了方劑數據庫,并將其結構化,用高頻集的方法去探尋方劑組成規律,亦即方劑配伍規律。進行方劑數據挖掘的結果,成功發現了以方核為基礎的方劑衍變軌跡,探索了高頻藥對出現的規律,但無法發現方劑配伍的規律,更不可能將此研究成果直接用于中醫臨床處方用藥或中藥新藥開發。同時期,亦將所能收集到的中醫藥治療疾病的文獻匯集,研制中醫臨床數據庫,并按系統或病種將其結構化,用聚類挖掘的方法探尋中醫臨床診療規律,也就是中醫臨床辨證論治規律。進行中醫臨床數據挖掘的結果,成功總結了中醫臨床某個證候或疾病能夠出現的癥狀、所用的治則、選用的方劑和藥物,但卻無法發現中醫辨證論治的規律。
這一階段還開展了很多類似的研究工作,也取得了一些成績,但始終無法真正提高中醫臨床療效、促進中藥新藥開發、豐富和發展中醫藥理論。這促使中醫藥信息學研究者認真反思此階段的研究工作在指導理念上是否存在問題。經過認真研究、思考,發現中醫藥在實際運用中有著很強的個體化特征,企圖將其變為與西醫學一樣的、具有大一統規律的醫學是不實際的,中醫藥數據挖掘研究必須依照中醫藥學自身特色和數據規律。
第二階段大約是在2006-2015年,主要在國家科技計劃“十一五”和“十二五”期間。這是中醫藥數據挖掘研究的全盛時期,國家投入了大量科研經費、部署了大量科研項目用于開展中醫藥數據挖掘研究工作。在此期間,幾乎所有的中醫藥科研項目均或多或少地開展了數據挖掘研究。特別是大數據理念提出后,數據作為重要的科研資源共享,得到了越來越多的重視。在這一時期,中醫藥數據挖掘研究主要是遵循精準醫學三大理念,即個體化、系統化、整體化[5]。個體化就是將醫生視為個體,所研究的重點是個體醫生的辨證論治經驗,甚或其學術思想;系統化就是不僅將醫生視為個體,同時也將患者視為個體,個體醫生與個體患者組成了一個系統,研究重點是發現這個系統所收集到的數據隨時間變化產生的規律;整體化就是將作為研究對象的個體醫生所有能夠收集到的數據都收集起來,作為一個整體進行數據挖掘,以期發現其處方用藥規律。研究目的是試圖發現“小國寡民”的個性化規律;換言之,就是發現遵循傳統中醫個體化診療的規律。當然,那個時期,精準醫學的理念還沒有提出,中醫藥界也不知道精準醫學的三大理念,但中醫藥數據挖掘的研究工作確實提前遵循了精準醫學的這三大理念。
在此期間,中醫藥數據挖掘研究工作的重點是名老中醫經驗挖掘,中醫藥領域開展了大量名老中醫經驗挖掘的科研工作。例如,中國中醫科學院廣安門醫院以王映輝研究員為首的研究團隊認為,采集名老中醫辨證論治醫案,可分析其辨證經驗、用藥經驗等[6]。他們指出,辨證經驗是指醫生綜合患者的臨床表現、檢驗檢查結果等信息,分析判斷后,形成的對患者綜合性的判斷,是用藥基礎。辨證經驗包括的內容主要有癥狀與證候的關系、疾病的證候特征,以及證候相兼規律等。用藥經驗是指醫生根據所辨證候及兼證、兼癥等選方用藥的情況。一般而言,醫生針對某一類具體病證有一個核心處方,核心處方的配伍是相對固定的,同時,由于每個患者的個體化特征,臨證常有加減變化。有的醫生是針對某一病有一核心處方,有的則針對某一病的某一證才有核心處方。分析挖掘名老中醫的臨床經驗,其核心內容有 2個:一是“如何確定證”,即辨證經驗;二是“如何確定治”,即用藥經驗。為全面分析辨證經驗及用藥經驗,需要全面考慮其涉及的臨床要素,總結其辨證及用藥經驗。
類似的研究在全國各地開展很多,均取得了顯著成績。但這些研究結果很難高于名老中醫個人對于具體病證的認識,因而對總結經驗多有裨益,對提高具體病證領域的最高中醫診療水平則幫助有限。經過認真分析研究,得出結論:中醫固然是經驗醫學,但其提高不能只依賴于個人感悟,只有發揮行業整體優勢,才能實現中醫藥的跨越式發展。
第三階段預測在2016-2025年,主要是國家科技計劃“十三五”和“十四五”期間,這是中醫藥數據挖掘的突破創新階段。這一階段中醫藥數據挖掘的定位將是以市場需求為導向,通過患者提供的信息,將數據直接轉化為衛生保健知識,讓患者在治療過程中發揮更積極的作用,從而讓數據挖掘的價值得到最大程度的體現。中國中醫科學院唱獨角戲的研究主體中也將融入更多醫療服務企業的加入,研究對象從科研型結構化、半結構化數據向移動終端的海量非結構化數據轉變。這一戰略轉變將推動一系列新的軟件、服務和應用更快地進入市場,有可能為中醫藥理論完善、臨床療效提高和新藥創制提供支撐。
在此階段,IBM公司的最新電腦系統Watson將是醫療認知計算系統的杰出代表。2015年 4月,Watson Health成立,標志著IBM Watson正式涉足醫療行業。Watson在海量的大數據環境中不斷進行學習,不僅是認知計算,而是認知計算和大數據、分析和決策的復雜相互作用的結果。醫療機構在與Watson合作的同時,使得醫學研究人員在認知計算領域得到了知識的擴展。
在中醫藥領域,中醫藥數據挖掘的理念也將深受Watson認知計算的影響,針對中醫優秀群體診療經驗的中醫藥數據挖掘平臺也必須具備理解、推理、不斷學習及強大分析的能力。但是,由于中醫藥數據屬于知識密集型數據[7],其特點是知識密集度高,特別是醫案文獻數據是古代醫家在臨床診治中的心得體會,是醫家探索總結的一種智慧體現,蘊含了大量的隱性知識,而這些隱性知識具有很強的知識發現潛質。但中醫藥知識密集型數據的描述和表達是粗糙的,數據語義與內涵邏輯根本就沒有邏輯性或者不能明確表達,這就為數據抽取和數據清洗帶來了巨大困難。
尤其是隨著海量移動客戶端數據的涌入,將更容易獲得用戶的各種行為信息,例如所有的臨床檢驗信息、處方信息、個體信息、疾病史信息及保險信息等。數據清洗面臨的數據源更加復雜,例如問答、搜索、下載、上傳的各種數據等等。數據抽取也將面臨更大的挑戰,例如歧義、語義變換,及無結構數據抽取模板的學習等。在中醫學臨床應用的場景中,由于數據抽取的質量與臨床診療的療效相關,因此對抽取工作的準確率、召回率的要求就更加高。希望通過對Watson理念的學習,能夠建立起中醫藥數據挖掘第三階段的理念和方法,即由之前的“模擬”名老中醫診療成為“多種傳感器和大規模數據庫,通過多種算法和機器的學習,來完成分散的任務”,能將優秀中醫群體智慧成功地用于證候診斷和處方用藥上,那么對提高中醫臨床療效將具有不可估量的作用。
2016年 3月,阿爾法圍棋(AlphaGo)對戰世界圍棋冠軍、職業九段選手李世石,并以4∶1的總比分獲勝。AlphaGo的工作原理有 2個:一是“深度學習”,二是“兩個大腦”,即通過 2個不同神經網絡“大腦”合作來改進下棋。在給定棋子位置情況下預測每一個棋手贏棋的可能。對于中醫藥數據挖掘來說,如果能將 AlphaGo“深度學習”的工作原理發展應用于中醫優秀群體的診療經驗學習,將“監督學習的策略網絡”與棋局評估器雙大腦的模式發展應用于具體疾病診療,那么針對中醫優秀群體的醫生診療數據挖掘將可實現。
無論是Watson還是AlphaGo,都是集中了人類優秀智慧解決問題。盡管中醫面對的問題比 Watson 和 AlphaGo面對的問題要復雜很多,但如果中醫藥數據挖掘在受Watson和AlphaGo的啟發和影響下,試圖發現可以超越個體的、適用于中醫臨床的優秀群體經驗。那么在下一個10年,中醫藥數據挖掘研究有可能突破瓶頸,所取得的進展對中醫藥學的發展將是至關重要的。
[1] 韓家煒, KAMBER M.數據挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007:3.
[2] 王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004, 32(2):246-252.
[3] 崔蒙,李海燕,雷蕾,等.“大數據”時代與中醫藥“知識密集型”數據[J].中國中醫藥圖書情報雜志,2013,37(3):1-3.
[4] 維克托?邁爾-舍恩伯格,肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[5] 吳家睿.建立在系統生物學基礎上的精準醫學[J].生命科學,2015, 27(5):558-563.
[6] 張華東,趙冰,王映輝,等.謝海洲“治痹三要四宜”學術思想之信息化研究[J].湖北中醫雜志,2008,30(11):5-6.
[7] 崔蒙,楊寅.關于中醫藥科學數據建設的思考[J].中國中醫藥圖書情報雜志,2016,40(4):1-3.
Discussion on the Research Concept Change of Traditional Chinese Medicine Data Mining
HU Xue-qin1, YANG Yin2, CUI Meng2*
(1. Institute of Orthopaedics and Traumatology, Zhejiang Chinese Medical University, Hangzhou Zhejiang 310053, China; 2. Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
TCM data mining has been carried out for nearly twenty years. In this process, the concept of TCM data mining is constantly changing. According to the chronological order, there were three stages of changing: the national science and technology program of “The Ninth Five-Year Plan” and “The Tenth Five-Year Plan” period was the first stage, which was the initial stage of TCM data mining research, and the characteristic of this stage followed the “three concepts of big data”; the second stage was during “11th Five-Year and 12th Five-Year Plan” of the national science and technology program period, which was the heyday of TCM data mining research, and the characteristic of this stage followed the three concepts of "Precision Medicine"; the third stage was during the “13th Five-Year and 14th Five-Year Plan” of national science and technology program period, which was the breakthrough innovation stage of TCM data mining. This stage will be affected by the artificial intelligent, trying to find the experience of outstanding groups that can be suitable for TCM clinic.
traditional Chinese medicine; data mining; big data
R2-05
A
2095-5707(2017)01-0012-04
胡雪琴,楊寅,崔蒙.關于中醫藥數據挖掘研究理念變遷的探討[J].中國中醫藥圖書情報雜志,2017,41(1):12-15.
10.3969/j.issn.2095-5707.2017.01.003
2016-08-24)
(
2016-10-20;編輯:魏民)
國家科技部重大專項(2012ZX09304003-001);國家中醫藥管理局行業專項(201207001-21);科技部科技基礎性工作專項(2009FY120300);中國中醫科學院創新團隊項目(PY1306);福建省2011中醫健康管理協同創新中心第一作者:胡雪琴,副研究員,研究方向為中醫診斷學。E-mail: 549772853@qq.com
*通訊作者:崔蒙,研究員,研究方向為中醫藥信息學。E-mail: cm@mail.cintcm.ac.cn