劉 麗,付先軍,李學博,王振國**
(1. 山東中醫藥大學中醫文獻與文化研究院 濟南 250355;2. 山東中醫藥大學管理學院 濟南 250355;3. 山東中醫藥大學中醫藥經典理論教育部重點實驗室 濟南 250355)
中醫承載著中國古代人民同疾病作斗爭的經驗和理論知識,在防治疾病和重大疫病中發揮了重要作用,為中華民族的繁衍生息、日益強盛作出了卓越的貢獻[1]。近百年來,中醫藥領域雖取得了或多或少的成績,但少有突破,在相當長的一段時間里,中醫似乎仍停留在哲學思辨、經驗的層面,其理論特別是對應的概念不能用現代語言來描述[2],嚴重妨礙了中醫的價值實現。數據挖掘(Data Mining,DM)是為解決“數據豐富,知識貧乏”狀況而興起的邊緣學科之一,是從海量數據中獲取知識的可靠技術[3]。互聯網的發展,數據挖掘技術的日趨完善,特別是近年來人工智能技術的興起,為中醫藥的傳承和創新提供了新的契機。數據挖掘技術是中醫藥在保持自身獨特性的基礎上贏得廣泛認同的重要手段,可以為中醫藥的合理性提供依據。
本文采用文獻計量學方法對CNKI 數據庫2005-2019年公開發表的、在中醫藥領域使用數據挖掘技術的相關文獻進行分析,旨在明確我國中醫藥數據挖掘的發展現狀、研究范圍及研究熱點,為進一步開展研究提供參考依據。
在CNKI 中國學術期刊網絡出版總庫中,以“(SU = 中醫OR SU = 中藥)AND(SU = 數據挖掘OR SU = 數據分析)”構建檢索式進行主題檢索,截止至2019年11月,刪除與學術研究無關的信息(如發刊詞、卷首語及新聞、消息等),最終獲得2005-2019年的全部期刊文獻,共計1894篇。
對全部文獻選取標題、作者、單位、文獻來源、發表時間、關鍵詞、摘要等信息存入MySQL 數據庫,使用Python 語言pandas 包進行數據建模與計算分析,使用Matplotlib 軟件包以及Gephi 軟件進行可視化分析。Gephi 提供對數據的各種操作和顯示,包括對圖中節點、邊和標簽的調整、顏色變換以及大小的調節;實時的布局算法可以對數據進行各種各樣的布局[4]。
為了便于展示和研究,本文根據研究形式的變化分為2 個時間段進行統計(圖1)。2005-2014年10年里發文量總體上逐漸增多,以綜述、理論研究為主,平均每年發表69篇,共計692篇,占總發文量的36.46%。2015-2019年5年里發文量迅速上升,以醫案分析為主,共計1206篇,占總發文量的63.54%。

圖1 2005-2019年CNKI中醫藥數據挖掘文獻年份分布
全部1894 篇有效文獻涉及1518 位第一作者,人均發文1.25 篇,其中發文最多的是北京中醫藥大學的吳嘉瑞,共18 篇;第二是遼寧中醫藥大學的劉廣,共8篇;第三是中國中醫科學院的王一戰,共7篇。根據普賴斯公式N = 0.749(N 為核心作者的最少發文量,nmax為核心作者的最高發文量,0.749 為常數),在本研究中nmax為18,經計算N≈3.18,則候選的核心作者群中作者最少發文數量N 值超過3 篇,即發表4 篇及以上文獻的25位作者為該研究的核心作者。
將每位作者近15年的發文數量進行統計,選擇發文量前30的作者(圖2),顏色越深表示發文量越多,反之則越少。圖中表明,大多數作者在近5年開始該領域的研究,研究成果也集中出現在2015年以后,并在2017年達到最高。之前的研究成果比較分散且沒有延續性,近年來在該領域已經不再活躍。

圖2 2005-2019年作者發文時間熱力圖
使用Python 中的pandas包將發文量前100的作者構建共現矩陣,導入Gephi軟件生成作者共現網絡(圖3)。共現網絡中,作者結點之間的連線代表其合作關系,線條越粗表示合作越頻繁,在該研究領域合作就越密切,多位合作密切的作者在學術研究上形成了相對穩定的研究團隊。這些研究團隊大多以某位學者為核心,相互合作進行科學研究和論文的發表,同時也存在少量以個人為紐帶的團隊間合作。在這些團隊中,用藥規律的研究最為普遍,主要是通過借助數據挖掘和分析軟件對名醫的臨床處方或真實世界的臨床信息進行分析。

圖3 2005-2019年CNKI發文作者共現網絡
中國中醫科學院是團隊內部合作最為頻繁且合作發文最多的團體,去除團隊合作重復統計共發文70篇,其中包括以劉保延為核心的廣安門醫院、以崔蒙為核心的中醫藥信息研究所、以楊洪軍為核心的中藥研究所和以范吉平為核心的眼科醫院。除用藥規律研究外,劉保延團隊還涉及中藥數據規范化處理、中醫臨床數據倉庫的建立以及臨床信息平臺等方面,楊洪軍團隊研究開發了中醫傳承輔助平臺和中藥整合藥理學計算平臺,都是數據挖掘技術與中醫藥的更深層結合。以劉健為核心的安徽中醫藥大學團隊將數據挖掘技術與臨床工作相結合,做了大量關節炎的用藥規律分析,同時對當地新安醫學也進行了一定的研究。北京中醫藥大學的2 個團隊中,以張冰為核心的團隊把將數據挖掘方法應用于中藥研究,以王偉為核心的團隊的研究則擅于結合心血管疾病。此外,以段金廒為首的南京中醫藥大學,以蔡永敏為首的河南中醫藥大學,以王振國為首的山東中醫藥大學等都是發文較多的團隊。上述團隊或與自身研究領域相結合,或從古籍醫案中探尋規律。從總體上來看,各個團隊進行最多的還是用藥規律的研究,方法主要采用關聯規則、聚類分析、因子分析等幾種,僅有少量研究涉及更復雜的數據挖掘技術和算法。這說明,在中醫藥數據挖掘與分析的研究中,研究范圍相對狹窄,而研究方法也較為局限。

圖4 2005-2019年CNKI發文最多的10個單位
全部文獻共使用8102個關鍵詞,去除重復后共計2899 個。將關鍵詞按詞頻排序,去除主題詞“數據挖掘”“數據分析”“中醫”“中藥”,并將同義的關鍵詞進行標準化,合并為頻次更高的。
頻次前10 位的關鍵詞依次是用藥規律、關聯規則、中醫傳承輔助平臺、聚類分析、組方規律、中醫證候、名老中醫、醫案、名醫經驗、方劑(表1)。

表1 2005-2019年高頻關鍵詞前10位
相對于高頻關鍵詞,雖然低頻關鍵詞出現頻率較低但總體數量龐大,同樣能夠反映研究的趨勢,具有很重要的研究意義。由于算法是數據挖掘與數據分析的核心,本文對算法相關的低頻關鍵詞進行了統計與分析,結果發現:傳統經典的數據挖掘算法貝葉斯網絡,支持向量機、神經網絡、決策樹算法、粗糙集算法、頻繁項集在2005-2019統計區間內出現次數較多,且按年份均勻分布,即幾乎每年都會有相關論文發表,相關研究幾乎沒有間斷;回歸分析、無監督數據挖掘、無尺度網絡、隨機森林、關聯網絡、貝葉斯方法、改進最小角回歸、BB-NNF 算法、TCMA 算法、KNN 算法、Aitchison 出現小于2 次且均在2016年以前;文本挖掘、熵聚類、softmax 回歸、K-means、Spearman 相關分析、TF-IDF 算法在2015年以后特別是2019年的論文中出現,原因主要與人工智能的發展以及自然語言處理領域逐漸火熱相關,同時也帶動了經典機器學習算法的使用。
將全部關鍵詞按照出現的頻次進行排序,取前30個關鍵詞,使用Python 中的pandas 科學計算包進行關鍵詞共現矩陣的構建,將共現矩陣導入Gephi 軟件生成關鍵詞共現圖譜(圖5)。該圖中,連接2個關鍵詞的邊的粗細代表共現頻次的高低,連線越粗表示2 個關鍵詞共現次數越多,反之越少。關鍵詞的共現代表2個關鍵詞出現在同一篇文章的頻次,反映了關鍵詞之間關聯程度的高低,關聯程度越高的關鍵詞在研究內容上更具相關性。關鍵詞的共現分析能夠準確反映中醫藥數據挖掘研究中研究內容、研究方法和研究工具之間的關聯關系。從共現的頻次來看,數據挖掘與關聯規則、聚類分析兩兩高度相關,表明關聯規則分析和聚類分析是數據挖掘中最常使用的技術且經常同時使用;數據挖掘與用藥規律、中醫傳承輔助平臺的兩兩相關,說明借助中醫傳承輔助平臺進行用藥規律研究非常普遍。

圖5 關鍵詞共現網絡圖譜
2010-2019 共10年來發文量整體呈上升趨勢,中醫藥和數據挖掘技術漸漸深入結合。將近10年內頻數前30位的的關鍵詞全部提取,按年份對每個關鍵詞的頻數進行切片統計,得到年份-關鍵詞熱力圖(圖6)。在該圖中,關鍵詞頻數的高低由顏色的深淺來表示,顏色越深表示關鍵詞出現的頻數越高,反之,則越低。縱向表示某關鍵詞在時間維度上的變化趨勢;從圖的橫向看,左側顏色較深,說明左側的關鍵詞為近10年的高頻關鍵詞,排在前5位的是用藥規律、關聯規則、中醫傳承輔助平臺、聚類分析和組方規律。

圖6 2010-2019年年份-關鍵詞熱力圖
2012年以來用藥規律的研究越來越多,逐漸成為熱度的中心;關聯規則和聚類分析在10年里一直被廣泛使用,關聯規則的熱度在2017年達到巔峰后略有下降,聚類分析的熱度近年來開始上升且略低于關聯規則,這兩者是進行數據挖掘的最常用方法;中醫傳承輔助平臺是進行用藥規律分析的重要工具,自應用以來都保持了較高水平的熱度;2015年,用藥規律、關聯規則、中醫傳承輔助平臺、聚類分析、組方規律、配伍規律和名老中醫的熱度都出現了明顯的增長,一個以用藥規律和組方規律研究為核心,以中醫傳承輔助平臺為工具,以關聯規則挖掘和聚類分析為主要方法,以傳承中醫經驗為目標的中醫藥研究方法已形成雛形。
相關研究的1894 篇文章發布在337種期刊上,其中載文量最多的是《中國中醫藥信息雜志》(表2)。載文量前10的期刊累計發表530篇,占總數的27.98%。

表2 2005-2019年載文量前10位的期刊分布
從文章被引的角度,對全部文章的被引數量進行排序,分析排名前50位的文章特點。首先從被引最多的前10位文章內容來看(表3),其中與“中醫傳承輔助平臺”相關的論文達到了4篇。其次,從被引次數最多的前50位論文的類別來看,其中名老中醫經驗研究共9篇,中藥相關研究共7篇,組方規律研究共3篇,中醫藥信息系統與中醫藥臨床研究各2篇。

表3 2005-2019年被引量前10位的論文分布
高被引論文一般是研究領域內的熱點問題和基礎問題。從“中醫傳承輔助平臺”被引次數最多可以看出,目前中醫藥領域,一方面在研究者逐漸的有了將數據分析和數據挖掘的方法與工具應用到傳統的中醫藥領域的需求;另一方面受到編程以及數據分析能力欠缺的限制,研究者很難憑借自身的知識儲備與能力完成研究任務。“中醫傳承輔助平臺”軟件正好可以彌補兩者之間的差距,將中醫藥常用的分析方法固化到軟件系統中,使用者無需具備數據分析的知識就可以進行數據分析。因此,在此工具的基礎上,節省了研究者學習數據分析知識的時間,產生了大量的中醫藥數據挖掘與數據分析的論文。但同時,也反映出中醫藥數據挖掘領域目前過多的依賴現成的數據分析工具,存在創新性不足的問題。
2005年以前,受限于中醫藥數據的積累和計算機技術的發展,數據挖掘技術在中醫藥領域一直處于探索階段。徐慧[5]闡述了中醫文獻數據倉庫的系統的設計方法;李永健等[6]總結了聚類分析在中醫藥研究中的應用,涉及體質與辨證、文獻研究、醫療機構評價和中藥研究,提出聚類分析是中醫藥學研究中開展數量化工作的基石,將為中醫藥科研活動逐步從傳統的以定性描述為主的方式向定量研究的方式過渡打好基礎。李文林等[7]提出數據挖掘技術在中醫藥領域中的應用包括中藥藥性理論研究、中醫證候規范化、中醫動物模型研究、中醫方劑研究和中醫普效關系研究5個方面。
2005-2014年間,該領域的文獻以綜述為主,實驗研究較少,但是學者們開始重視數據挖掘技術并做出了大量總結和展望。2007年前后,關聯規則算法開始較多的運用到中醫藥領域,主要集中在方劑研究中,常用的算法有Apriori 算法和FP-growth 算法。2012年,楊洪軍等[8]設計開發了中醫傳承輔助系統,旨在輔助名老中醫經驗傳承、醫師個體經驗總結、青年醫師學習以及新藥處方發現等。此后,基于此平臺的用藥規律研究開始逐年增多。
從2015年起,中醫藥數據挖掘的相關文章快速增加,熱點越來越集中在用藥規律方面。數據挖掘技術在中醫藥研究中的具體應用涉及中藥方劑研究、中醫診斷、證候研究、針灸等方面[9]。中醫藥在傳承中產生了大量數據,從大量數據中提取有價值的信息成為中醫藥信息化的重要任務。隨著數據挖掘技術在其他行業的有效使用,越來越多的研究者把它用在中醫藥領域,力求尋找到有效的結合點,更深入、更科學的發掘中醫藥的潛在價值。
2010-2019年年份-關鍵詞熱力圖表明,用藥規律分析是目前中醫藥數據挖掘中最熱門的研究,由于數據來源廣、數據結構化程度較高,方劑研究一直是中醫藥數據挖掘的核心內容。中醫藥領域的研究者普遍在數據挖掘與分析技術的掌握上存在相當大的難度,使得其非常依賴前人的研究思路與研究方法,造成了目前中醫藥數據挖掘的研究中研究方法、研究技術相對單一的情況。以用藥規律分析為例,僅有少部分研究者通過Microsoft Office Excel、SPSS、R 語言和Python 語言等平臺進行研究;大量研究者選擇使用中醫傳承輔助平臺軟件,該平臺將一般統計法、文本挖掘、關聯規則、復雜系統熵方法等挖掘分析方法加以集成[10],成為進行用藥規律研究的重要工具。后人的研究基本沿襲了前人的研究思路與方法,雖然模式化的研究降低了中醫藥數據挖掘的門檻、縮短了研究時間,推動著大量相關研究的出現并取得了一定的成果,但同時也束縛了研究范圍的拓展。中醫藥數據挖掘工具的出現,將研究者從數據挖掘的技術細節中解脫出來,專注于研究內容本身,但也容易讓研究者形成依賴,只能在工具設定的技術框架中進行研究,不利于研究范圍的拓展和創新。
中醫藥是優秀的科技資源。隨著社會的不斷進步,中醫藥也與時俱進尋求突破,保持著勃勃的生機與活力,具有新的時代價值。為了有效管理復雜的中醫藥大數據,王蘋等[11]基于Hadoop 平臺構建了中醫藥大數據管理模型,該平臺能夠實現動態、一體化的中醫藥大數據的采集、存儲、分析及應用任務。在人工智能方面,基于大數據和類腦計算技術的中醫智能輔助診療系統的研發是未來中醫學發展的重要方向[12]。自然語言處理技術通過信息抽取、量化分析,可以將中醫文本知識轉化為結構化數據[13],命名實體識別是自然語言處理中的基礎任務,也是知識圖譜構建過程中的重要步驟。張德政等[14]提出了基于本體的中醫核心知識圖譜表示及其構建方法,并對中醫知識圖譜的知識獲取和應用進行了探索,于彤等人[15]完成了中醫養生知識圖譜的構建。通過知識圖譜技術,建立以知識服務為特征的,可分類檢索、開放共享、決策支持的中醫藥數據庫,是該領域發展的重要契機之一。培養同時具備中醫藥知識與數據分析技術的多學科復合型人才,增加跨學科合作,促進中醫藥協同創新,才能促進中醫藥信息化研究更加廣泛、深入。
本研究僅檢索了CNKI 中國學術期刊網絡出版總庫的期刊論文,沒有納入學位論文、新聞、資料以及非公開發表的論文,在文獻檢全率上存在局限性。人工智能在醫療領域的發展頗受矚目,自然語言處理和知識圖譜技術逐漸深入到中醫藥領域當中,中醫藥數據挖掘技術廣度和深度取得了極大的進步。獨特的理論體系使中醫藥現代化面臨著巨大的困難,數據挖掘技術是中醫藥的保持自身獨特性的基礎上贏得廣泛認同的重要手段,可以為中醫藥理論的科學解釋提供有力證據。