張戈 歐愛華 陳雷



摘要:目的? 分析中醫信息化與數據挖掘研究的狀況,為中醫信息化與數據挖掘研究提供參考。方法? 檢索中國生物醫學文獻數據庫內中醫類別文獻,采用主題檢索方法,檢索詞為“中醫*”和“大數據OR信息化OR結構化OR標準化OR信息標準”等。檢索時間2000年1月1日~2017年12月31日,運用文獻計量分析方法對各主題文獻發表量進行升降趨勢分析。結果? 共檢索出文獻2951篇,發文量呈逐年增長趨勢,研究領域集中在中醫信息化、中醫信息化建設、中醫信息標準和中醫信息抽取。其中在應用數據挖掘、大數據、人工智能、本體、信息化、信息化建設、標準化、術語、語義、結構化、知識圖譜、知識發現及互聯網方面的研究文獻呈逐年上升趨勢(P<0.05),特別在中醫信息化、標準化、數據挖掘及互聯網研究的文獻呈明顯的上升趨勢(P<0.05),但在輔助決策、信息標準、信息抽取、自然語言及知識庫方面的研究發文量基本穩定(P>0.05)。結論? 中醫信息化建設、標準化、數據挖掘及互聯網研究是近年來的熱點方向,中醫研究無論在古籍文獻挖掘、臨床研究中均采用數據挖掘的方法和技術。
關鍵詞:中醫;信息化;數據挖掘;文獻計量學
Abstract:Objective? To analyze the status of TCM informatization and data mining research, and provide references for TCM informatization and data mining research.Methods? Retrieval of Chinese medicine category documents in the Chinese biomedical literature database, using the subject search method, the search terms were "Chinese medicine*" and "big data OR information OR structured OR standardized OR information standard". Retrieval time January 1, 2000-December 31, 2017, using literature measurement analysis method to analyze the trend of the publication volume of each subject literature.Results? A total of 2951 documents have been retrieved, and the number of articles published has been increasing year by year. The research areas are concentrated on TCM informatization, TCM informatization construction, TCM information standards, and TCM information extraction. Among them, the research literatures in applied data mining, big data, artificial intelligence, ontology, informatization, informatization construction, standardization, terminology, semantics, structure, knowledge graph, knowledge discovery, and Internet are increasing year by year (P<0.05),especially in the literature of Chinese medicine informatization, standardization, data mining and Internet research, there is a clear upward trend(P<0.05), but the amount of research papers published in the areas of decision-making assistance, information standards, information extraction, natural language and knowledge base is basically stable (P>0.05).Conclusion? Informatization construction, standardization, data mining and Internet research of traditional Chinese medicine have been hot topics in recent years. Traditional Chinese medicine research adopts data mining methods and techniques in ancient book literature mining and clinical research.
Key words:Traditional Chinese medicine;Informatization;Data mining;Bibliometrics
隨著信息化、數字化、網絡化飛速融入社會各行各業及人民日常生活中,“中醫藥現代化”顯得越發重要[1]。中醫及其他傳統醫學應積極順勢而為,以創新的思維,充分利用現有政策優勢,加快中醫信息化研發,這不僅為傳統醫學贏得更多發展空間的需要,更是護佑傳統醫學生命的需求。數據挖掘是從大量目標數據中挖掘出有趣模式和知識的過程,是中醫信息化的重要方法之一[2]。近年來中醫藥飛速發展,積累了大量的數據,數據挖掘因其能夠從大量的數據中挖掘出數據項之間關聯性地特性被廣發運用于中醫藥研究[3-6]。為了解有關中醫信息化及數據挖掘方向的發展動態,本研究以中國生物醫學文獻數據庫(CBM)為基礎對其相關研究進行文獻計量學分析,旨在反映其研究概況和發展方向,為今后相關研究人員選擇研究方向提供參考。
1資料與方法
1.1資料來源? 選擇《中國生物醫學文獻數據庫》(CBM)數據庫,以“中醫”和“大數據OR信息化OR結構化OR標準化OR信息標準OR信息化建設OR互聯網OR術語OR本體OR語義OR知識庫OR自然語言處理OR信息抽取OR知識發現OR知識圖譜OR數據挖掘OR機器學習OR人工智能OR輔助決策”為檢索詞,查找有關中醫信息化及數據挖掘的相關文獻,檢索時間設置為2000年1月1日~2017年12月31日。納入標準:研究內容為中醫信息化。排除標準:會議文摘、行動研究、綜述、書評、新聞、資料及需要電話或紙質索取、非公開發表或校正等類型文獻。
1.2方法? 檢索記錄2000~2017年每年各類相關文獻的篇數,應用Microsoft Office Excel 2016建立數據庫,進行數據的預處理,導入SPSS 17.0統計軟件包生成數據庫。獲取文獻主題特征,從發表文獻數、主題分布方面對中醫文獻中的“信息”“數據挖掘”“人工智能”“語言語義”“知識庫”“知識發現”“互聯網”領域依次分析。運用構成比進行數據的描述性分析,運用SUM Test進行文獻發表的升降趨勢檢驗,檢驗水平α=0.05。
2結果
2.1中醫信息文獻分析? 2000~2017年,CBM數據庫共收錄有關中醫研究的文獻中發表信息化的文獻2951篇,呈逐年上升趨勢,2017年發表量是2009年的3倍多。發文的主題主要為中醫信息化、中醫信息化建設、中醫信息標準和中醫信息抽取。其中,在信息化、信息化建設方面的文獻發表量經升降趨勢SUM Test檢驗,差異有統計學意義(P<0.05),而在信息抽取、信息標準化方面的文獻發表量無上升趨勢(P>0.05),見表1、表2及圖1。
2.2中醫文獻涉及數據挖掘、人工智能發表量的分析? 2000~2017年,有關中醫研究的文獻中發表數據挖掘相關的文獻量逐年增多,尤其是近幾年發表量上升速度明顯,2014~2017年文獻發表量上升趨勢呈現直線化增長。在大數據方面的文獻發表量從2012年開始呈現連續上升趨勢,2017年是2012年的21倍。在人工智能方面研究的文獻發表量增長幅度則略小于數據挖掘和大數據,但盡管如此,2016年發表的文獻篇數仍達到了2007年的2倍多。在對于本體的研究方面,發表的文獻篇數雖有波動,但總體呈現上升趨勢,2017年發表的文獻篇數達到2006年的4倍。然而,在輔助決策方面的研究文獻則相對較少。在數據挖掘方面的文獻發表量經升降趨勢檢驗,差異有統計學意義(P<0.05);在輔助決策方面的文獻發表量無上升趨勢(P>0.05),見表3、表4及圖2。
2.3語言語義應用的文獻發表量分析? 2000~2017年,有關中醫研究的文獻中發表標準化的文獻量最多,2017年發表量是2006年的4倍多。在術語方面,研究文獻發表量總體呈上升趨勢,2017年文獻發表量是2006年的4倍。在結構化研究方面,文獻發表增長趨勢較為平緩。在語義、自然語言處理方面的文獻則相對較少。在術語方面的文獻發表量呈上升趨勢,差異有統計學意義(P<0.05),提示文獻發表量呈上升趨勢,而在自然語言處理方面的文獻發表量無無上升趨勢(P>0.05),見表5、表6及圖3。
2.4 知識庫、知識發現及互聯網的文獻發表量分析? 2000~2017年中醫研究領域有關知識發現方面的研究文獻發表量相對較少,從2000開始每年不超過6篇,2015年開始增加到12篇,2016年為28篇,2017年為30篇。文獻發表量呈上升趨勢,差異有統計學意義(P<0.05)。在互聯網方面的研究也逐漸增多,2000年開始不高于5篇,2006激增到12篇,2010年及增大21篇,2017年已增加到39篇,文獻發表量呈上升趨勢,經升降趨勢檢驗差異有統計學意義(P<0.05)。在知識庫方面的文獻發表量很少,2000~2003年、2008年為0,其余年份發表量均不超過3篇,文獻發表量無上升趨勢(P>0.05),見表7。
3討論
隨著計算機的發展,互聯網在各領域的廣泛應用,人工智能及數據挖掘等相關技術在中醫藥研究領域的應用日趨增加[7]。本文查閱了中醫信息與數據挖掘的相關文獻,采用文獻計量分析方法,結果發現在信息建設、信息技術應用、數據挖掘、大數據、人工智能、本體、信息化、標準化、術語、語義、結構化、知識圖譜、知識發現及互聯網方面的研究文獻呈逐年上升趨勢(P<0.05),尤其在中醫信息化建設、標準化、數據挖掘及互聯網研究的文獻呈明顯的上升趨勢(P<0.05),提示中醫信息化建設、標準化、數據挖掘及互聯網研究是近年來的熱點方向,與當前我國中醫藥信息化領域基礎建設不健全、數據標準未解決的現狀很相符。隨著對中醫信息化的深入了解與重視,更多的研究者可能會應用信息化和數據挖掘的方法助力中醫藥研究的開展與實施。
中醫藥現代化和信息化建設是未來發展中醫藥的重要手段。數千年中醫中藥的實踐積累了大量的數據資料,對其進行信息化處理,有助于中醫藥的傳承和傳播[1]。因此,利用現代信息、數據挖掘等技術和方法,研究中醫古籍文獻,從中抽提中醫知識,進行知識信息的標準化,將文本信息轉化、規范,進行挖掘,提取名醫在診療疾病過程中的隱性知識顯性化,挖掘有一定療效的理法方藥,進行新藥的開發,將對傳承中醫中藥是非常重要的[8]。
同時,我們也發現當前的研究熱點未能趕上國家的熱點需求。我國首次提出“互聯網+”的行動計劃以來,醫療和信息正處于融入整合跨越發展的關鍵時期,國家先后出臺了《“十三五”全國人口健康信息化發展規劃》、《新一代人工智能發展規劃》、《關于促進“互聯網+醫療健康”發展的意見》等多項政策,均對中醫藥信息化的發展提出了明確的要求和任務。但中醫藥信息化在機器學習、人工智能領域的研究人員少、研究成果有限,未來需進一步加強中醫藥與信息技術、人工智能等方面的合作與研究。
綜上所述,中醫信息化建設、標準化、數據挖掘及互聯網研究是近年來的熱點方向,中醫研究無論在古籍文獻挖掘、臨床研究中均采用數據挖掘的方法和技術。
參考文獻:
[1]徐宏偉.中醫信息化研發“刻不容緩”[N].中國中醫藥報,2016-11-25(003).
[2]Witten IH,Frank E.Data Mining:Practical machine learning tools and techniques[M].Morgan Kaufmatm,2005.
[3]張國磊,劉健,忻凌,等.基于895份住院病例數據挖掘的中醫藥治療強直性脊柱炎用藥規律研究[J].江西中醫藥大學學報,2019,31(3):30-34.
[4]許鳴,聞惠,沈娟惠,等.基于K均值聚類算法和關聯規則算法的中醫藥治療乳腺癌數據挖掘研究[J].中國鄉村醫藥,2019,26(13):19-20.
[5]高毅超,王凡,郭晶.數據挖掘技術在中醫藥領域中的應用概況[J].湖南中醫雜志,2019,35(7):182-185.
[6]李志堅,唐良華,殷天坪.基于數據挖掘中醫藥治療神經根型頸椎病的用藥特點[J].貴陽中醫學院學報,2019,41(04):53-57.
[7]徐靜雯,夏菁,邸若虹,等.數據挖掘技術在中醫藥研究中的應用進展[J].醫學綜述,2019(18):3672-3676,3681.
[8]張姣姣,劉云,程旖婕.基于文獻計量學定律的大數據應用領域發展規律研究[J].知識管理論壇,2016,1(5):384-392.
收稿日期:2020-03-27;修回日期:2020-04-03
編輯/成森