劉波 劉偉 唐波 孟濤 姚金波 胡為





摘要:中醫藥數據具有數據量大和結構復雜等特點,運用傳統的統計學方法不能很好地對中醫辨證論治數據進行分析和深度挖掘,因此開發一套支持在線訪問、功能齊全、簡單易用的智能中醫藥數據分析系統意義重大。該文設計并實現了一套智能中醫藥數據分析系統ITCMDAS,實現了處方數據頻次分析、處方數據關聯分析、處方數據聚類分析、文本情感分析和中醫舌象識別等功能,有助于研究人員更好地研究與分析相關中醫藥數據。
關鍵詞:數據挖掘;關聯分析;關聯規則;復雜系統熵聚類;配伍規律
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)07-0051-03
1 概述
中醫藥作為中華民族不可或缺的文化遺產和文明寶庫,積累了眾多寶貴的治療經驗和理論知識。隨著信息技術的日新月異和現代醫學的不斷發展,中醫不再局限于傳統的望聞問切,人們逐漸開始運用現代技術對中醫進行研究。同時由于中醫臨床辨證論治思維具有非線性特征,傳統的統計分析方法不能很好地分析中醫藥數據。因此,人們開始將計算機技術應用于中醫藥領域。在近幾年國內研究人員的探索中,數據挖掘技術已廣泛應用于名老中醫的臨床經驗、用藥規律和組方規律的研究 [1-4]。2020年初新型冠狀病毒肺炎暴發以來,也陸續有一些研究團隊將數據挖掘技術應用于新型冠狀病毒肺炎的中醫藥研究[5]。楊燦等建立中藥復方治療新冠肺炎的方劑數據庫,并運用頻數分析、頻次分析、聚類分析、關聯規則分析等方法對所整理出的中藥復方進行數據挖掘分析[6]。張佳等統計分析全國各地區衛生管理部分發布的新冠肺炎中醫診療方案中恢復期組方用藥規律,總結新冠肺炎恢復期用藥特點及治療思路,利用數據分析軟件進行處理,總結常見證型頻次、中藥頻次、高頻用藥及組合,提取關聯規則[7]。
目前,市場上有許多通用的數據分析工具,但專門針對中醫藥數據設計并開發的數據分析軟件較少。已有的幾款軟件采用的是桌面客戶端軟件的形式,需要用戶下載相關應用軟件,基于Web的在線中醫藥數據挖掘工具非常少。因此,設計并研發一套Web版智能中醫藥數據分析系統意義重大,能更好地分析中醫藥數據,方便用戶使用,以便更好地服務于中醫藥研究與發展。
2 智能中醫藥數據分析系統的分析與設計
當前一些已研發的數據挖掘工具大多為面向全領域的數據分析工具,只有少許針對中醫藥數據設計并研發的專用軟件,但是基本上都采用桌面客戶端模式,用戶需要下載較龐大的應用軟件才能進一步操作。本文所開發的系統利用Web技術來實現在線智能中醫藥數據分析,系統具有全面性、可視化和易用性等特點。使用人員能夠快速上手,并支持用戶對數據的批量導入和導出,同時借助網絡圖和數據表格實現了用戶的在線可視化查看,能夠更好地助力于中醫藥數據分析與探索。
智能中醫藥數據分析系統(Intelligent Traditional Chinese Medicine Data Analysis System, ITCMDAS)使用人群分為兩類,分別為普通用戶和系統管理員。普通用戶可以批量地導入中醫藥處方數據文件,能夠對處方藥物進行頻次分析、關聯分析和聚類分析和文本情感分析,同時用戶也能進行中醫舌象數據分析,通過上傳舌體圖片,系統將分析體質體征并給出藥物調養建議。系統管理員則可對用戶信息、中藥材信息等數據進行管理和維護。
系統核心功能模塊結構如圖1所示。
ITCMDAS系統的主要功能如下:
1) 處方數據頻次分析:將處方中單味藥/藥對/三元組統計出現頻次,并從大到小排序,結果以ECharts圖表顯示,并支持以Excel文件格式導出數據。
2) 處方數據關聯分析:通過數據挖掘中的Apriori關聯規則算法計算出處方藥物的多項關聯規則,用戶可以設置最小支持度閾值和最小置信度閾值,結果以表格形式顯示。排序結果支持Excel文件導出,同時可生成以ECharts圖表顯示最小支持度閾值和最小置信度閾值分別為指定數值的藥物強關聯網絡圖。
3) 處方數據聚類分析:分為兩大子功能模塊,分別為處方組方規律分析和核心藥物組合提取。處方組方規律分析:利用數據挖掘中的復雜系統熵聚類算法[8-9],計算處方中各個藥物的熵以及藥物之間兩兩形成的藥對的聯合熵和關聯度系數,用戶通過設置關聯度系數,從而生成排序后的關聯度系數藥物排名表,支持以Excel文件導出。核心藥物組合提取:利用復雜系統熵聚類算法,計算得到藥對之間的關聯度系數后,將相互關聯度排名前十的藥物進行聚類,排序結果以表格形式顯示,同樣支持以Excel文件導出。
4) 文本情感分析:用戶按照示例在文本框中輸入任意一段文字,利用貝葉斯概率統計算法,采用知網正負面情感語料進行模型訓練,通過訓練得出的模型,判斷該文本的情感極性是正面還是負面。
5) 中醫舌象數據分析:用戶上傳舌體圖片,系統通過深度學習訓練所得的模型,分析體質體征并給出相應藥物調養建議。
在系統需求分析報告和功能模塊結構設計方案基礎上,設計系統的界面原型。同時本系統采用MySQL關系型數據庫,在滿足第3范式前提下進行數據庫設計。ITCMDAS的核心數據庫表包括用戶基本信息表和中藥材功效性狀信息表等。
3 智能中醫藥數據分析系統的實現與應用
ITCMDAS采用B/S(Browser/Server)架構,系統基于較為成熟的技術框架體系來實現。服務器端采用Java語言開發,使用SpringBoot免配置框架體系,系統整體采用MVC(Model-View-Controller)架構。同時系統服務器使用Apache Tomcat,數據庫采用MySQL。前端界面呈現選擇LayUI、jQuery等框架,并大量使用JSON用于數據傳輸。系統的技術體系結構如圖2所示。
ITCMDAS的部分核心功能介紹如下:
1) 處方數據關聯分析
用戶導入標準Excel處方文件以及輸入置信度閾值和支持度閾值,系統生成符合閾值的關聯藥對,網頁將顯示強關聯表格和ECharts網絡圖。該功能基于數據挖掘Apriori關聯規則算法實現,置信度和支持度需要滿足用戶期望的閾值范圍才算是有效的規則。實際過程中往往會面臨大量的數據,如果只是簡單地搜索,會出現很多的規則,而且相當大的一部分是無效的規則,效率很低。Apriori算法通過找出所有滿足預定條件的頻繁項集,然后再依據頻繁項集產生關聯規則,進而提升效率。算法逐層搜索迭代,不斷生成候選項集,剪枝掉低于支持度的候選集來生成頻繁項集,直到不能找到K項頻繁集合,最后生成滿足條件的強關聯藥對和藥組。處方數據關聯分析頁面截圖如圖3所示。
2) 處方數據聚類分析
很多名老中醫和國醫大師的處方數據中蘊含豐富的臨床診療知識,包括用藥規律、組方規律和核心藥物組合等,處方數據聚類分析是本系統的核心功能之一。用戶可以導入處方數據,設置最小關聯度閾值,系統將生成按照關聯度系數從大到小排序后的藥物表格以及得到處方中核心藥物組合表,該功能借助于復雜系統熵聚類算法來實現。復雜系統熵聚類(Complex System Entropy Clustering)是一種無監督模式挖掘算法,它可以自組織地從海量數據中獲取信息量最大的組合,特別適合高度離散性類型的數據,在中醫藥數據中使用復雜系統熵聚類算法挖掘出在方劑配伍中包含的核心組合。
該功能包括處方組方規律分析和核心藥物組合提取兩大子功能。在處方組方規律分析中,算法首先計算出各藥物的熵,進而計算各藥對之間的聯合熵和關聯度系數,比較用戶設置的最小關聯度閾值,篩選出滿足條件的藥對。處方組方規律分析子功能的頁面截圖如圖4所示。在核心藥物組合提取中,算法計算得出每味藥所對應的關聯藥物在相同鍵值關聯度系數中排名前十的藥物組合,再對這些藥物進行聚類得到新的藥物處方組合,即核心藥物組合。核心藥物組合提取子功能的頁面截圖如圖5所示。
4 結束語
由于中醫藥數據具有數據量大和結構復雜等特點,運用傳統的統計學方法不能很好地對中醫辨證論治數據進行分析。同時已有的相關軟件大部分采用的是桌面客戶端模式,需下載后才能使用,升級和維護都較為麻煩。
本文設計并實現了一款基于Web的智能中醫藥數據分析系統ITCMDAS,系統具有全面性、可視化和易用性等特點。系統功能較為完善,實現了處方數據頻次分析、處方數據關聯分析、處方數據聚類分析、文本情感分析和中醫舌象識別等功能。面向的用戶既包括中醫藥研究人員又包括普通用戶。用戶可以在線查看可視化網絡圖和表格,還可以離線下載保存分析處理后的數據。在后續研究中,將進一步優化系統界面和操作流程,同時對中醫藥自然語言處理和中醫舌象識別與處理開展更加深入的研究,擴充系統的功能,更好地為中醫藥研究和應用服務。
參考文獻:
[1] 劉凡,李新龍,李凌香,等.數據挖掘軟件在名老中醫經驗傳承中的應用進展[J].環球中醫藥,2019,12(10):1606-1610.
[2] 王康,尹玉潔,李雅文,等.數據挖掘方法在中醫醫案研究中的應用[J].世界中醫藥,2021,16(11):1659-1664.
[3] 陳志奎,宋鑫,高靜,等.基于數據挖掘的中醫診療研究進展[J].中華中醫藥學刊,2020,38(12):1-9.
[4] 仲芳,楊巍,趙翀,等.數據挖掘技術在中醫醫案的應用研究[J].中國中醫藥信息雜志,2020,27(2):141-144.
[5] 侯藝,付亞輝,于若愚,等.基于數據挖掘新型冠狀病毒肺炎治療期中藥用藥規律[J].世界科學技術-中醫藥現代化,2021,23(5):1667-1675.
[6] 楊燦,呂曉東,龐立健,等.中藥復方治療新型冠狀病毒肺炎用藥規律分析[J].海南醫學院學報,2020,26(13):961-966.
[7] 張佳,李曉東.基于數據挖掘的各地區新冠肺炎恢復期中醫藥組方用藥規律研究[J].湖北中醫藥大學學報,2020,22(6):117-121.
[8] 西廣成.復雜系統方法學與中醫證候建模[M].北京:科學出版社,2010.
[9] 趙亞麗.一類復雜系統的熵方法研究[D].北京:中國科學院自動化研究所,2005.
【通聯編輯:代影】
收稿日期:2021-12-26
基金項目:國家級大學生創新創業訓練計劃項目(S202010541052);湖南中醫藥大學計算機科學與技術學科開放基金項目(2018JK05);湖南中醫藥大學人才引進基金項目
作者簡介:劉波(2001—),男,本科生,主要研究方向為中醫藥信息學;劉偉(1982—),男,通信作者,副教授,博士,主要研究方向為知識工程和中醫藥信息學。