













【摘要】 背景 傳統中藥材檢測手段依賴主觀經驗,難以滿足中藥材在準確分類與鑒別方面的需求。目的 基于卷積神經網絡(CNN)開發一款能夠自動識別163種中藥材的人工智能模型及電腦端應用程序。方法 2020年1月—2024年6月,采集了兩個中藥材數據集進行深度學習模型的訓練、驗證和測試,共包含163種中藥材。通過準確率、靈敏度、特異度、精確率、受試者工作特征(ROC)曲線下面積(AUC)、F1分數等指標來衡量CNN模型的性能。在模型訓練完成后,基于PyQt5技術開發了一款應用程序,供臨床便攜使用。結果 本研究共納入了276 767張圖像,開發了EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18 5種模型,通過性能比較,EfficientNet_B0模型在驗證集上取得了最高的準確率(99.0%)和AUC(0.994 2),被選為最佳模型。在測試集上,最佳模型對所有中藥類別識別的準確率為99.0%、靈敏度為99.0%、特異度為100.0%、AUC為1.0,展現出良好的性能。結論 基于卷積神經網絡開發的深度學習模型能夠快速準確地識別163種中藥材,借助其高靈敏度的識別能力,為醫師對中藥材的鑒別提供有力輔助。
【關鍵詞】 中藥材;模式識別,自動;中藥藥材學;應用程序;人工智能;PyQt5;卷積神經網絡
【中圖分類號】 R 282 R-05 【文獻標識碼】 A DOI:10.12114/j.issn.1007-9572.2024.0394
Construction of an Artificial Intelligence Model and Application for an Automatic Recognition of Traditional Chinese Medicine Herbals Based on Convolutional Neural Networks
WANG Ganhong1,ZHANG Zihao2,XI Meijuan1,XIA Kaijian3,ZHOU Yanting1*,CHEN Jian4*
1.Department of Gastroenterology,Changshu Hospital of Traditional Chinese Medicine(Changshu New District Hospital),Changshu 215500,China
2.Shanghai Hao Brothers Educational Technology Co.,Ltd.,Shanghai 200434,China
3. Changshu Key Laboratory of Medical Artificial Intelligence and Big Data,Changshu 215500,China
4.Department of Gastroenterology,Changshu No.1 People's Hospital,Changshu 215500,China
*Corresponding authors:ZHOU Yanting,Senior nurse;E-mail:yantingz19@gmail.com
CHEN Jian,Associate chief physician;E-mail:szcsdocter@gmail.com
【Abstract】 Background Conventional methods for identifying traditional Chinese medicine (TCM) herbals mainly rely on subjective experiences,making it difficult to meet the needs for accurate classification and identification. Objective This study aims to develop an artificial intelligence model and a desktop application capable of automatically recognizing 163 types of TCM herbals based on convolutional neural networks(CNN). Methods From January 2020 to June 2024,data from two datasets of 163 TCM herbals were collected for training,validation,and testing of the deep learning model. The performance of the CNN model was evaluated for the accuracy,sensitivity,specificity,precision,area under the receiver operating characteristic (ROC) curve (AUC),and F1 score. After model training,an application was developed using PyQt5 technology for convenient clinical use. Results A total of 276 767 images were included in this study. Five models,including EfficientNetB0,ResNet50,MobileNetV3,VGG19,and ResNet18,were developed. After comparing their performance,the EfficientNetB0 model achieved the highest accuracy(99.0%)and AUC(0.994 2) in the validation dataset,and it was selected as the optimal model. In the test dataset,the EfficientNetB0 model achieved an accuracy of 99.0%,sensitivity of 99.0%,specificity of 100.0%,and an AUC of 1.0 across all categories,demonstrating an excellent performance. Conclusion The deep learning model developed based on CNN can quickly and accurately recognize 163 types of TCM herbals with high sensitivity and recognition capability,thus providing a robust support for physicians to accurately identify TCM herbals.
【Key words】 Traditional Chinese medicine herbals;Pattern recognition,automated;Materia Medica Science (TCD);Application;Artificial intelligence;PyQt5;Convolutional neural networks
近年來,隨著公眾健康意識的提升以及中醫文化的普及,國內外中藥材市場呈現持續增長的趨勢;不同種類的中藥材藥效各異,正確分類是保證臨床療效的首要條件。中藥種類繁多,部分中藥材形態相似,既往中藥材的分類多依賴人工鑒別,日益增長的中藥材需求使得傳統分類方法難以滿足快速、準確的分類需求。中藥材的質量控制和評價是中藥現代化發展的核心內容之一,直接關系到臨床療效和患者用藥安全[1-2]。因此,構建科學、高效、準確的中藥材檢測體系已成為保障中藥品質、推動中藥現代化進程的重要挑戰[3]。
目前中醫藥的現代化建設正在加快步伐,努力實現高質量發展。在人工智能(artificial intelligence,AI)的浪潮中,計算機視覺領域正迅速發展,其賦予了機器“看”的能力,讓機器能夠理解和解析視覺信息。在醫學領域,AI已被廣泛應用于輔助診斷,包括CT影像、消化內鏡、超聲、心電圖等[4-6]。使用AI進行圖像識別,具有檢測速度快、準確率高、客觀性強、成本低等優勢,被視為實現中藥材分類的可靠手段。郭叢等[7]利用YOLOv4算法構建了能夠自動識別108種中藥材的目標檢測模型,HAN等[8]在包含43種中藥材的數據集上利用DenseNet-201網絡構建了一款深度學習圖像分類模型,達到了90%以上的識別準確率。然而,這些研究存在的普遍問題是識別種類較為單一,并且模型尚未進一步開發和部署到本地終端設備,限制了其在臨床中的實際應用。本研究使用了包含163種中藥材的276 767張不同圖像,旨在訓練能夠準確識別這些常見中藥材的AI模型,并將其開發成能夠便攜使用的應用程序。
1 資料與方法
1.1 數據集
本研究基于2個數據集,共計276 767張圖像進行:數據集#1(Chinese-Medicine163)、數據集#2(常熟市中醫院、常熟市第一人民醫院)。收集的圖像包括163種常用中藥材的圖片數據,包括:三七、穿心蓮、薏苡仁、穿山甲、石膏、草寇、雞血藤等。數據集#1被隨機劃分為訓練集(n=256 767)和驗證集(n=10 000),數據集2#作為獨立的測試集(n=10 000)。3個數據集之間不存在重復圖像,從而避免模型過擬合,并確保測試結果的可靠性。數據集中具有代表性的圖像示例,見圖1。Chinese-Medicine163公開數據集來自百度開發的深度學習平臺PP飛槳(PaddlePaddle),下載地址為:https://aistudio.baidu.com/datasetdetail/246739,數據集圖片來源于百度圖片,使用網絡爬蟲技術抓取并篩選。數據集#2由常熟市中醫院和常熟市第一人民醫院的執業中藥師使用手機拍攝獲取。
1.2 深度學習網絡
1.2.1 圖像預處理:為確保模型具備較強的泛化能力,研究中對數據進行了系統的預處理和增強。在預處理階段,對訓練集執行隨機圖像尺寸調整,裁剪至224像素×224像素。圖像隨后從PIL Image或numpy.ndarray格式轉換為PyTorch Tensor,并歸一化至[0, 1]范圍。RGB通道的標準化采用均值[0.485,0.456,0.406]及標準偏差[0.229,0.224,0.225]。本研究采用在線數據增強的方法[9],在訓練過程中實時進行,不生成新的圖像文件,確保模型每次訓練時都能看到略有不同的圖像版本。以50%的概率進行隨機水平翻轉。使用HSVRandomAug技術[10]在HSV色彩空間中引入隨機擾動,從而增強模型對光照變化和色彩差異的魯棒性。所有預處理和增強步驟均通過PyTorch的torchvision庫完成。
1.2.2 模型訓練配置:為實現針對163種中藥材的圖像分類任務,選取在ImageNet數據集上預訓練的3種卷積神經網絡模型進行遷移學習。選用的模型包括EfficientNetB0、ResNet50、MobileNetV3-Large、VGG19和ResNet18。為了適應163分類的數據集,本研究為每個預訓練模型添加了兩個帶ReLU激活函數的全連接層,并增加了一個帶Softmax激活函數的輸出層。輸出層的節點數設置為163,以滿足分類任務的需求。模型訓練采用交叉熵損失函數和Adam優化器,設定25個訓練周期(epoch)。為防止過擬合,采用早停策略,即如果驗證集性能在連續8個epoch沒有提升,則自動終止訓練。此外,設置學習率調度,每5個周期將學習率減半。所有操作在PyTorch框架下完成。神經網絡架構見圖2。
1.2.3 模型可解釋性分析。本研究使用多種可解釋性人工智能(Explainable AI,XAI)技術,包括Grad-CAM和SHAP[11-12]。Grad-CAM通過生成熱圖揭示模型決策過程中關鍵的圖像區域,而SHAP則為圖像分類任務中的每個像素分配重要性分數,清晰地標識其在模型決策中的作用。
為深入了解模型在語義層面的分類能力,從圖像分類模型中抽取了中間層輸出作為語義特征。不同的中藥材類別具有不同的語義特征。在目標層注冊前向鉤子用于捕獲這些特征,使用t-SNE技術將高維特征降維到二維和三維空間[13],并利用plotly庫對這些特征進行可視化分析。
1.2.4 應用程序開發與部署。為實現163種中藥材圖像的自動化分類,使用PyQt5技術將性能最佳的CNN模型開發成一款能夠在本地電腦上便攜使用的應用程序。PyQt5是Qt公司開發的一個庫,將1 000多個Qt組件融合為Python模塊,支持使用Python語言高效開發Qt程序[14]。具體步驟如下:首先,通過多項指標的性能對比獲取最佳模型。然后,將在PyTorch框架下開發的模型轉換為ONNX格式。最后,使用PyQt5技術開發一個具有可視化圖形用戶界面的應用程序,使臨床工作人員無需編程知識也能輕松使用該應用。詳細的研究流程展示于圖3。
1.3 實驗平臺和統計分析
本研究使用配備RTX A4000顯卡(16GB顯存)、5×E5-2680 v4 CPU和350GB硬盤空間的計算機。通過Keras構建和訓練深度學習模型,并使用OpenCV處理圖像數據。數據整理、分析及可視化使用Pandas、NumPy、Matplotlib和Plotly。模型優化采用PyTorch,模型的保存和加載依賴于H5py。使用Weights amp; Biases(wandb)工具追蹤模型的完整訓練過程。
采用多項指標全面評估AI模型的性能,包括靈敏度、特異度、精確率、準確率、F1分數、平均精度(AP)、馬修斯相關系數(Matthews correlation coefficient,MCC)、受試者工作特征曲線下面積(AUC)、科恩卡帕系數(Cohen's Kappa)和加權平均(weighted average)。計算公式如式(1)~(6)所示。
(1)F1=2×(精確率×靈敏度)/(精確率+靈敏度)
(2)Pweighted=∑k
i=1 wi·Pi
(3)AP=∫01" p(r)dr
(4)AUC=1/2∑i=1
n-1(FPRi+1-FPRi)×(TPRi+1+TPRi)
(5)MCC=
(6)Cohen's Kappa:κ=(Po-Po)/(1-Pe )
其中,TP表示正確預測為陽性的樣本數量,TN表示正確預測為陰性的樣本數量,FP表示錯誤預測為陽性的樣本數量,FN表示錯誤預測為陰性的樣本數量。Pi 是第i個類別的性能指標值,wi 是第i個類別的權重。
2 結果
2.1 基線資料
本研究共納入了276 767張圖像,分為訓練集(n=256 767)、驗證集(n=10 000)、測試集(n=10 000),涵蓋163種常見中藥材,訓練集中每個種類的圖像數量為(1 575.22±313.10)張圖片,驗證集和測試集中平均每個種類為(61.35±7.84)張圖像,見表1。
2.2 模型訓練
本研究使用同一個數據集訓練了5種不同的神經網絡模型,包括EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18。訓練初期,5種模型的分類損失隨著訓練步數的增加迅速下降,并逐漸趨于穩定,表明模型正在收斂優化。與此同時,5種模型的準確率在訓練初期迅速上升,并在達到較高水平后保持穩定。其中,EfficientNetB0的準確率為98.96%,MobileNetV3為98.81%,顯著高于ResNet50的86.89%,見圖4。
2.3 不同模型診斷性能比較
表2展示了在含有10 000張不同中藥材圖像的驗證集上,5種經過遷移學習訓練的AI模型在中藥材分類任務中的對比情況。這些模型分別是EfficientNetB0、ResNet50、MobileNetV3、VGG19和ResNet18。EfficientNetB0模型在驗證集上獲得了最高的準確率(99.04%)、靈敏度(99.04%)和AUC(0.994 2),并且在其他重要性能指標上表現優異(在精確率和F1分數指標上排名第二),因此被選為最佳模型。
2.4 最佳模型在測試集上的性能評估
表3詳細評估了性能最佳模型EfficientNetB0在包含10 000張中藥材圖像測試集上的表現。該表格提供了163個類別的識別性能指標,包括精確率、靈敏度(召回率)、特異度、F1分數、準確率、AP、AUC、MCC以及科恩卡帕系數。此外,還使用加權平均作為匯總統計指標。
圖5展示了EfficientNetB0模型在測試集上對不同類別中藥材預測性能的兩個關鍵評估曲線:(A)精確率-召回率(PR)曲線和(B)ROC曲線。在圖5A中,除“麥芽(maiya)”“谷芽(guya)”類別外,其余161種類別的PR曲線均趨向于右上角的曲線表示在這些類別上模型表現良好。在圖5B的ROC曲線圖中,所有類別的曲線緊鄰圖表的左上角,表明模型在這些類別上效果良好。
為分析AI模型在163種中藥材分類中誤判的原因,本研究采用t-分布隨機鄰域嵌入(t-SNE)技術,將高維數據映射至二維平面,使不同類別之間的分離程度能夠直觀展現(圖6)。這種可視化方法有助于辨識哪些類別的圖像容易區分,以及哪些類別之間存在重疊,導致模型更容易出現錯誤分類。為了更清晰地展示不同類別圖像之間的語義特征,本研究進一步采用t-SNE技術構建了三維空間的交互式語義特征圖。打開該html文件后,用戶可以通過鼠標點擊拖動、鼠標滾輪上下滑動,查看每張圖像及其在語義特征空間中的位置(https://pan.baidu.com/s/1jjrfe2JUXflVrMUJA5rKrQ?pwd=xxyj,提取碼:xxyj)。例如,通過三維交互式語義特征圖的點擊查看,可以發現谷芽和麥芽類別在語義特征上存在部分重疊,這解釋了模型誤分類的原因。
2.5 模型可解釋性分析
圖7展示了Grad-CAM技術在AI模型決策過程中的可視化。A列是原始圖像;B列顯示了基于EfficientNet_B0模型生成的像素激活熱圖,突出了模型決策的關鍵區域;C列將激活熱圖與原始圖像疊加,暖色調(如紅色和黃色)指示了模型識別的關鍵病變區域。
圖8使用SHAP技術展示了模型預測邏輯的內部機制。在兩個子圖中,模型的預測分別對應于郁金和百合兩種真實分類。像素顏色及深淺指示對模型預測的貢獻:紅色表示正向貢獻,藍色表示負向貢獻,顏色越深貢獻越大。圖8A中,與柏子仁和半夏相比,郁金的紅色區域更加明顯,使得模型能夠準確將其分類為郁金。同理,圖8B中的特征使得模型正確判斷為百合。
2.6 AI模型終端部署及應用
使用PyQt5技術將EfficientNet_B0模型開發為一款能夠在本地電腦上便攜使用的具有可視化操作界面的應用程序(圖9A),使不具備編程知識的醫務人員也能輕松使用該程序。圖9B、9C分別展示了使用該應用程序對單張和批量中藥材圖像進行預測的演示視頻(微信掃一掃觀看)。AI模型能夠快速、準確地輸出預測類別及置信度,并顯示預測用時(單位:s)。
3 討論
近年來,AI技術,尤其是計算機視覺技術,在醫學領域得到廣泛應用,圖像分類技術已成功用于自動識別結腸息肉和上消化道解剖部位等,并取得良好的識別效果[15-16]。中藥文化是我國傳統醫學的重要組成部分,從神農嘗百草到李時珍的《本草綱目》,均為中藥材提供了堅實的理論基礎。中藥材種類繁多,傳統鑒別方法主要依賴人工主觀經驗,而化學檢測或儀器分析則需要大量專業設備和較長時間,導致成本較高、可操作性差。中華人民共和國工業和信息化部等10部門在2021年聯合發布的《“十四五”醫療裝備產業發展規劃》強調大力推動中醫醫療裝備的創新升級。將AI技術應用于中藥材識別,不僅為中醫的傳承與創新提供了新的可能性,也開辟了廣闊的產業前景和發展潛力,形成“中醫+AI”的創新模式,智能化、精準化、快速化是中藥材檢測的重點發展方向[17]。
胡曉東等[18]的研究使用1 581張圖像建立數據集,基于卷積神經網絡開發的SE-ResNet36圖像分類模型取得了95.77%的識別準確率,但該模型僅能識別17類常見中藥材。HAN等[8]利用DenseNet-201網絡構建了一款深度學習圖像分類模型,在所有類別中最高達到了95.21%的識別準確率,研究包含了50種中藥材,共計15 622張圖像。與上述兩位學者相比,本研究納入了更多種類(163種)、更大數量(276 767張)的中藥材圖像數據集用于AI模型的開發,更重要的是,本研究取得了更高的總體識別準確率(99.02%)。此外,本研究使用PyQt5技術將該模型開發為一款具有可視化操作界面的電腦端應用程序,使得編程知識匱乏的醫務人員也能輕松使用。這為模型在臨床工作中的實際應用奠定了基礎。
多項研究證實[19-20],雖然“醫學+AI”模式能夠輔助醫務人員更快速、準確且客觀地進行醫學圖像分類,但模型的“黑盒”特性限制了對其內部機制和決策過程的了解。開發既準確又可解釋的模型對于促進其在臨床實踐中的應用至關重要[21]。本研究采用了多種可解釋性人工智能技術,包括Grad-CAM、SHAP以及t-SNE,這些技術不僅直觀呈現了模型的決策過程,還增強了對模型的信賴和驗證。
本研究存在一定的局限性,未來計劃將性能最佳的模型部署到移動端應用程序中。通過多種形式的使用,包括移動端和桌面端,后續本課題組將進一步擴大研究成果在不同場景中的應用。這將提高使用的便捷性,讓更多人能夠體驗到AI在中藥材識別中的潛力。
本研究收集了163種常見中藥材的圖像數據集,通過遷移學習開發了5種CNN架構的AI模型,以自動識別這些中藥材。性能比較結果顯示,EfficientNetB0模型在驗證和測試過程中表現最佳。最終,使用PyQt5技術將其開發為一款便攜式的本地應用程序。本研究涵蓋了從數據集構建、模型開發與測試、可解釋性分析到終端部署的完整流程,具有良好的臨床應用潛力和參考價值。
作者貢獻:王甘紅、陳健進行文章的構思與設計;奚美娟、夏開建、張子豪進行數據收集及數據整理,并進行統計學處理與代碼報錯解決;王甘紅、周燕婷撰寫論文并進行論文的修訂;陳健對文章整體負責,監督管理。
本文無利益沖突。
王甘紅https://orcid.org/0009-0004-7388-6268
陳健https://orcid.org/0009-0001-9930-878X
參考文獻
張伯禮,張俊華,陳士林,等. 中藥大健康產業發展機遇與戰略思考[J]. 中國工程科學,2017,19(2):16-20. DOI:10.15302/J-SSCAE-2017.02.003.
薛曉娟,劉彩,王益民,等. 新時代中醫藥發展現狀與思考[J]. 中國工程科學,2023,25(5):11-20. DOI:10.15302/J-SSCAE-2023.05.007.
曹雪曉,任曉亮,王萌,等. 中藥材及飲片規格等級質量標準研究進展[J]. 中藥材,2021,44(2):490-494. DOI:10.13863/j.issn1001-4454.2021.02.044.
黃麗,張軍,吳慧玲,等. 基于深度學習的內鏡超聲膽管掃查輔助分站系統構建[J]. 中華消化內鏡雜志,2022,39(4):295-300. DOI:10.3760/cma.j.cn321463-20210628-00007.
吳樹劍,俞詠梅,范莉芳,等. 基于增強CT深度學習影像組學術前預測胸腺瘤風險分類[J]. 中國腫瘤臨床,2023,50(19):999-1005. DOI:10.12354/j.issn.1000-8179.2023.20230828.
陳健,王珍妮,夏開建,等. 基于深度學習的結直腸息肉內鏡圖像分割和分類方法比較[J]. 上海交通大學學報(醫學版),2024,44(6):762-772.
郭叢,田鈺嘉,李楊,等. 基于YOLOv4算法的中藥飲片識別[J]. 中國實驗方劑學雜志,2023,29(14):133-140. DOI:10.13422/j.cnki.syfjx.20230614.
HAN Y,LAN J,GUO R Y,et al. Identification of Chinese herbal medicine slices based on deep learning[J]. Acta Agriculturae Boreali-occidentalis Sinica,2023,32(11):1859-1867. DOI:10.7606/j.issn.1004-1389.2023.11.020.
ATHALYE C,ARNAOUT R. Domain-guided data augmentation for deep learning on medical imaging[J]. PLoS One,2023,18(3):e0282532. DOI:10.1371/journal.pone.0282532.
QIU Z R,RONG S Y,YE L K. YOLF-ShipPnet:improved RetinaNet with pyramid vision transformer[J]. Int J Comput Intell Syst,2023,16(1):58. DOI:10.1007/s44196-023-00235-4.
ZHANG Y Y,HONG D,MCCLEMENT D,et al. Grad-CAM helps interpret the deep learning models trained to classify multiple sclerosis types using clinical brain magnetic resonance imaging[J]. J Neurosci Methods,2021,353:109098. DOI:10.1016/j.jneumeth.2021.109098.
KIKUTSUJI T,MORI Y,OKAZAKI K I,et al. Explaining reaction coordinates of alanine dipeptide isomerization obtained from deep neural networks using explainable artificial intelligence(XAI)[J]. J Chem Phys,2022,156(15):154108. DOI:10.1063/5.0087310.
LINDERMAN G C,STEINERBERGER S. Clustering with t-SNE,provably[J]. SIAM J Math Data Sci,2019,1(2):313-332. DOI:10.1137/18m1216134.
KIRSAN A S,TAKANO K,ZEBADA MANSURINA S T. EksPy:a new Python framework for developing graphical user interface based PyQt5[J]. Int J Electr Comput Eng,2024,14(1):520. DOI:10.11591/ijece.v14i1.pp520-531.
許郭婷,吳愛榮,林嘉希,等. 基于深度卷積神經網絡的上消化道內鏡解剖分類模型構建[J]. 中國醫學物理學雜志,2023,40(8):1051-1056. DOI:10.3969/j.issn.1005-202X.2023.08.021.
陳健,張子豪,盧勇達,等. 基于深度學習構建結直腸息肉診斷自動分類模型[J]. 中華診斷學電子雜志,2024,12(1):9-17.
王超超,張先超,谷正昌,等. 中藥材及飲片檢測中人工智能應用探討[J]. 中國工程科學,2024,26(2):245-254.
胡曉東. 基于改進深度學習算法的中藥飲片圖像識別研究[D]. 長春:吉林農業大學,2023. DOI:10.27163/d.cnki.gjlnu.2023.000042.
ZHOU L Q,WANG J Y,YU S Y,et al. Artificial intelligence in medical imaging of the liver[J]. World J Gastroenterol,2019,
25(6):672-682. DOI:10.3748/wjg.v25.i6.672.
林嘉希,汪盛嘉,趙鑫,等. 基于深度卷積神經網絡的Barrett食管內鏡圖片分類模型的建立[J]. 上海交通大學學報(醫學版),2022,42(5):653-659. DOI:10.3969/j.issn.1674-8115.2022.05.014.
GHNEMAT R,ALODIBAT S,ABU AL-HAIJA Q. Explainable artificial intelligence(XAI)for deep learning based medical imaging classification[J]. J Imaging,2023,9(9):177. DOI:10.3390/jimaging9090177.
(收稿日期:2024-06-10;修回日期:2024-10-10)
(本文編輯:趙躍翠)