999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態知識圖譜的藥用植物智能問答系統構建

2024-01-01 00:00:00趙豆豆王宇駿劉蕤劉昶
知識管理論壇 2024年5期

摘要:[目的/意義]藥用植物是中醫藥學的核心資源之一,加強藥用植物信息組織與電子化利用,對中醫藥的傳承與發展具有重要意義。[方法/過程]首先構建藥用植物知識圖譜的模式層,然后對比《中國藥典》一部、TCMID、PPBC、CTD等多個數據庫,篩選出265種藥用植物,整合多源異構數據,利用Neo4j構建多模態藥用植物知識圖譜。在此基礎上,利用AC自動機進行用戶問句實體識別,利用TextCNN完成問句意圖識別,實現基于文本的智能回答功能;通過對比VGG、ResNet、DenseNet、MobileNet、EfficientNet等6個圖像識別模型,優先選擇EfficientNet-B3模型實現基于圖像智能問答功能,并引入數據增強、標簽平滑方法提升圖像識別效率,最終利用Python語言PyQt庫實現藥用植物問答系統。[結果/結論]構建一個包括藥用植物及各植物藥方、藥材、化合物、圖像的多模態知識圖譜,包含340 772個實體和2 530 067條關系,基于此構建藥用植物智能問答系統,可根據用戶的自然語言提問和圖片提問反饋查詢結果,實驗結果表明系統的圖像識別準確率達到83.53%。

關鍵詞:多模態;知識圖譜;智能問答;藥用植物

分類號:TP391;R284.1

引用格式:趙豆豆, 王宇駿, 劉蕤, 等. 基于多模態知識圖譜的藥用植物智能問答系統構建[J/OL]. 知識管理論壇, 2024, 9(5): 487-504 [引用日期]. http://www.kmf.ac.cn/p/408/. (Citation: Zhao Doudou, Wang Yujun, Liu Rui, et al. Construction of Intelligent Qamp;A System for Medicinal Plant Based on Multimodal Knowledge Graph[J/OL]. Knowledge Management Forum, 2024, 9(5): 487-504 [cite date]. http://www.kmf.ac.cn/p/408/.)

中醫藥是中華民族智慧的瑰寶,藥用植物作為中藥的重要組成部分,是中醫藥學的核心資源之一。我國是世界上藥用植物資源最為豐富的國家之一,加強藥用植物的信息組織和知識推理,不僅有助于理解傳統中醫中藥的作用機理,而且對促進藥物創新以及新藥研發具有重要的理論意義[1]。

知識圖譜是一種揭示實體之間關系的語義網絡,可以對現實世界的事物及其相互關系進行形式化描述[2]。它將結構化的信息進行整合和表示,幫助人們更好地理解和利用知識。其中,多模態知識圖譜可以對多種模態實體進行關聯[3],為高效利用多模態數據提供解決方法[4]。藥用植物信息呈現多源、異構的特征,涉及豐富的圖像、文本等多模態數據[5]。然而,有關藥用植物多模態知識圖譜構建及相關智能問答系統開發的研究鮮見報道。基于多模態藥用植物知識圖譜實現智能問答,不僅能夠響應用戶的自然語言查詢需求,一站式呈現藥用植物的文本、圖像信息,還能夠對藥用植物的精準鑒定起到必要的輔助作用。

鑒于此,筆者以藥用植物為研究對象,借鑒現有研究,對藥用植物的化學成分、藥材、藥方等文本信息與圖像信息進行整合組織,構建藥用植物多模態知識圖譜;設計并實現智能問答系統,探索藥用植物領域多模態知識服務一站式實現路徑,為藥用植物智能查詢與精準鑒定提供必要方法與有效工具,提高領域知識的利用效率。

1" 相關研究/Related research

1.1" 藥用植物知識圖譜構建相關研究

在藥用植物知識圖譜構建領域,現有研究針對藥用植物的品種、產地[6]、基因組[7]開發了相關知識圖譜。王運乾采用自下而上的方法構建了藥用植物知識圖譜PlantKG,其中包括植物品種、產地、經濟用途、特征等共74 475個節點和641 986條關系[6];Y. Wu等通過手工對齊中西醫癥狀,整合了對應的499種草藥以及相關的疾病、草藥成分及靶基因等信息,建立了一個大型異質網絡,將中醫藥與現代醫學融為一體,以指導藥物發現[8];F. Meng等分析和組織了160個植物、195個基因組和255種草藥信息,構建一個全面、可免費訪問的藥用植物資源,為用戶提供植物基因組分析服務[9];香港浸會大學中醫藥學院推出藥用植物圖像數據庫(library.hkbu.edu.hk/electronic/libdbs/mpd/),其中包括千余種藥用植物的名稱、歸類、分布和屬性等信息;藥用植物數據庫(db.cngb.org/mpdb/)組織多維度、多層次的藥用植物研究數據,建立了一個評估藥用植物種質資源和培育新品種的數據庫。以上研究整合藥用植物相關信息,對本研究具有借鑒意義。

1.2" 基于知識圖譜的問答系統相關研究

基于知識圖譜的問答實現方法包括基于模板匹配的問答、基于統計的問答、基于深度學習的問答方法等[10-12]。早期的問答系統主要利用人工編寫的語法和語義規則來解析問題和答案,如BASEBALL[13]和LUNAR[14]。這類系統雖然能夠處理一些特定領域的問題,但是缺乏通用性和可擴展性,而且需要大量的人工干預,對于非結構化數據的回答效果并不理想。

隨著互聯網的迅速發展和信息體量的激增,基于規則的問答系統逐漸被基于統計的問答系統所取代。基于統計的問答系統利用機器學習和自然語言處理的技術,從大規模的文本語料中自動學習問題和答案之間的映射關系(如IBMWatson[15])。這種系統具有更好的魯棒性和泛化能力,但是也面臨著數據稀疏、噪聲干擾、語義理解等挑戰。

近年來,深度學習方法被廣泛應用于問答系統的相關任務中[16]。吳浩鋒構建基于知識圖譜的食療健康問答機器人,采用樸素貝葉斯預排序以及CNN排序學習的方式提高返回答案的準確度[17];劉璐構建基于知識圖譜的政府采購智能問答系統,提出一種基于TextCNN-Attention的問句分類模型,用于判斷用戶的提問意圖[18];李彥昉構建基于知識圖譜的糖尿病問答系統,采用基于BERT-BiLSTM-CRF模型的命名實體識別算法,提取其中的關鍵詞對用戶問句進行識別[19];張淼在卷積神經網絡中引入注意力機制以解決深層次語義特征提取不足的問題,這使得卷積神經網絡能夠獲取更多提問語句和屬性文本之間的語義聯系[20];C. Raffel等提出了T5模型,它是一種基于Transformer的通用文本到文本轉換模型,可以用于問答任務,并在各種自然語言處理任務中獲得最先進的結果[21];J. Mandar等改進了BERT模型,提出SpanBERT模型,通過對跨度(Span)進行建模,進一步提高問答任務的性能[22]。

1.3" 研究現狀述評

綜上所述,學術界和工業界在藥用植物相關的知識圖譜和問答系統領域取得了豐碩的研究成果。同時,已有研究仍存在進一步拓展的空間:①藥用植物的圖像信息有助于研究人員更直觀和系統地認識植物特征,現有的藥用植物知識圖譜研究主要是對藥用植物相關文本信息的整合,這類知識圖譜未考慮到藥用植物的多模態特征,難以滿足多模態數據涌現下產生的跨模態檢索需求;②在問答系統領域,探索藥用植物領域智能問答系統設計的研究少見報道,這極大地限制了相關信息(如藥材、藥方等)的便利獲取;③尚未實現藥用植物文本、圖像一站式問答,未能提供藥用植物多模態問答服務。

針對以上不足,本研究主要包括如下內容:①從藥用植物多模態數據出發,根據領域資源特征和用戶需求,構建高質量藥用植物知識圖譜;②基于領域知識圖譜,開發藥用植物智能問答系統;③探索現有圖像識別模型應用于藥用植物圖像問答的可行性,并驗證多模態問答系統的適用性。

2" 藥用植物智能問答系統設計/Design of intelligent Qamp;A system for medicinal plants

本文以實現藥用植物多模態問答服務為目標,對領域數據特征及系統的具體功能進行分析,由此構建藥用植物智能問答系統。系統需要實現以下目標:①多源異構的藥用植物數據整合。對不同結構的數據進行整理,建立數據間的語義關聯,以便將不同結構的數據以統一的形式作為回答返回給用戶。②文本問答。用戶使用自然語言進行提問,系統對問句進行語義分析并返回對應答案。③圖片問答。系統識別用戶上傳的圖片,根據識別結果查詢數據庫并返回藥用植物相關信息。

根據系統需求分析,藥用植物智能問答系統架構設計見圖1。該系統主要包括3個部分,即藥用植物多模態知識圖譜構建、智能問答功能實現、系統交互界面。

2.1" 藥用植物知識圖譜構建

首先,需要確定藥用植物知識圖譜數據項及數據來源。通過借鑒現有中醫藥相關知識圖譜本體設計,確定本文藥用植物知識圖譜模式層。在此基礎上,從多個權威的醫藥數據庫中采集植物相關的文本、圖像數據,包括植物的學名、相關藥材藥方信息等。然后利用數據處理工具對收集的結構化、半結構化文本信息進行清洗與組織,以藥用植物唯一的拉丁學名作為依據,對不同來源數據庫中的數據進行對齊。最后,將整理好的數據利用Neo4j的import工具導入至Neo4j圖數據庫中,完成多模態藥用植物知識圖譜的構建。

2.2" 智能問答系統功能實現

智能問答是系統的核心模塊,該模塊根據用戶輸入的問題,對知識圖譜中的數據進行查詢,并將文字或圖像結果返回給用戶。具體而言,在用戶輸入文本信息時,系統會根據用戶輸入,利用AC自動機識別用戶輸入語句中包含的藥用植物或者藥方實體,利用Text-CNN模型進行推理并識別用戶意圖,基于Cypher語句進行查詢;在用戶輸入圖像(如某一植物的圖片)信息時,系統則會調用圖像識別模型,對上傳的植物圖像進行特征提取和匹配,并調用Cypher語句查詢相關植物信息。最后,將查詢結果利用模板包裝后,通過系統交互界面返回給用戶。

3" 多模態藥用植物知識圖譜構建/Construction of multimodal knowledge graph of medicinal plants

筆者選擇自上而下的方式構建多模態知識圖譜,采用七步法構建藥用植物知識圖譜的模式層[23]:①定義領域和范疇;②考察復用現有知識本體的可能性;③列出知識本體中的重要術語;④定義類和類的等級體系;⑤定義類的屬性;⑥定義屬性的分面;⑦創建實例。通過Python獲取實例層數據,經過處理解析將數據存儲在Neo4j圖數據庫中。

3.1" 藥用植物知識圖譜模式層設計

藥用植物知識圖譜模式層旨在將藥用植物與其藥用概念系統地組織起來,從而描述并揭示藥用植物與相關醫學概念及概念關系。中醫藥學語言系統(TCM Language System, TCMLS)是面向中醫藥領域較為成熟的規范化頂層本體,建立了規范化的中醫藥術語體系,提供所有中醫藥學概念的一致性框架[24]。遵循盡量復用現有本體模型的原則,筆者借鑒部分TCMLS本體中的已有概念和語義關系,結合已有藥用植物數據庫[8]信息內容,確定5類核心概念,即“藥用植物”“藥材”“藥方”“化合物”“植物圖像”。

在此基礎上,進一步確定類的屬性。通過具體分析核心概念確定其自身屬性,并定義相關類的關系屬性[25]。①藥用植物:原料藥材,可以通過提取或利用其部分或全部植物組織制備藥材;②藥方:包括名稱、劑量、用法、用量等詳細內容,藥方通常由藥材配制;③藥材:用于中藥治療的原材料,可來源于藥用植物,且經過配制后形成具體藥方;④化合物:藥用植物中所含有的具有藥理活性的化合物,每個化合物在Mesh中都有唯一編碼;⑤植物圖像:展示藥用植物外貌、特征。根據對核心概念內涵分析,基本確立“藥用植物”“藥方”“藥材”“植物圖像”自身屬性,得到6類概念與概念之間的相互關系:藥用植物→可制成→藥材、藥用植物→含有→化合物、藥用植物→展示→植物圖像、藥材→所屬藥方→藥方、藥材→原材料→藥用植物、藥方→成分→藥材等。根據以上工作構建模式層,如圖2所示。

3.2" 藥用植物知識圖譜數據層設計

3.2.1" 多模態數據采集與預處理

筆者選取2015年版《中華人民共和國藥典》一部、中醫藥綜合數據庫(Traditional Chinese Medicines Integrated Database,TCMID)、天然產物活性和物種來源數據庫(Natural Product Activity and Species Source Database,NPASS)、比較毒物基因組學數據庫(Comparative Toxicogenomics Database,CTD)[26-29]以及中國植物圖像庫(Plant Photo Bank of China, PPBC)作為數據源(見表1)。以植物的拉丁學名作為唯一依據,比對所有數據源中數據類目齊全的藥用植物品種,共篩選得到265種藥用植物。

根據植物的拉丁學名,利用Python從《中國藥典》一部電子版、TCMID、NPASS、CTD、PPBC中獲取藥用植物結構化、半結構化以及圖像數據,經解析和去重后得到5類實體及其屬性信息,如表2所示。

3.2.2" 藥用植物知識融合

以上述方法獲得的多源異構藥用植物數據需要進行知識融合。筆者以藥用植物拉丁學名進行實體鏈接,關聯不同來源的同一實體。根據不同概念之間的關聯信息,定義6類關系,如表3所示。

3.2.3" 藥用植物知識存儲

筆者利用Neo4j存儲藥用植物知識。Neo4j是一個非結構化的高性能圖數據庫,通過Cypher語言可以直觀呈現實體間的關聯關系,為用戶呈現更易于理解和交互的知識[30]。具體使用Neo4j的import工具將存儲在csv文件中的實體、關系數據批量存入到圖數據庫中,共存儲實體340 772個,關系2 530 067條。

4" 藥用植物問答功能實現/Realization of Qamp;A function of medicinal plants

4.1" 文本問答功能

4.1.1" 問句實體識別

命名實體識別旨在語句中快速、準確地提取出有意義的實體[31]。目前,在中醫藥研究領域主要采用基于字典與規則的方法、統計機器學習方法、深度學習方法實現實體識別[32-34]。本研究的藥用植物智能問答功能實現主要針對包含單個實體的提問語句做出回答,實體識別功能只需識別出提問語句中包含的、指定范圍內的藥用植物、藥材、藥方等實體,因此可以通過基于字典與規則的命名實體識別方法實現問句實體識別。筆者選用AC自動機識別用戶提問語句中是否存在藥用植物實體[35],將上文中處理后獲得的藥用植物、藥方、藥材的名稱作為關鍵詞構建Trie樹。

4.1.2" 問句意圖識別

意圖識別是實現文本問答功能的關鍵步驟,其目的在于判斷用戶提問屬于哪一類預設的問句分類,每一類問句分類對應著Cypher查詢語句模板。通過對用戶提問意圖的判斷,選擇相應的Cypher查詢語句。為了提高意圖識別的準確率和靈活性,筆者選擇基于深度學習的TextCNN模型[36],按照上文構建的概念間關系設置問句分類。由于缺乏藥用植物意圖識別數據集,筆者采用自建數據集的方式對模型進行訓練與評估。

(1)問句意圖識別語料生成。根據多模態藥用植物知識圖譜中的關系設置6類問句,自建數據集中包含提問語料共638 446條,按照8:1:1的比例切分為訓練集、測試集以及驗證集。問句數據集信息如表4所示:

(2)問句意圖識別實驗。

·實驗環境。TextCNN模型每批次數據量(batch_size)設置為128,學習率為1e-3,卷積核大小(knerl_size)設置為2、3、4,卷積核數(filter_num)設置為256,迭代次數(epoch_num)設置為10,字向量維度數(embedding_size)設置為100,采取隨機失活,驗證集loss超過1000batch沒有下降則提前結束訓練。

·問句意圖識別實驗結果與分析。在訓練第一個epoch時,由于檢驗到超過1000batch訓練效果未提升,程序自動停止運行并保存當前模型參數。這說明使用TextCNN模型不到一個epoch便達到了理想的意圖識別能力。經測試數據集檢驗,此時模型的精確率(P)、召回率(R)、F1值分別為99.70%、99.95%、99.96%,各問題類別的精確率、召回率、F1值如表5所示。

通過實驗發現,在用戶提問語句中出現錯別字、提問語句較為簡短的情況下,TextCNN模型依然能較為準確地返回預測的意圖類別。

4.1.3" 文本提問答案生成

從用戶的提問語句中識別出關鍵實體和用戶的提問意圖之后,需要對問句類型構造Cypher查詢語句以支持圖數據庫查詢。各問句類別對應的Cypher語句查詢模板見表6,’##’為替換實體名稱。

4.2" 圖像問答功能

在知識圖譜構建階段,筆者共采集103 265張藥用植物圖片。將該數據集按照8:1:1的比例隨機切分為訓練集、驗證集、測試集,用作后續對卷積神經網絡的訓練與評估。在此基礎上開展2組對比試驗以優選人工智能圖像識別模型。對比實驗均使用Python語言,Pytorch版本為1.13.0,CUDA版本為12.0,訓練顯卡為NVIDIA GeForce RTX 3090。

4.2.1" 圖像識別模型對比實驗

隨著卷積神經網絡的不斷發展,各類型的卷積神經網絡開始被廣泛運用于植物、中藥材的圖像識別中,其中效果較好且較為常見的有VGG、ResNet、DenseNet、MobileNet、EfficientNet等[37-41]。由于遷移學習能夠為訓練過的網絡各層權重賦予新的網絡[42],因此,筆者使用遷移學習結合以上6種模型以期得到更理想的效果。

以圖像識別常用模型ResNet50為例,首先對預訓練的ResNet50模型與基準ResNet50模型進行對比實驗,驗證遷移學習在藥用植物圖像識別任務上的有效性;然后開展VGG16、ResNet34、ResNet50、DenseNet121、MobileNetV2、EfficientNet-B0模型對比實驗,以優選圖像識別模型用于后續的藥用植物智能問答系統構建。

(1)預訓練ResNet50模型與基準ResNet50模型對比實驗。預訓練ResNet50模型與基準ResNet50模型訓練軟硬件參數相同,激活函數為Relu,優化器為Adam,學習率設置為0.001,批處理量batch_size設置為64,迭代次數epoch設置為100,驗證集loss超過20個epoch未改善則提前終止訓練。訓練準確率(Accuracy)與訓練步數(Step)關系曲線見圖3,驗證準確率與訓練步數關系曲線見圖4。實驗結果顯示,經過預訓練(Pretrained)的模型相較于基準(Baseline)模型的圖像識別準確率有較大提升,因此圖像識別后續實驗均基于預訓練模型。

(2)6種圖像識別模型對比實驗。為了減少網絡規模對6種圖像識別模型對比實驗的影響,選取各模型大小較為相近的版本,分別為:VGG16、ResNet34、ResNet50、DenseNet121、MobileNetV2、EfficientNet-B0。基于自建圖像數據集進行訓練測試,驗證集loss超過20個epoch未改善則提前終止訓練。

訓練準確率(Accuracy)與訓練步數(Step)關系曲線見圖5,驗證準確率與訓練步數關系曲線見圖6。實驗結果顯示,除去MobileNetV2,其他網絡均有良好的訓練準確率。而從驗證準確率可以看出,在藥用植物圖像識別任務中網絡深度不斷增加,其驗證準確率也隨之提升,驗證準確率最高的模型為EfficientNet-B0。不僅如此,EfficientNet-B0模型理論參數量與訓練時間遠少于準確率與其接近的ResNet50和DenseNet121。各模型訓練準確率與驗證準確率見表8。

基于對比實驗得出的結果,筆者選用EfficientNet作為基本模型,在此基礎上進行優化,提高模型對藥用植物圖像的識別能力。

4.2.2" 圖像識別效果改進

為了提高對用戶上傳藥用植物圖像的識別準確率,為領域鑒別藥用植物的工作提供更好的輔助作用,筆者從數據增強、優選EfficientNet版本、引入標簽平滑3個方面進一步提升圖像識別的準確率。

(1)數據增強。通過數據增強(data augmentation)的方式能夠擴充數據集的豐富度與數據量,優化模型性能[43]。筆者根據藥用植物數據集的特點,采用隨機剪切再調整、隨機旋轉、隨機水平翻折3種方式擴充圖像數據集。將EfficientNet-B0基于原數據集與增強數據集分別進行訓練,其驗證準確率由69.72%提高至80.92%。驗證準確率與訓練步數關系曲線見圖7。結果表明,經過數據增強得到的藥用植物數據集能夠更準確地反映不同種類的藥用植物特征,從而提高訓練網絡的識別性能。

(2)優選EfficientNet版本。雖然EfficientNet-B0到B7在ImageNet上的識別效果越來越好,但其對硬件要求更高,且訓練時的計算量也大幅增加。因此,筆者選擇圖像識別準確率較高、計算參數量盡可能小的版本做進一步改進。出于識別速度與硬件要求的考量,本文暫不考慮EfficientNet-B5、EfficientNet-B6與EfficientNet-B7模型。基于數據增強的藥用植物圖像數據集對EfficientNet-B0到B4進行測試,訓練準確率與訓練步數關系曲線見圖8,驗證準確率與訓練步數關系曲線見圖9。

由實驗結果可知,EfficientNet-B3相對于EfficientNet-B0到EfficientNet-B2在訓練準確率與驗證準確率上均有一定提升,而EfficientNet-B4反而出現了準確率下降的情況。因此,最終選取EfficientNet-B3用于圖像識別任務。EfficientNet-B0到B4訓練準確率與驗證準確率如表9所示:

(3)標簽平滑。標簽平滑(label smoothing)是機器學習領域中的一種正則化方法,主要用于分類問題[44]。藥用植物圖像數據集中存在無效照片(如藥用植物指示牌等),且圖像數據集體量巨大,難以通過人工或者基于規則的方法將無效照片完全剔除。標簽平滑能夠防止在訓練過程中模型過擬合問題,增強模型的抗噪能力。筆者將標簽平滑引入EfficientNet-B3中,并基于增強數據集測試不同平滑因子下EfficientNet-B3的識別能力有何變化,依據測試結果選擇對模型提升效果最好的平滑因子值。EfficientNet-B3網絡在不同平滑因子下的訓練準確率與驗證準確率見表10,實驗結果表明,平滑因子設置為0.2時效果最好,驗證準確率由83.41%提升至84.25%。因此筆者將平滑因子設置為0.2,將標簽平滑引入EfficientNet-B3進行測試,最終將藥用植物圖像識別的準確率提高至83.53%。

5" 藥用植物智能問答系統/Intelligent Qamp;A system for medicinal plants

筆者使用Neo4j構建藥用植物多模態知識圖譜,使用Python的PyQt庫實現智能問答流程,利用Pycharm實現智能問答系統開發。系統基于Windows10x64,處理器為Intel(R)Core(TM)i5-12490F。

5.1" 實例分析

用戶打開系統后顯示的默認頁面為系統首頁,見圖10(a)。在頁面下方以文本的方式對本系統進行簡要介紹,并設置系統使用FAQ內容,加快用戶對系統的熟悉進程。系統圖片提問界面、文本提問界面分別如圖10(b)、圖10(c)所示。

5.1.1" 文本提問實例分析

用戶可以在首頁或“文本提問”界面直接提出問題,系統將通過AC自動機識別問句中的領域實體,利用Text-CNN模型識別用戶意圖,轉換為Cypher語句查詢藥用植物知識圖譜,并將結果用模板包裝后返回給用戶,文本查詢功能主要實現以下5種詢問方式:①藥材信息查詢。用戶可以查詢藥用植物可被制成哪些藥材,系統將提供相關的信息,如圖11(a)查詢植物“牛膝”可被制成哪些藥材。②圖像信息查詢。用戶可以通過文本輸入獲取有關藥用植物的圖片,以便更直觀地了解植物的外形特征,見圖11(b)。③藥方成分信息查詢。用戶可以查詢特定藥方中所涵蓋的藥材,系統將返回藥方成分的詳細信息,包括每種成分的作用和用量,如圖11(c)查詢藥方“升麻散”含有的藥材。④藥方信息查詢。用戶可以查詢藥用植物相關的可制藥方,系統將提供相關的信息和建議,如圖11(d)查詢藥材“艾葉”可制成的藥方有哪些。⑤化合物信息查詢。用戶可以查詢特定植物中所包含的化合物信息,如圖11(e)查詢植物“牛膝”包含哪些有效化合物成分。

5.1.2" "藥用植物圖像查詢實例分析

圖像查詢模塊負責處理用戶上傳的圖片,通過EfficientNet-B3模型識別植物特征,并提取知識圖譜中植物的相關信息返回給用戶。如圖12導入植物“益智”的圖片,系統返回“益智”的學名信息以及可制成的相關藥材信息。

5.2" 系統評價

為了對藥用植物智能問答系統返回答案的準確率進行測評,筆者收集10組測評樣本數據,分別來自10位被試。其中,4人為信息管理專業師生,4人為中國醫學科學院中醫藥領域研究人員,2人為醫藥行業從業人員。具體操作如下:為被試每人提供10張藥用植物圖片、10個藥用植物相關問題,利用本系統依次輸入文本問題與圖片進行智能問答,要求被試記錄系統生成正確答案的數量,對本系統進行測評。

以被試LJL為例,被試提供的領域問題與藥用植物圖片分別見表11、圖13。

在測試的共100張圖片和100個領域問題數據集中,經過用戶對系統返回答案進行評價,有72張圖片的返回答案與75個領域問題的返回答案被評價為準確。根據上述測試結果,得出此系統問答功能的平均回答準確率為73.5%,其中文本回答準確率為75%,圖片回答準確率為72%。

通過上述分析,此系統智能問答系統仍存在提升空間,其中主要不足之處在于:①包含的藥用植物種類較少,已有藥用植物的文本數據以及種子、枝葉圖片等數據還不夠豐富;②預設問題種類不全。未來將在已有數據的基礎上,定期對領域研究成果進行整理,用于擴充藥用植物知識圖譜實體信息,并進一步增加藥用植物藥理信息、基因組信息等類目,豐富多模態藥用植物知識圖譜;對于圖譜中存在的獨立節點,將參考相關研究完善其關系信息,以確保所構建的知識圖譜能夠及時反映最新的研究成果和數據信息,進一步完善知識圖譜中所包含的植物相關信息,豐富植物圖片類型以提高模型識別效果,進一步改進問答功能的效果。

6" 總結與展望/Summary and prospects

藥用植物數據來源眾多、結構不一,但鮮有研究專門針對藥用植物多模態數據進行整合與組織,提供藥用植物一站式智能問答平臺。針對這一現狀,筆者首先根據領域本體七步法設計了多模態藥用植物知識模式層,然后通過網絡爬蟲從5類醫藥領域專業數據庫中獲取了藥用植物的結構化、半結構化的文本以及圖像數據,對數據進行清洗、處理后構建多模態知識圖譜,其中包含340 772個實體以及2 530 067條關系。在此基礎上,利用AC自動機和TextCNN模型實現文本問答功能,利用EfficientNet-B3模型優化后實現圖像問答功能。最后基于PyQt庫實現藥用植物智能問答系統客戶端,該系統能夠解析不同模態的用戶提問數據,并返回用戶查詢結果,輔助用戶查詢藥用植物相關的藥材、藥方、化合物、圖像信息,可以輔助藥用植物鑒定及植物藥的開發與利用。

本文仍存在以下局限與不足:①知識圖譜模式層有待完善。本文主要整合藥用植物的配方材料、化學、圖像等信息類目,未來將進一步增加藥用植物藥理信息、基因組信息等類目,豐富多模態藥用植物知識圖譜。②智能問答系統提供的問句類別有限。目前僅針對概念間的關系設計6類問句,還應擴充問答模板,開發連續提問連續作答功能,提升用戶體驗。

參考文獻/References:

[1] 郝二偉, 謝安然, 韋棪婷, 等. 瀾湄五國傳統藥用植物防治蟲媒傳染病研究概況[J]. 中國中藥雜志, 2021, 46(24): 6303-6311. (HAO E W, XIE A R, WEI Y T, et al. Traditional medicinal plants for arthropod-borne diseases of five countries in Lancang-Mekong region: a review[J]. China journal of Chinese materia medica, 2021, 46(24): 6303-6311.)

[2] 徐增林, 盛泳潘, 賀麗榮, 等. 知識圖譜技術綜述[J]. 電子科技大學學報, 2016, 45(4): 589-606. (XU Z L, SHENG Y P, HE L R, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.)

[3] 翟東升, 婁瑩, 闞慧敏, 等. 基于多源異構數據的中醫藥知識圖譜構建與應用研究[J]. 數據分析與知識發現, 2023, 7(9): 146-158. (ZHAI D S, LOU Y, KAN H M, et al. Constructing TCM knowledge graph with multi-source heterogeneous data[J]. Data analysis and knowledge discovery, 2023, 7(9): 146-158.)

[4] 陳燁, 周剛, 盧記倉. 多模態知識圖譜構建與應用研究綜述[J]. 計算機應用研究, 2021, 38(12): 3535-3543. (CHEN Y, ZHOU G, LU J C. Survey on construction and application research for multi-modal knowledge graphs[J]. Application research of computers, 2021, 38(12): 3535-3543.)

[5] 王松, 李正鈞, 楊濤, 等.中醫藥知識圖譜研究現狀及發展趨勢[J]. 南京中醫藥大學學報, 2022, 38(3): 272-278. (WANG S, LI Z J, YANG T, et al. Current status and development trend of knowledge graph research in traditional Chinese medicine[J]. Journal of Nanjing University of Traditional Chinese Medicine, 2022, 38(3): 272-278.)

[6] 王運乾. 植物知識圖譜PlantKG的構建研究及應用[D]. 貴陽: 貴州大學, 2021. (WANG Y Q. Construction research and application of plant knowledge graph PlantKG[D]. Guiyang: Guizhou University, 2021.)

[7] ZHU X, GU Y, XIAO Z. HerbKG: constructing a herbal-molecular medicine knowledge graph using a two-stage framework based on deep transfer learning[J]. Frontiers in genetics, 2022, 13:799349.

[8] WU Y, ZHANG F, YANG K, et al. SymMap: an integrative database of traditional Chinese medicine enhanced by symptom mapping[J]. Nucleic Acids Research, 2019, 47:1110-1117.

[9] MENG F, TANG Q, CHU T, et al. TCMPG: an integrative database for traditional Chinese medicine plant genomes[J]. Horticulture research, 2022, 9:uhac060.

[10] 李賀, 劉嘉宇, 李世鈺, 等.基于疾病知識圖譜的自動問答系統優化研究[J]. 數據分析與知識發現, 2021, 5(5): 115-126. (LI H, LIU J Y, LI S Y, et al. Optimizing automatic question answering system based on disease knowledge graph[J]. Data analysis and knowledge discovery, 2021, 5(5): 115-126.

[11] FADER A, ZETTLEMOYER L, ETZIONI O. Open question answering over curated and extracted knowledge bases[C]// Proceedings of the 20th ACM SIGKDD international conference on knowledge discovery and data mining. New York: Association for Computing Machinery, 2014:1156-1165.

[12] WU W Q, ZHU Z F, LU Q, et al. Introducing external knowledge to answer questions with implicit temporal constraints over knowledge base[J]. Future internet, 2020, 12(3): 45.

[13] GREEN B F, WOLF A K, CHOMSKY C L, et al. Baseball: an automatic question-answerer[C]//Proceedings of the IRE-AIEE-ACM ‘61 (Western). New York: Association for Computing Machinery, 1986:545-549.

[14] WOODS W A. Lunar rocks in natural English: explorations in natural language question answering[M]. Amsterdam: Linguistic Structures Processing, 1977.

[15] FERRUCCI D A, BROWN E W, CHU-CARROLL J, et al. Building watson: an overview of the DeepQA project [J]. Computer Science, 2010, 31(3): 59-79.

[16] 姚元杰, 龔毅光, 劉佳, 等.基于深度學習的智能問答系統綜述[J]. 計算機系統應用, 2023, 32(4): 1-15. (YAO Y J, GONG Y G, LIU J, et al. Survey on intelligent question answering system based on deep learning[J]. Computer systems amp; applications, 2023, 32(4): 1-15.)

[17] 吳浩鋒. 基于知識圖譜的食療健康問答機器人的研究與實現[D]. 上海:華東師范大學, 2021. (WU H F. Research and implementation of food therapy health Qamp;A robot base on knowledge graph[D]. Shanghai: East China Normal University, 2021.)

[18] 劉璐. 基于知識圖譜的政府采購智能問答系統研究與實現[D]. 重慶: 重慶理工大學, 2022. (LIU L. Research and implementation of government procurement question answering system based on knowledge graph[D]. Chongqing: Chongqing University of Technology, 2022.)

[19] 李彥昉. 基于知識圖譜的糖尿病問答系統的研究與應用[D]. 太原:中北大學, 2022. (LI Y F. Based on knowledge graph research and application of diabetes question-answering system[D]. Taiyuan: North University of China, 2022.)

[20] 張淼. 基于中文知識圖譜的智能問答系統設計與實現[D]. 武漢:華中師范大學, 2018. (ZHANG M. Design and implementation of intelligent Qamp;A system based on Chinese knowledge graph[D]. Wuhan: Central China Normal University, 2018.)

[21] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The journal of machine learning research, 2020, 21(1): 5485-5551.

[22] MANDAR J, DANQI C, YINHAN L, et al. SpanBERT: improving pre-training by representing and predicting spans[J]. Transactions of the association for computational linguistics, 2020, 8: 64-77.

[23] NOY N F, MCGUINESS D L. Ontology development 101: a guide to creating your first ontology[EB/OL]. [2024-03-12]. https://protege.stanford.edu/publications/ontology_development/ontology101.pdf.

[24] 于彤, 崔蒙, 李海燕, 等.中醫藥學語言系統的語義網絡框架: 一個面向中醫藥領域的規范化頂層本體[J]. 中國數字醫學, 2014, 9(1): 44-47. (YU T, CUI M, LI H Y, et al. Semantic network framework of traditional Chinese medicine language system: an upper-level ontology for traditional Chinese medicine[J]. China digital medicine, 2014, 9(1): 44-47.)

[25] 劉麗紅, 賈李蓉, 朱彥, 等.中藥子領域核心概念本體模型構建研究[J]. 中國中醫藥信息雜志, 2018, 25(11): 95-98. (LIU L H, JIA L R, ZHU Y, et al. Construction od ontological modeling for core concepts of TCM subdomain[J]. Chinese journal of information on traditional Chinese medicine, 2018, 25(11): 95-98.)

[26] 國家藥典委員會.中華人民共和國藥典: 一部[M]. 北京: 中國醫藥科技出版社, 2015. (Chinese Pharmacopoeia Commission. Pharmacopoeia of the People’s Republic of China: 1[M]. Beijing: China Medical Science Press, 2015.)

[27] XUE R, FANG Z, ZHANG M, et al. TCMID: traditional Chinese medicine integrative database for herb molecular mechanism analysis[J]. Nucleic acids research, 2012, 41(D1): 1089-1095.

[28] ZENG X, ZHANG P, HE W, et al. NPASS: natural product activity and species source database for natural product research, discovery and tool development[J]. Nucleic acids research, 2018, 46(D1): 1217-1222.

[29] DAVIS A P, GRONDIN C J, JOHNSON R J, et al. Comparative toxicogenomics database (CTD): update 2021 [J]. Nucleic acids research, 2020, 49(D1): 1138-1143.

[30] 張維沖, 王芳, 黃毅. 基于圖數據庫的貴州省大數據政策知識建模研究[J]. 數字圖書館論壇, 2020(4): 30-38. (ZHANG W C, WANG F, HUANG Y. Knowledge modeling of big data policy in Guizhou province based on graph database[J]. Digital library forum, 2020(4): 30-38.)

[31] 王世奇, 劉智鋒, 王繼民. 學者畫像研究綜述[J]. 圖書情報工作, 2022, 66(20): 73-81. (WANG S Q, LIU Z F, WANG J M. A review of scholar profiling research[J]. Library and information service, 2022, 66(20): 73-81.)

[32] MIKHEEV A, GROVER C, MOENS M. Description of the LTG system used for MUC-7[C]//Proceedings of 7th message understanding conference. Fairfax: ALC, 1998.

[33] YU S, BAI S, WU P. Description of the Kent Ridge Digital Labs system used for MUC-7[C]//Proceedings of 7th message understanding conference, Fairfax: ALC, 1998.

[34] PENG N, DREDZE M. Improving named entity recognition for Chinese social media with word segmentation representation learning[C]//Proceedings of the 54th annual meeting of the association for computational linguistics. Berlin: Association for Computational Linguistics, 2016: 149-155.

[35] 王若佳, 趙常煜, 王繼民. 中文電子病歷的分詞及實體識別研究[J]. 圖書情報工作, 2019, 63(2): 34-42. (WANG R J, ZHAO C Y, WANG J M. Healthcare data mining: word segmentation and named entity recognition in Chinese electronic medical record[J]. Library and information service, 2019, 63(2): 34-42.)

[36]KIM Y. Convolutional neural networks for sentence classification[EB/OL]. Eprint Arxiv, 2014[2024-04-09]. https://doi.org/10.48550/arXiv.1408.5882.

[37] SIMONYAN K, ZISSERMAN A J C. Very deep convolutional networks for large-scale image recognition[EB/OL]. Eprint Arxiv, 2014[2024-04-09]. https://doi.org/10.48550/arXiv.1409.1556.

[38] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016.

[39] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on computer vision and pattern recognition. Piscataway: IEEE, 2017.

[40] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. Eprint Arxiv, 2017[2024-04-09]. https://doi.org/10.48550/arXiv.1704.04861.

[41] TAN M, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. Eprint Arxiv, 2019[2024-04-09]. https://doi.org/10.48550/arXiv.1905.11946.

[42] 黃兆培, 張峰源, 趙金明, 等.情感識別中的遷移學習問題綜述[J]. 信號處理, 2023, 39(4): 588-615. (HUANG Y P, ZHANG F Y, ZHAO J M, et al. A survey of transfer learning problems in emotion recognition[J]. Journal of signal processing, 2023, 39(4): 588-615.)

[43] EKIN D C, BARRET Z, DANDELION M, et al. AutoAugment: learning augmentation strategies from data[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Piscataway: IEEE, 2019:113-123.

[44] MULLER R, KORNBLITH S, HINTON G. When does label smoothing help? [C]//33rd Conference on neural information processing systems. Red Hook: Curran Associates Inc., 2019.

作者貢獻說明/Author contributions:

趙豆豆:數據收集與對齊,知識圖譜構建,論文撰寫與修改;

王宇駿:問答系統構建及實驗,論文撰寫;

劉" 蕤:研究設計,研究內容與結構修改;

劉" 昶:研究數據補正,提出研究思路與框架。

Construction of Intelligent Qamp;A System for Medicinal Plant Based on Multimodal Knowledge Graph

Zhao Doudou1,2" Wang Yujun1" Liu Rui1" Liu Chang3

1School of Information Management, Central China Normal University, Wuhan 430079

2Shaanxi Institute of Science and Technology Information, Xi’an 710054

3The Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences, Beijing 100193

Abstract: [Purpose/Significance] Medicinal plants are one of the core resources of Chinese medicine, and strengthening the organization and electronic utilization of medicinal plant information is of great significance to the inheritance and development of Chinese medicine. [Method/Process] In this paper, the pattern layer of the knowledge graph of medicinal plants were constructed, and then 265 medicinal plants were screened out by comparing multiple databases such as Chinese Pharmacopoeia, TCMID, PPBC and CTD, and multi-source heterogeneous data were integrated, and Neo4j was used to construct a multimodal knowledge graph of medicinal plants. On this basis, AC automaton was used to recognize the user’s question entity and TextCNN was used to complete the question intent recognition, so as to realize the text-based intelligent answer function. By comparing six image recognition models such as VGG, ResNet, DenseNet, MobileNet, and EfficientNet, the EfficientNet-B3 model is preferred to realize the image-based intelligent question and answer function, and introduced data enhancement and label smoothing methods to improve the image recognition efficiency, and finally used the Python language PyQt library to realize the medicinal plant question answering system. [Result/Conclusion] A multimodal knowledge graph including medicinal plants and various botanical formulas, medicinal materials, compounds and images is constructed, including 340 772 entities and 2 530 067 relationships. Based on this, an intelligent question-answering system for medicinal plants is constructed, which can feedback on the query results according to the user’s natural language questions and picture questions, and the experimental results show that the image recognition accuracy of the system reaches 83.53%.

Keywords: multimodality" " knowledge graph" " Intelligent Qamp;A" " medicinal plants

Author(s): Zhao Doudou, master candidate; Wang Yujun, master candidate; Liu Rui, PhD, graduate supervisor, corresponding author, E-mail: liuruiccnu@hotmail.com; Liu Chang, PhD, doctoral supervisor.

Received: 2024-01-09" " Published: 2024-10-29

主站蜘蛛池模板: 亚洲日产2021三区在线| 久久久久夜色精品波多野结衣| 国产综合亚洲欧洲区精品无码| 99视频有精品视频免费观看| 中文字幕在线不卡视频| 国产欧美日韩专区发布| 欧美亚洲中文精品三区| 亚洲天堂日韩av电影| 亚洲天堂福利视频| 国产va欧美va在线观看| 国产精品不卡片视频免费观看| 国产特一级毛片| 亚洲国产中文精品va在线播放| 国产自视频| 国产精品无码作爱| 韩国自拍偷自拍亚洲精品| 2019国产在线| 国产成人精品三级| 亚洲成人免费在线| 国产精品香蕉| 久久综合亚洲色一区二区三区| 国产精品55夜色66夜色| 国产成人一区二区| 亚洲av无码人妻| 国产成人精品视频一区二区电影| 日本在线亚洲| 激情综合激情| 日韩a级毛片| 国产精品伦视频观看免费| 草草影院国产第一页| 国内精品久久久久久久久久影视| 久久性妇女精品免费| 久久福利网| 亚洲永久免费网站| 免费啪啪网址| 蜜芽一区二区国产精品| AV天堂资源福利在线观看| 久久久久88色偷偷| 亚洲精品国产成人7777| 欧美丝袜高跟鞋一区二区| 亚洲成人一区二区| 国产成人精品日本亚洲| 国产精品网曝门免费视频| 成人午夜亚洲影视在线观看| 天天综合网站| 国产视频自拍一区| 视频国产精品丝袜第一页| 波多野结衣无码视频在线观看| 欧美三级自拍| 亚洲毛片一级带毛片基地| 中文字幕欧美日韩高清| 久爱午夜精品免费视频| 真实国产乱子伦高清| 91人人妻人人做人人爽男同| 91小视频在线播放| 99久久精品国产麻豆婷婷| 欧美a在线看| 日韩国产黄色网站| 岛国精品一区免费视频在线观看| 国产精品理论片| 成年网址网站在线观看| 91无码视频在线观看| 女人18一级毛片免费观看| 成人午夜免费观看| 国产人成网线在线播放va| 久久精品嫩草研究院| 亚洲愉拍一区二区精品| 天天综合亚洲| www.精品国产| 国产精品13页| 久久这里只有精品免费| 久久国产V一级毛多内射| 香蕉国产精品视频| 精品国产美女福到在线直播| 亚洲中文字幕在线一区播放| 伊人无码视屏| 国产精品开放后亚洲| 久久伊人操| 91网红精品在线观看| 久久男人资源站| 亚洲欧美日韩中文字幕在线一区| 97超爽成人免费视频在线播放|