999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于《本草綱目》的多模態知識圖譜的構建研究

2022-09-07 05:05:24李榮耀吳雨璐劉秀峰
現代計算機 2022年13期
關鍵詞:模態中醫藥文本

李榮耀,徐 倩,吳雨璐,劉秀峰

(廣州中醫藥大學醫學信息工程學院,廣州 510006)

0 引言

中醫經典博大精深,源遠流長,歷代醫家在數千年的實踐中總結了豐富的臨床經驗,形成了完整的知識體系。其不僅傳承了中醫藥學理論知識,而且記載了歷代醫藥學家防病治病的醫理醫術和方藥研究成果,有著寶貴的科研價值和臨床價值。其中,《本草綱目》作為中國傳統醫藥學的集大成者,被譽為“東方醫學巨典”。它不僅僅是一部醫藥巨著,全面系統地總結了明朝中期以前藥物學的成就,影響了后世中醫、中藥學的發展,還是一部世界性的博物學著作,書中涉及內容廣泛,囊括了天文、地理、生物、化學、地質、采礦乃至歷史方面,把我國醫藥科學提高到了一個新的水平,具有劃時代的意義。

隨著知識的爆炸式增長,知識圖譜悄然興起,成為知識管理領域中的一項新興技術,知識圖譜在知識管理、語義搜索、問答等領域得到了廣泛的應用。知識圖譜作為一種知識表示、存儲的手段,因其表達能力強、擴展性好,并能夠兼顧人類認知與機器自動處理,被認為是解決深度學習可解釋性和認知智能長期挑戰等困境的一種手段。不僅便于知識的管理和保存,同時還能通過可視化的方式直觀地展示相關知識架構及其依賴關系,幫助人們理解和學習知識。因此,充分利用知識圖譜技術將《本草綱目》結構化存儲與展示是時代的選擇。此外,《本草綱目》中的草藥等實體具有大量的圖片資源,若能將其一并融合到知識圖譜中,將大大擴展知識圖譜的可視化結構,具有一定的研究意義。

1 多模態知識圖譜的研究進展

知識圖譜的早期理念是萬維網之父Tim Berners-Lee 關于語義網的超級設想,目的在于采用圖結構來建模和記錄世界萬物之間的知識和關聯,以便實現更加精準的對象級搜索。知識圖譜從語義角度出發,以事實三元組的形式描述客觀世界中的實體及其關系,將實體抽象為節點,將關系抽象為邊,通過結構化的形式對知識進行建模,是一種用圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法。知識圖譜的數據來源不僅可以是文本,也可以是圖片、視頻、音頻等視覺或聽覺等多模態顯示的數據。模態,是一種生物學概念,指感官條件下事物發生或存在的方式。這里的多模態就是指語言、視覺、聽覺等不同模態通道的融合,能夠充分融合利用多種模態數據的知識圖譜就叫做多模態知識圖譜。

作為一種表示和存儲知識的手段,知識圖譜本身的可推理、可解釋性表現較好。結合多模態的知識圖譜不僅可以提高視覺和聽覺識別的性能,而且視覺、聽覺等多模態信息可以用來擴展知識圖譜,具有實物演示、消除歧義、補充細節的作用,兩者相輔相成。作為承載底層海量知識并支持上層智能應用的重要載體,知識圖譜實現多模態融合的重要性不言而喻。

現有多模態知識圖譜的研究統計,多模態知識圖譜的構建在傳統知識圖譜構建基礎上,經歷了早期的圖數據庫時代和近期數據規模更加龐大、關系更加復雜的圖譜資源庫時代。表1為部分現有可視化數據資源和多模態知識圖譜。目前國內外有學者圍繞多模態構建開展研究,譬如多模態信息提取、表示學習等方面。如李直旭等以教材、大綱、網絡資源等為依據,對知識點進行分類匯總,構建了多模態教學知識圖譜。劉昱然面向黨建領域,從第三方平臺獲取了文本、圖片、視頻數據,構造了多模態數據集,提出了標簽對齊的多模態數據融合方法(LCSMMF)。司徒凌云等提出了基于多模態知識圖譜的南海疆維權證據鏈系統構建技術體系。Li提出了一種基于教育詞典的微調雙向編碼器表示(BERT)模型,添加了雙向長短期記憶條件隨機場(BiLSTM-CRF),用以識別教育實體,同時重點收集了教師語音,構建了多模態知識圖譜。綜上,領域內多模態知識圖譜的構建研究已經初見雛形。

表1 部分現有可視化數據資源和多模態知識圖譜

目前,在中醫藥領域,知識圖譜主要被用于處理結構化的文本數據,而對半結構化或非結構化的文本、圖像、音頻、視頻等多模態數據的研究和應用則相對較少,對中醫經典《本草綱目》以及相關圖像等多模態信息的整理和研究比較少見,因此,如何構建《本草綱目》的多模態知識圖譜是一個急需探索和挖掘的問題。

2 《本草綱目》的多模態知識圖譜構建

2.1 總體流程

多模態知識圖譜的構建通常有兩種方法:用文字標記圖像或者將圖像定位到實體。本文基于中醫經典《本草綱目》和權威標準,通過數據清洗、實體抽取等自然語言處理方法從文本數據中抽取實體,參考《中醫藥學語言系統語義網絡框架》中的語義關系和相關文獻對《本草綱目》中的關系進行歸納,得到“實體-屬性-屬性內容”和“實體-關系-實體”的三元組模型,利用模糊查找等方法在項目組自建的基本中藥、癥狀等圖片庫中得到對應圖片,進而通過知識融合將知識導入neo4j 圖數據庫,形成了《本草綱目》的多模態知識圖譜,總體流程見圖1。為控制實體、關系及其圖片的相對準確性,起初的數據清洗和最終的數據融合均進行了必要的人工審查工作。

圖1 《本草綱目》多模態知識圖譜構建總體流程

2.2 數據來源及預處理

本研究的數據處理對象為.txt 格式的中醫經典古籍《本草綱目》。《本草綱目》共52 卷,載藥1892 種,分為16 部,部之下又分為60 類,類中許多同科草藥通常排列在一起。一藥名下列8 個項目,具體介紹如表2 所示。此書采用“目隨綱舉”編寫體例,同時以《證類本草》為藍本加以變革。

表2 《本草綱目》各藥下8個項目的介紹

此書不僅繼承和總結了以前的本草學成就,還考證了過去本草學中的若干錯誤,綜合大量科學資料,結合豐富的臨床實踐經驗,提出了較科學的藥物分類方法,融入了先進的生物進化思想,對科研、臨床、教學有重要的參考價值。

在文本處理的過程中,本研究使用微軟的Visual Studio Code 編輯工具。與其他工具相比,Visual Studio Code 屬于輕量級的編輯器,啟動速度快,插件豐富,便于觀察文本規律,進行文本的高級處理。在獲取草藥、疾病等圖片過程中,本研究以PyCharm為編程環境,在構建多模態知識圖譜過程中,本研究使用圖數據庫neo4j。圖數據庫(graph database)并非指存儲圖片的數據庫,而是以“圖”這種數據結構存儲和查詢數據,目前圖數據庫中比較典型的產品便是neo4j。

《本草綱目》中每一味中藥的藥名、釋名、氣味以及主治疾病均較為結構化,格式較為固定,不同數據均以特定的標點符號分隔。雖然疾病名稱、藥物用法、服用劑量和方劑名稱的文本較為分散,格式較為不一致,但也是半結構化的數據。其部分原文如圖2所示。

圖2 《本草綱目》部分原文

本文依據“釋名”、“氣味”等特定名稱及“冒號”、“句號”等在特定位置的標點符號來匹配目標,使用Visual Studio Code 工具中的“正則表達式替換”和“更改所有匹配項”等方法對原文進行整理,如圖3所示。

圖3 《本草綱目》的整理環境

再用類似方法格式化文本,同時利用Visual Studio Code 右側預覽中的黃色提示人工審查文本的數據缺失、部分標點符號不規范、數據不整齊等問題,據此對文本進行人工補全、規范化等操作,得到處理后的文本,部分如圖4所示。

圖4 部分規范化后的《本草綱目》

2.3 實體與關系構建

實體與關系構建是一個比較復雜的過程,最終任務是實現實體抽取和關系抽取。實體抽取是指從非結構化的文本數據集中提取有意義的實體,并將其歸類。現代較為自動化的抽取方法,最常用的是有監督的抽取方法,尤其是面向深度學習的神經網絡模型,雖然其自動化水平較高,但一般較難得到準確的結果,通常需要人工對其抽取結果進行評估和審查修改,加之前期的數據集整理,仍需要耗費大量人力。本文認為,對于專業性強且較為結構化的中醫典籍的實體抽取仍需基于文本規則的方法,于是本文參考《中醫藥學語言系統語義網絡框架》,基于文本規律構建抽取規則,使用正則表達式替換、字段分割等方法,抽取《本草綱目》的實體和關系。

《中醫藥學語言系統語義網絡框架》(GB/T 38324-2019)是一項國際標準,該標準是由中國中醫科學院中醫藥信息研究所研究員崔蒙團隊歷時3 年制成。其規定了中醫藥學語言系統的語義概念、語義類型和語義關系,并對其進行了詳細定義。本文在參考該標準中實體類型和關系類型的基礎上,查閱了《本草綱目》的相關文獻,同時聯系實際應用,得到了《本草綱目》的5 個實體類型、5 種關系和6 個中藥實體屬性,如表3所示。

表3 《本草綱目》實體、屬性、關系列表

實體和關系的三元組字典的構建是形成知識圖譜的先決條件,這項任務決定著知識圖譜的最終形態。文本處理后的《本草綱目》數據規整,便于通過程序處理得到實體、屬性和關系。本研究主要通過Python 中的字符串分割和正則表達式匹配方法,構建“實體-屬性-值內容”的三元組字典,舉例如表4所示。其中,部分中藥的屬性又各不相同,但最終都是為各中藥的信息作補充。同時,構建了“實體-關系-實體”的三元組字典,舉例如表5所示。

表4 “實體-屬性-值內容”的三元組字典舉例

表5 “實體-關系-實體”的三元組字典舉例

2.4 圖片獲取與融合

多模態知識圖譜實現了多種模態數據的融合。在上文整理得出實體類型中,中藥、疾病等實體均可在網絡上找到相關圖片。本研究根據分離出的實體在項目組自建的基本中藥、癥狀圖片網絡數據庫中設計模糊查詢程序找到相關圖片實體和鏈接,構建具有文本、圖片兩種模態的《本草綱目》的多模態知識圖譜。對于一些相對少見且難以使用程序尋找的實體圖片,通過人工查找的方法對數據進行補全,最后通過人工審查與修正,以保證實體與圖片的對應與準確。最終共計得到770張中藥實體圖片,25張中藥產物實體圖片,3881張癥狀實體。

本文使用實體圖片對應的網絡鏈接,更新實體字典,在基于已經結構化表示的實體基礎上,為其添加圖片信息,整合、擴充構建的實體字典,通過程序一并導入到neo4j 圖數據庫中,實現《本草綱目》知識圖譜的多模態。其中,通過網絡鏈接存儲的實體圖片占用數據庫空間小,偏于大量導入,有利于多模態知識圖譜的進一步分享與擴展。導入neo4j 圖數據庫的關鍵方法是利用py2neo 庫構建導入實體與關系的類與函數。

2.5 結果展示與分析

本文最終構建得到共10799 個實體和14686條關系,其中中藥實體、中藥產物實體和疾病實體為多模態數據,具體《本草綱目》的多模態知識圖譜(部分)如圖5所示。

圖5 《本草綱目》的多模態知識圖譜(部分)

相比傳統的連續式文本,以結構化、多模態的形式展示數據,可以更直觀地觀察實體間的關系,進而發現隱含的規律。例如,我們想知道治療“小便不通”的中藥有哪些,通過Cypher 查詢語句即可快速檢索得到答案。進而我們可以分析相關的中藥及其功效等,試圖挖掘其圍繞癥狀——“小便不通”的臨床應用。

從圖6可以看到,在《本草綱目》中車前和梔子均治療“小便不通”。車前的藥用記載見于《神農本草經》,藥用種子,列為上品,載:“車前子,味甘,寒。主氣癃,止痛,利水道小便,除濕痹。久服輕身耐老。一名當道”。車前子來源于車前科植物車前PlantagoasiaticaL。或平車前P.depressaWilld。的干燥成熟種子,具有清熱、利尿通淋、滲濕止瀉、明目、祛痰的作用。梔子始載于《神農本草經》,是我國傳統的常用中藥材,具有瀉火除煩、清熱利尿、涼血解毒、外用消腫止痛等功效。梔子仁是梔子的仁,《雷公炮炙論》云:“凡使梔子,先去皮須了,取仁,以甘草水浸一宿,漉出焙干,搗篩如赤金末用”。由這兩個藥物組成的方劑中,八正散主治熱淋,證見尿頻尿急,溺時澀痛,淋瀝不暢等。方中滑石和木通為君藥;萹蓄、瞿麥、車前子同為臣藥;山梔子仁和大黃俱為佐藥;甘草調和諸藥。《太平惠民和劑局方》卷6:“治大人、小兒心經邪熱,一切蘊毒,咽干口燥,大渴引飲,心忡面熱,煩躁不寧,目赤睛疼,唇焦鼻衄,口舌生瘡,咽喉腫痛。又治小便赤澀,或癃閉不通,及熱淋、血淋,并宜服之。”相關研究表明,改良八正散結合微波照射治療慢性前列腺炎的臨床療效優于鹽酸坦洛新緩釋膠囊,值得進一步推廣應用。

圖6 “小便不通”的實體與關系

3 討論與展望

知識圖譜及其多模態化是發展迅速的交叉技術領域,并在不斷地與其他領域進一步融合。目前在中醫領域的研究還十分有限,相關技術的運用也比較初級,大規模中醫藥多模態知識圖譜的構建與應用仍面臨較大挑戰,本文從以下三個方面對中醫藥多模態知識圖譜總體研究作以下討論與展望:

(1)中醫藥知識的數據來源。中醫藥是中華民族上下五千年優秀文化歷史沉淀的結晶,迄今為止,其數據類別多種多樣,從計算機視角去看,可將其分為非結構化數據、半結構化數據和結構化數據三類。非結構化數據一般包括中醫經典、領域書籍、科研論文、專家講課視頻等,此類數據容易獲取。目前完全使用中醫領域非結構化數據構建的知識圖譜體量較小,更大規模的是中醫方劑知識圖譜、中醫養生知識圖譜等。半結構化數據一般包括中醫臨床病歷、中醫醫案、中醫藥圖片、網絡知識、行業網站數據、制藥工程數據,半結構化的詞典、行業標準、百科數據、藥品說明書等,這些數據具有一定的結構性,且容易發現文本規律,便于利用計算機技術使其結構化,從而構建知識圖譜。此類數據可通過購買、爬取收集等一些技術手段獲取。結構化數據一般包括中醫藥的術語系統、專業機構整理的數據庫數據等,可直接用于構建知識圖譜,但一般難以直接獲取。基于以上分析,本文認為,面向非結構化和半結構化中醫藥數據的研究處理將是未來發展的主要方向之一,這方面的研究也急需加快腳步。

(2)中醫藥多模態知識圖譜的構建方法。知識圖譜的構建流程一般包括知識獲取、知識抽取、知識存儲和知識融合。知識獲取即知識的數據來源,這里的數據應是多模態的,此外,還應包括數據的預處理。知識抽取依據任務不同可以分為實體識別、關系抽取和事件抽取等。一般研究者要依據文本結構,選擇合適的抽取方法。對于較為結構化的文本,大多采用基于規則的方法;對于非結構化的文本,近期流行使用深度學習等自動化抽取方法,但當前仍處于技術探索階段,研究趨向分化,趨于不同數據對應不同處理方法的發展方向。知識存儲,即數據的存儲方式,目前業內存儲知識的方式有三種,分別是RDF 存儲、傳統關系型數據庫存儲和圖數據庫存儲。多模態知識圖譜的存儲方式主要以圖數據存儲為主。知識融合一般指將不同的知識圖譜進行融合,但還應包括不同模態數據的融合。知識融合需要處理兩個層面的問題:其一是模式層的融合,主要任務是新舊本體的融合;其二是數據層的融合,包括實體的屬性、關系以及相應圖片、音頻等多模態數據的融合,主要的問題是如何避免實例以及關系的沖突問題,以免造成不必要的冗余。

(3)中醫藥多模態知識圖譜的應用。知識圖譜的應用一般包括知識圖譜補全與推理、知識檢索與知識分析和智能問答等。本文基于多模態知識圖譜的技術背景構建了《本草綱目》的多模態實體與關系,若能將類似工作繼續下去,對中醫藥概念體系進行系統梳理,相信不久便能實現大量中醫藥知識的關聯與融合,構建規模化、擴展性強的中醫領域多模態知識圖譜。同時,隨著語言預訓練的興起,利用知識圖譜來拓展訓練模型從而處理復雜問題的能力不斷提升,多種模態的數據可被用來增強知識圖譜中實體對齊、鏈接預測和關系推理的效果,若能將中醫領域的多模態知識圖譜體系應用于中醫知識跨模態檢索、中醫知識智能問答、臨床診療的輔助推理與判斷等領域,將大大提升搜索、推薦和問答中知識提供的準確度,有效提高計算機分析癥狀與藥物對應關系的性能,輔助醫生制定診療方案,提高中醫臨床的工作效率,為患者提供更好的就醫體驗。

4 結語

本文聚焦于中醫藥領域,立足于中醫經典從“藏”到“用”的轉變,以半結構化和非結構化的中醫經典——《本草綱目》為數據源,以中醫藥概念間的實體構建關系類型,抽取文本以及相關圖像等多模態信息,對數據進行整理、歸納與研究,闡述了實體、關系抽取、知識融合等知識圖譜構建和應用中的相關技術和工作,最后利用4圖數據庫進行規范且統一的存儲表示,形成了具有特色的多模態的《本草綱目》的知識圖譜。同時,本文還對多模態知識圖譜的研究進展進行了介紹,并討論了中醫藥多模態知識圖譜的主要研究方向。在大數據時代利用現代先進技術對中醫經典進行高效的知識獲取、知識存儲和知識管理有著極其重要的意義,希望本文能為相關領域的研究者提供研究思路。

猜你喜歡
模態中醫藥文本
中醫藥在惡性腫瘤防治中的應用
中醫藥在治療惡性腫瘤骨轉移中的應用
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
從《中醫藥法》看直銷
中醫藥立法:不是“管”而是“促”
中國衛生(2016年11期)2016-11-12 13:29:24
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 久久综合伊人77777| 国产色偷丝袜婷婷无码麻豆制服| 久久99国产精品成人欧美| 国产青榴视频在线观看网站| 国产专区综合另类日韩一区| 露脸国产精品自产在线播| 麻豆国产精品一二三在线观看| 国产女人水多毛片18| 精品国产毛片| 亚洲精选高清无码| 91精品啪在线观看国产91九色| 91免费观看视频| 尤物午夜福利视频| 操美女免费网站| 国产精品免费福利久久播放| 亚洲日韩精品综合在线一区二区| 精品人妻无码中字系列| 高清无码手机在线观看| 成人精品在线观看| 国产精品亚洲综合久久小说| 亚洲一区毛片| 免费国产在线精品一区| 亚洲熟女中文字幕男人总站| 在线看片中文字幕| 国产在线精品美女观看| 国产三级韩国三级理| 国产区在线看| 97超爽成人免费视频在线播放| 午夜精品久久久久久久99热下载 | 波多野结衣亚洲一区| 欧美午夜视频| 四虎永久在线精品影院| 亚洲黄网视频| 欧洲一区二区三区无码| 毛片免费在线| 亚洲国产91人成在线| 亚洲第一成人在线| 日韩精品免费一线在线观看| 91福利免费| 日韩人妻无码制服丝袜视频| 国产美女在线观看| 国产乱人伦AV在线A| 国产美女在线观看| 免费毛片全部不收费的| 国产96在线 | 91福利在线观看视频| 特级做a爰片毛片免费69| 香蕉蕉亚亚洲aav综合| 久久中文字幕不卡一二区| 国产产在线精品亚洲aavv| 日韩欧美视频第一区在线观看| 亚洲中文无码av永久伊人| 精品一区二区三区中文字幕| 最新午夜男女福利片视频| 在线视频一区二区三区不卡| 国产理论一区| 日韩激情成人| 久久人搡人人玩人妻精品| 久久精品人妻中文系列| m男亚洲一区中文字幕| 国产在线无码av完整版在线观看| 四虎国产精品永久一区| 91啦中文字幕| 精品久久国产综合精麻豆| 91麻豆国产视频| 黄片在线永久| 国产美女精品人人做人人爽| 欧美国产中文| 国产素人在线| 中文无码日韩精品| 亚洲国产成人久久77| 无套av在线| 亚洲成人一区二区三区| 亚洲日本中文字幕天堂网| 久久综合伊人 六十路| 国产xx在线观看| 精品一区二区久久久久网站| 香蕉综合在线视频91| 精品久久综合1区2区3区激情| 高清亚洲欧美在线看| 成年av福利永久免费观看| 亚洲国内精品自在自线官|