999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

公共衛生領域多本體知識融合方法及其實證研究*

2021-02-28 01:03:42宋培彥王晉明
圖書與情報 2021年5期

宋培彥 王晉明

(1.天津師范大學管理學院 天津 300387)

1 引言

面對新冠肺炎疫情等重大突發公共衛生事件帶來的挑戰,政府部門及相關決策者往往需要具備公共衛生、預防醫學、傳染病救治等相關專業知識,才能科學、快速做出風險研判與應對決策,提高應對突發公共事件能力。因此,對公共衛生領域相關專業知識進行有效的整合、提升,將有利于各級部門增強抵御重大突發公共衛生事件的能力、提升決策效率、提高處置能力。

隨著知識組織、知識管理研究領域的不斷發展,為重大突發公共衛生事件的應急管理提供了基礎技術支撐。本體作為一種有效的知識組織工具,使得專業領域知識的描述、整合、共享成為可能,特別是在公共衛生領域,經過多年的積累,可用的公共衛生領域本體的數量和多樣性快速增加。但是,由于本體大多分散建設,信息孤島現象仍然存在,知識關聯性與完備性受到較大影響,不利于對領域知識進行深度組織和有效利用。鑒于此,本文以多個公共衛生領域本體作為數據源,借助本體編輯工具Protégé5.5.0和Word2vec語義相似度計算方法,采用半自動化的融合方式對公共衛生領域本體進行快速融合,形成多本體知識融合的機制,并開展實證研究,進而為政府開展公共衛生領域的應急決策和科學處置提供專業知識支撐與參考。

2 公共衛生領域本體融合相關研究綜述

面對公共衛生領域重大突發事件的多學科交叉、知識關聯度高等特征,多個本體的融合與復用可以提供多個解決問題的維度和視角。在公共衛生領域本體構建的過程中,部分學者從實際需求出發,通過本體復用的方式,抽取現有本體中的部分概念,達到領域知識的融合,同時也形成了特定應用領域的本體。如曹春萍和張政通過對基因本體、人類表型本體和疾病本體的內容和結構的分析,發現三者之間存在的關聯關系,進而實現本體融合的目的;李曉瑛等等通過復用UMLS和SNOMED CT中與腫瘤領域相關的概念及其關系,以名稱、病因、診斷、治療四個維度創建了腫瘤領域本體;Kahn采取半自動字符串匹配的方式,將孤兒罕見疾病本體與放射學領域本體相結合,強化了疾病與疾病影響因素之間的知識聯系;Naskar和Das采用本體編輯器Protégé,以MeSH和SNOMED CT為基礎本體,通過分面分析的方法創建了人類神經系統疾病本體;Laia Subirats等利用本體導入工具將現有醫學本體與疾病公共數據融合,并且結合了罕見疾病患者的場景信息,形成了罕見病患者的生物醫學本體。在理論層面,學者對本體融合的方法也進行了創新和改進,形成了可行的本體融合框架模型和工具方法。其中,在理論模型和框架構建方面,唐旭麗等提出了以情境本體為中心驅動的多元知識融合框架,并采用情境本體、藥物不良反應本體、人類疾病領域本體成功進行了融合實驗;王麗偉等以藥物領域本體為例,提出了多領域本體映射理論模型,實現了對本體信息的分類與聚合。在工具創建和技術方面,LI將形式概念分析(FCA)與Word2vec方法結合,提出了DeepFCA生物醫學本體匹配方法;Javier等基于Python語言開發了FOntCell模塊,該模塊通過匹配類標簽名稱以及結構化映射本體元素的方式以合并本體,并利用此方法對多個細胞本體進行融合,生成了綜合的細胞本體;Zhao等在形式概念分析方法的基礎上,擴大了本體映射范圍,提出了多本體映射的FCA-Map方法,并且通過對解剖學、大型生物醫學本體、疾病本體的相互匹配實驗,驗證了該方法的有效性。另外,呂剛等采用概念粒度計算和語義相似度計算方法實現了本體概念的分類,在保證本體映射準確性的前提下,提高了本體映射的效率。

經過多年的積累,可用的公共衛生領域本體數量和多樣性快速增加,也面臨著適用領域受限、建設周 期 長、語 義 關 系 兼 容 性 不 高 等 問 題,如 何 快 速響應突發公共衛生事件下的應急需求,形成涵蓋臨床醫學、流行病學、預防醫學等多個學科的交叉學科領域,同時探索概念和概念關系具有較高一致性的知識組織方式,值得研究。

綜上,通過本體融合可以較為全面地覆蓋相關領域的概念,為相關人員提供更為豐富和可靠的知識服務,是學術界共識。同時,由于傳統方法進行本體融合模型相對復雜、所需時間較長、成本較高,如何快速進行本體融合、適應突發公共衛生事件下的應急管理要求仍有待探討。因此,本文以疫情等突發公共衛生的本體快速融合和復用為目標,研究自動化的本體快速融合新方案,希望能夠降低本體融合的成本和時間,提高知識表示的一致性,為應急響應和政府決策提供支持,這對突發公共衛生事件決策和科學處置具有非常重要的意義。

3 本體融合方法與過程

在公共衛生領域中,僅靠單個本體難以為現實應用需求提供足夠的知識支撐,因而本體間存在大量相互映射、交叉引用的操作,造成知識冗余現象。為此,在應對重大突發公共衛生事件時,可以建立多本體之間的融合機制,基本思路是:首先對多個公共衛生領域本體進行結構的合并,在形式層面形成一個整體,隨后以概念語義融合為目標,對多本體進行兩兩融合,最終達到整體融合。

3.1 形式合并方法

Protégé是由美國Stanford University開發的免費開源的本體構建工具,已經成為國際通用的支持本體開發的工具。本文將采用Protégé5.5.0本體編輯工具中的本體導入功能(Ontology imports)和合并功能(Merge ontologies),對多源公共衛生領域本體進行形式合并,初步形成一個綜合本體,為語義融合打好基礎。

3.2 語義融合方法

Word2vec(word to vector)是2013年Google開源的詞向量算法和工具包。與其他同類型的詞嵌入方法相比,Word2vec會考慮上下文的語義關系進行計算,效果相對較好,不需要人工標注和復雜的特征工程,同時,維度較少,運行速度較快。此外,作為一種非監督學習技術,Word2vec可以把對文本內容的處理轉化為向量空間中的向量運算,通過計算向量空間上的相似度表示文本語義的相似度。該模型包含CBOW模型和Skip-gram模型,CBOW模型是借助上下文以達到預測當前詞語概率的目的,而Skip-gram模型則根據當前詞語對上下文的概率進行預測。由于Skip-gram模型在低頻詞匯處理方面更具優勢,因此本文將利用Word2vec算法中的Skipgram模型,對本體概念的相關文本進行相似度計算,在確定文本相似度的基礎上,明確本體中概念之間的相關性,并進一步通過語義關聯實現本體融合。其中,概念文本相似度計算的過程如下:

(1)概念語料獲取。以Medlineplus醫學百科為數據源,從中獲取相關本體中概念的定義,經過數據清洗之后,形成訓練語料數據集。

(2)進行數據預處理,并將處理后的分詞結果以txt類型文件導入Word2vec模型,使用Word2vec中的Skip-gram模型訓練語料,得到詞向量模型以及各個詞語在相應維度的向量表示。

(3)通過余弦距離計算分詞集合之間的語義相似度,計算公式為:

其中,u和v分別表示人類疾病本體和疫苗本體中兩個術語概念對應的定義分詞集合的詞向量,本文中語義相似度的取值范圍在[0,1],數值越大,概念定義的句子相似度越高,則術語概念之間的相關性越強。

在明確本體概念之間相關性的基礎上,本文采用Owlready2工具進行語義關聯。Owlready2是基于Python語言的面向本體的功能模塊,可以輕松訪問OWL本體中的內容,并且允許將本體的類、實例和屬性等元素等同于Python對象進行操作。此外,Owlready2支持對三元組(主體、屬性、對象)創建新的關系,通過為新的屬性定義域和范圍,實現不同主體和對象的語義關聯,最終達到多源本體語義融合的目的(見圖1)。

圖1 公共衛生領域多源本體融合過程

4 本體融合實驗

4.1 數據獲取

(1)醫學百科語料獲取。MedlinePlus醫學百科是美國國家醫學圖書館的一項服務,旨在為用戶提供易于理解且高質量的健康信息資源。由于該醫學百科網站詞條內容涉及了醫學名詞含義、藥物制劑、最新的治療方法、臨床試驗等眾多信息,且所有信息經過權威專家審查并定期更新,網站內容的全面性、權威性和時效性有所保障。因此,本文采用MedlinePlus醫學百科為數據來源,以相關醫學概念的定義條目和癥狀條目信息作為模型訓練的語料數據集,共計3552條數據。其中,定義條目信息為句子級別,癥狀條目信息為詞匯級別。

(2)本體數據資源獲取。重大突發公共衛生事件下風險決策的制定對專業知識的需求較高。公共衛生、預防醫學、傳染病救治等領域的專業知識有助于輔助決策者做好風險研判工作,其中,對人類疾病、癥狀和疫苗知識的掌握,將有助于降低決策的風險,達到服務疫情防控決策的目的。因此,為了快速構建綜合的公共衛生領域本體,實現相關科學知識的整合,本研究選取與公共衛生領域相關的三個本體作為數據源進行本體融合實驗,包括疫苗本體(Vaccine Ontology,VO)、人類疾病本體(Human Disease Ontology,DOID)以及癥狀本體(Symptom Ontology,SYMP)。這些本體均遵循開放生物醫學本體庫(OBO Foundry)指南,具有較高的權威性與準確性(本體具體情況見表1)。

表1 數據源本體相關情況

4.2 數據處理

(1)語料數據預處理。針對已獲取的英文概念定義條目數據,為減少對組合概念的切分,如黃熱?。▂ellow fever)等非獨立單詞構成的概念,本文首先根據本體中的所有概念構建自定義詞典以進行概念識別,為后續語義融合過程中相似度計算的準確性提供保障;隨后對語料按照空格進行切分,并通過加載停用詞表的方式,去除無關的詞語,此處本文使用SEO停用詞表(谷歌停用詞表),共計882個停用詞,整體完成對語料數據的預處理過程。

(2)本體預處理。在應對重大突發公共衛生事件時,對傳染病相關知識的需求頗為突出,因而本文借助Protégé5.5.0對三個數據源本體進行數據抽取。其中,在人類疾病本體中,抽取了與傳染病主題最為相關的細菌性傳染病和病毒性傳染病兩個大類,共計180個小類。在疫苗本體中,抽取了細菌疫苗和病毒疫苗兩個大類,共計203個小類。針對癥狀本體,根據原本體中注釋owl:deprecated為true的類,本文刪除了97個過時的類,剩余類全部采用,共計847個類匯總了處理之后的三個數據源本體的情況(見表2)。

表2 數據源本體相關情況(數據處理后)

(3)本體比較。各本體間的交叉引用十分頻繁,為開展融合提供了便捷。疫苗本體不僅擁有眾多疫苗領域的相關術語詞匯,而且包含很多其他現有本體交叉引用的術語。人類疾病本體將疾病術語與MeSH、ICD、NCI、SNOMED和OMIM等大型詞庫進行了廣泛的交叉映射,同時,也重用了眾多本體術語,在語義層面上整合了疾病與醫學詞匯。癥狀本體在開發過程中,與臨床癥狀和體征本體(CSSO)和癥狀監測本體(SSO)等其他術語本體實施了交叉引用(三個本體之間的部分交叉引用數據見表3)。

表3 數據源本體的交叉引用(部分)

通過對三個數據源本體的比較發現,三個本體均復用了其他本體中的概念,其中,疫苗本體復用346個其他本體,人類疾病本體重用術語來自175個不同本體,癥狀本體中的重用本體有172個。在三個本體中,共同引用的本體包括123個。

4.3 本體融合操作

本研究本體融合主要分為本體的形式合并和語義融合兩個過程。

4.3.1 本體形式合并

在本研究中將采用Protégé5.5.0本體編輯工具對三個公共衛生領域本體進行形式合并。

對于選定的三個公共衛生領域本體,借助Protégé中的本體導入功能(Ontology imports)將任意兩個本體導入第三個本體中,并利用合并功能(Merge ontologies),將三個本體進行合并。在該過程中,Protégé工具將自動完成概念的等價映射和等級映射,得到形式合并的綜合本體。

4.3.2 本體語義融合

(1)人類疾病本體與疫苗本體的語義融合。本研究進行概念語義相似度計算程序的環境為:Python3.7和Anaconda3。在實驗過程中,采用gensim函數庫中的Word2vec模型實現對醫學百科中相關概念的定義進行向量化處理,通過空間相似度的計算表示定義之間的語義相似度,從而進一步判斷概念之間的相關關系。

根據3.2介紹的主要算法思路進行實驗,本研究保留最大值作為概念語義相關性的判別。通過相似度計算,共有21對疾病疫苗概念具備相關關系(計算得到疾病疫苗概念定義的語義相似度結果見表4)。

表4 疾病疫苗概念定義的語義相似度(部分)

此外,對這些概念進行語義自動化關聯是必不可少的過程。本研究利用Owlready2工具包對疾病疫苗概念進行語義自動化關聯。根據疾病與疫苗之間預防和被預防的關系,通過新定義一個對象屬性hasForPrevent和逆屬性isPreventedBy,把疾病概念與疫苗概念構造相關關系。如黃熱病疫苗可用于防止黃熱病病毒感染,黃熱病可被黃熱病疫苗有效預防(見圖2)。

圖2 疾病概念與疫苗概念的相關關系(以黃熱病為例)

(2)人類疾病本體與癥狀本體的概念匹配。從醫學百科中獲取到的疾病相關的癥狀語料以詞匯的形式存在。本研究將癥狀語料與癥狀本體中的概念進行字面匹配,匹配成功后,借助Owlready2構造新的對象屬性has_Symptom將癥狀概念對應的ID值與疾病概念的ID值進行語義關聯。如黃熱病是一種由黃熱病病毒引起的病毒性傳染病,感染后具有發熱、頭痛、惡心、肌肉疼痛等癥狀(見圖3)。融合后形成了綜合本體相關數據(見表5)。

表5 融合后本體的度量指標數值

圖3 疾病概念與癥狀概念的相關關系(以黃熱病為例)

4.3.3 人工修正

通過實驗數據匯總得出本體的關聯數據(見表6)。其中,關于疫苗本體和人類疾病本體的關聯關系計算結果,共得出21對概念存在相關關系,存在18對概念與實際情況相符,3對概念存在計算不準確的情況,分別是tetanus與equine EEV and WEV encephalomyelitis vaccine-tetanus toxoid、Legionnaires'disease與Marek's disease virus vaccine、cholera與V.cholerae and E.coli vaccine,另有6對概念以人工鑒別的方式關聯起來,分別是chickenpox與Pox vaccine、hepatitis A與Hepatitis A virus vaccine、hepatitis B與Hepatitis B virus vaccine、rabies與Rabies virus vaccine、dengue disease與Dengue virus vaccine、Ebola hemorrhagic fever與Ebola virus vaccine。此外,關于人類疾病本體與癥狀本體間的概念匹配,由于在概念匹配的過程中未考慮同義詞的情況,導致與疾病概念存在實際關聯關系的2個癥狀概念未匹配成功,經過人工修正后,人類疾病本體共有89個概念與癥狀本體中的68個概念存在相關關系。最終的三個本體間數據的關聯結果(見表7)。

表6 本體的關聯數據

表7 多本體融合及關聯結果

為了評價多本體融合結果的質量,本文采用準確率、召回率和F值三個度量值來衡量。其中,準確率是計算得到的實際存在關聯關系的概念數目與計算得到的關聯關系數目總數的比率,召回率是計算得到的實際存在關聯關系的概念數目與總的實際存在關聯關系數目的比率,F值為準確率和召回率的調和平均值。

5 結論

通過對公共衛生領域多本體的融合,一方面以更加科學有效的方式對重大突發公共衛生事件的相關知識進行復用和整合,提高了公共衛生、傳染病防治領域的知識利用和共享,且融合形成的本體具有一定的準確性;另一方面半自動化的融合過程加快了本體融合的速度,為決策者對重大突發公共衛生風險作出及時、準確的研判與決策提供支持,提高疫情下各政府部門和機構的應急響應速度和效率。

本體融合過程還需進一步完善,由于領域知識的豐富性和交叉性,以及不斷地更新變化,難以一次性形成綜合完善的本體,需要不斷迭代修改、多輪次評價和長期維護。在后續研究中,需要對融合過程進行優化,更加深入和細化本體融合的步驟和方法,同時對融合形成的本體進行推理分析,得到隱含的知識內容,從而更好地為應急響應過程提供支持。

主站蜘蛛池模板: 91年精品国产福利线观看久久 | 手机在线国产精品| 日本久久网站| 亚洲精品国产综合99久久夜夜嗨| 亚洲欧美日本国产综合在线 | 午夜影院a级片| 在线免费观看AV| 99精品福利视频| 久青草网站| 中国美女**毛片录像在线| 色婷婷亚洲十月十月色天| 天天爽免费视频| 男人天堂伊人网| 欧美区一区| 四虎永久在线精品影院| a级毛片视频免费观看| 一级毛片免费观看久| 玩两个丰满老熟女久久网| 国产簧片免费在线播放| 亚洲第一区精品日韩在线播放| 欧美精品v欧洲精品| 亚洲色图欧美激情| 亚洲国产成人麻豆精品| 国产视频资源在线观看| 精品久久久久久成人AV| 国产欧美精品专区一区二区| 亚洲精品天堂自在久久77| 99热这里只有精品5| 全午夜免费一级毛片| 久久久精品国产SM调教网站| 欧美色综合网站| 国产色伊人| 国产亚洲精品精品精品| 亚洲成在人线av品善网好看| 国产精品微拍| 亚洲国产天堂久久综合226114| 欧美人在线一区二区三区| 中文字幕无线码一区| av在线无码浏览| 91香蕉视频下载网站| 国产精品污视频| 伊人色天堂| 全色黄大色大片免费久久老太| 国产玖玖玖精品视频| 丁香五月激情图片| 亚洲日韩高清在线亚洲专区| 国产在线观看91精品亚瑟| 国内精品91| 中文字幕不卡免费高清视频| 欧美激情,国产精品| 一级毛片免费播放视频| 国内自拍久第一页| 久久婷婷人人澡人人爱91| 尤物成AV人片在线观看| 99久久这里只精品麻豆| 天堂成人av| 乱人伦视频中文字幕在线| 波多野结衣无码AV在线| 精品久久综合1区2区3区激情| 伊人AV天堂| 99在线视频免费观看| 国产午夜精品鲁丝片| 日本黄色a视频| 国产男女免费视频| 天天做天天爱夜夜爽毛片毛片| 日韩欧美国产另类| 精品久久久久久中文字幕女| 国产欧美日韩免费| 国产精品福利一区二区久久| 久久久久免费精品国产| 国产在线精彩视频二区| 久久精品亚洲专区| 香蕉在线视频网站| 91九色国产porny| 小说 亚洲 无码 精品| 国产精品偷伦视频免费观看国产| 波多野结衣AV无码久久一区| 欧美一级高清视频在线播放| 成人欧美日韩| 人妻中文久热无码丝袜| 日韩黄色大片免费看| 五月婷婷丁香色|