999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學知識標注體系設計與系統構建

2023-12-06 12:47:30馬鶴桐王序文沈柳李姣
中國衛生標準管理 2023年21期
關鍵詞:語義體系用戶

馬鶴桐 王序文 沈柳 李姣

醫學數據中包含著海量待挖掘的有價值的數據,是重要的醫學戰略資源[1]。基于深度學習的模型能夠大幅發揮其優勢。該類模型需要標注好的數據進行大規模訓練,因此,對于醫學知識標注體系的設計和標注系統的需求不言自明。標注體系是規范化的標簽體系,是醫學知識標注的基礎,是實體標注的底層支撐,是文本挖掘、命名實體識別的基礎。完善的醫學知識標注體系能夠在更廣、更深的層次上輔助大規模訓練與文本挖掘。醫學標注系統應能夠最大限度支持標注體系,并提供對于標簽體系的結構管理與可視化呈現。目前,在標注體系方面有較多參考,如一體化醫學語言系統(unified medical language system, UMLS),其涵蓋127 個語義類型,但對于標注來說負擔較大。而在標注的過程中,大多采用自行定義的方式完成標注體系的構建,缺少可參考且較為全面但不復雜的標注體系。因此,在對醫學知識標簽體系深入了解的基礎上,提出一種輔助標注的醫學知識標注體系以解決醫學知識標注體系缺乏的問題。同時,對當前較有影響力、較好口碑的若干標注系統進行了調研,發現其并不能實現用戶所需的全部標注功能,歸納為以下幾類問題:(1)標注體系并不能支持其結構化和可視化,無法最大限度輔助標注人員進行標注任務。(2)支持基于詞表、字典的自動標注功能較為有限,包括頻繁上傳失敗、無法對失敗原因進行提示與評估或無法進行自動標注。(3)無法對當前的已有詞表進行自定義裁剪與輔助標注。(4)可視化界面無法做到與用戶友好交互,如用戶對于界面的調整、用戶上傳待標注文本后對文本的編輯操作。(5)無法支持用戶定制導出標注內容。(6)標注體系設計不足且缺乏可借鑒的體系。以上問題顯示當前的標注系統無法滿足現有醫學知識標注需求,因此亟須構建醫學知識標注體系與系統構建。本研究在梳理業務需求、完善背景調研的基礎上,厘清了醫學知識標注系統開發與管理所涉及的流程與關鍵方法,并給出該系統支持醫學知識標注與系統開發的設計方案。

1 醫學知識標注體系構建

呈指數型增長的醫學文本數據涵蓋了大量知識,其類型包括臨床數據、文獻數據、電子病歷、臨床敘述等[2],其特點表現為多維度、非結構化,且包含大量語義類型和有價值的信息[3-5]。各種智能技術、算法及數據挖掘方法可以從中提取重要知識以支持臨床決策[6-7]。而擁有大量有價值信息的自由文本,只有通過標注轉化為結構化數據,才能得到很好的應用。因此,醫學知識標注是獲得高質量標注數據的前提,是智能技術應用的關鍵[8-9]。大規模協作眾包下的醫學知識標注不僅能為數據科學家提供訓練數據,更是能夠將標注完成的數據集作為金標準以評價數據挖掘算法的穩定性。因此,構建一套較為全面的、較有代表性的知識標注標簽體系尤為重要,該體系能夠幫助數據科學家及行業科研人員快速地明確標注內容,并為接下來的標注任務提供語義基礎,標簽體系本身也能夠輔助數據查詢與快速定位[10-11]。

1.1 醫學知識標注體系框架

醫學知識標注體系構建的目的在于幫助醫學從業人員、標注人員、科研人員快速完成醫學文本內容的分類及輔助標注,從而使得醫學文本中的大量信息能夠為機器識別與利用,實現醫學數據的深度挖掘。本框架設置主要從醫學文本的信息量、醫學內容分類及臨床醫學從業人員的需求角度出發,參考一體化醫學語言系統UMLS[12],設置8 個類別,20 個二級類目,40 個三級類目。頂層類別包括物種、基因或基因組、化學物質及藥物、設備、解剖結構、異常、生理學及操作。其中,解剖學包括解剖結構、身體位置或部位、器官或組成部分、身體空間或連接處、身體物質、身體系統、細胞、細胞成分、胚胎成分、完全形成的解剖結構及組織。化學物質及藥物包括氨基酸、肽或蛋白質、抗生素、生物活性物質、生物醫學或牙科材料、碳水化合物序列、化學制品、功能分類化學物質、結構分類化學物質、臨床藥物、元素、離子或放射性核素、酶、危險或有毒物質、激素、免疫物質、指示劑試劑或診斷輔助、無機化學物質、核算核苷或核苷酸、有機化學藥品、藥理性物質、受體、維生素。

圖1 醫學知識標注體系框架圖

2 標注系統構建

2.1 業務需求分析

參考國內已有標簽體系構建方法[1],結合實際需求及國內外已有知識標注體系設計,以及行業標注系統建設要求,醫學知識標注系統的業務需求主要包括流程標準化需求、數據字典標準化需求、語義映射需求、標注管理需求、人員管理需求等方面。

2.1.1 流程標準化需求

醫學知識標注過程包括文本上傳、人員添加、任務分配、自動標注、人工標注、人工審核、版本控制等流程,內容多以文本為主,涵蓋大量信息及細節。在知識標注的過程中,需要對標注的流程進行詳細設計,否則容易引發數據沖突。圖2 為本知識標注系統流程圖,其中內嵌詞表為系統提供的數據字典以輔助用戶完成知識標注。

圖2 醫學知識標注系統流程圖

圖3 系統框架設計圖

2.1.2 數據字典標準化需求

在健康信息層面,國家持續推出數據類標準,為數據互通實現協同操作的可能[13]。然而,對于醫學知識標注系統中的數據字典尚無標準可以進行數據管理,不同的出版方發布的數據字典格式有所差異,不同的科研人員自行構建的數據字典也是多源異構且在格式上有所不同。不同的數據字典無法通過統一的抽取方式來完成數據的識別與利用,因此需要對數據格式、數據內容及關系進行統一管理與設計,規范標準化數據字典的構建。

2.1.3 語義映射需求

為用戶標注方便,系統提供內嵌的數據字典。然而一個數據字典并不能滿足不同用戶針對不同需求的知識標注需要。在某些情況下,多個細分的語義類型都可以被歸并為某一類待標注的類別。對于數據字典已經體現出來的語義關系,用戶無需費時再次自行標注,只需利用數據字典本身的屬性即可。因此,語義映射是完成用戶最終定制化標注需要的無法避免的中間一環。系統應能提供根據數據字典對已定義的語義類型進行語義映射的功能,并賦予用戶對數據字典進行語義類型歸并和篩選的權限。

2.1.4 標注可視化綜合需求

在標注過程中,系統應提供統一標準化的標注流程,賦予不同角色不同的標注權限,并設置標注入口。對于自動標注和人工標注流程予以區分,標注內容包含大量信息與細節,需要對不同的語義類型加以區分的同時,完成對標注內容增刪查改的功能,實現手工標注界面,自動標注界面、標注校對界面的統一化呈現。

2.1.5 人員管理需求

知識標注過程最終是人工操作的過程。因此,對于人員的添加、分配應滿足統一化的處理,但同時保留靈活選擇、分配的權限。在知識標注過程中,不同的場景對應不同的人員標注模式。因此,通過3 種不同標注模式來滿足不同場景下的標注的同時,賦予不同的人員相應的權限。3種標注模式分別為獨立標注模式、協同標注模式和獨立協同標注模式。

2.2 用戶分析

主要對項目管理者、標注人員、標注專家、系統管理員4 類用戶進行分析。表1 提供了這4 類用戶的實際權限。其中,項目管理員可以進行人員管理、項目管理、標注審核、數據字典的使用以及標注流程的使用。而標注人員只能完成標注任務,可以進行數據字典的使用,但沒有其他權限。標注專家在標注人員的基礎上可以完成標注審核的任務。系統管理員則可以有所有任務的權限。

表1 用戶權限分析表

2.3 系統框架設計

醫學知識標注系統設計模塊層、應用層、解析層以及數據層。其中,模塊層包括系統設計的五大模塊,分別為項目模塊、文檔模塊、任務模塊、審核模塊及操作模塊。應用層涉及用戶所有的操作內容,包括創建項目、上傳文檔、任務分配、數據審核、數據導出等操作。解析層用于所有數據的解析,不同的數據使用不同的解析器,包括網頁解析器、詞表解析器、協議解析器、接口解析器和文檔解析器。數據層負責存放及調取系統所有的數據,包括詞表數據庫、語義數據庫、文檔數據庫、映射數據庫、標注數據庫以及人員數據庫。其中,詞表數據庫存放系統內嵌的詞表以及用戶上傳的詞表數據,語義數據庫存放用戶自定義的語義類型數據庫以及內嵌詞表涵蓋的語義類型數據庫,文檔數據庫包括用戶上傳的文檔數據,映射數據庫涵蓋用戶從內嵌詞表或上傳詞表映射到自定義語義類型的數據,標注數據庫包括所有標注的數據信息,人員數據庫涵蓋系統所有人員角色,包括系統管理員、標注人員、專家及超級管理員。

3 系統功能設計

3.1 資源管理

主要實現數據資源的管理,包括日志管理,語義類型管理、映射表管理和數據字典管理4 個部分。其中日志管理主要實現對系統中用戶的所有操作的保存,以便快速定位及解決問題。語義類型管理主要實現待標注的語義類型的確定,以便輔助完成醫學知識的標注。映射表管理主要實現自動預標注中從數據字典到待標注語義類型的映射管理,從而精準地利用數據字典完成標注任務。數據字典管理主要實現自動標注任務,通過數據字典中自帶的內容和語義類型完成自動標注,從而降低人工知識標注的成本。

3.2 流程管理

主要實現各類內容流程的管理,包括項目管理、登錄管理、文檔管理、人員管理、任務管理、權限管理等內容。其中,項目管理主要實現項目的新建、修改、刪除及查詢任務,并輔以相應權限。登錄管理主要實現用戶的登錄,登錄形式分為兩種,管理員采用郵箱登錄,標注人員采用URL 登錄。文檔管理主要實現待標注文檔的上傳、存儲、下載及呈現等功能以及標注完成后的相應信息的管理。系統應提供多種方式上傳文件,包括不同格式,文件導入、單個上傳、批量上傳或壓縮包上傳。標注完成后,應為用戶提供相應的信息以便隨時導出使用。人員管理主要實現標注人員的添加、修改、刪除,標注任務的人員分配,以及相應的標注入口的提供。系統應存儲所有人員的一應信息。任務管理主要實現新建標注任務、結束標注任務、分配標注任務等功能。系統應能實時展示當前任務的狀態及進程。權限管理主要實現不同用戶角色的權限管理,包括系統管理員、項目管理員、標注人員、標注專家。

3.3 標注管理

主要實現標注相關的內容管理,包括標注狀態管理、預標注狀態管理、標注內容管理等內容。其中,標注狀態管理主要實現當前標注狀態的切換及操作。開啟標注時,系統默認狀態為標注中,用戶標注完成后可手動切換為標注完成。預標注狀態管理主要呈現當前自動標注的狀態。自動標注的狀態包括自動標注中、自動預標完成及自動預標隱藏。標注內容管理主要實現標注內容的展示與管理。標注內容包括預標注內容與手工標注內容。

3.4 可視化管理

主要實現界面呈現的管理,包括雙語支持、統計分析、內容查詢3 個部分。其中,雙語支持主要實現系統的中英雙語的界面切換。其中,中文界面提供中文標注功能(圖4),英文界面提供英文標注功能,兩份界面功能完全一致,但提供雙語支持。統計分析主要實現標注完成后的標注內容的統計分析,包括標注數量、標注語義類型、標注人員、標注準確率、標注召回率、標注F1 值等。內容查詢主要實現標注內容的查詢,包括標注文檔、標注人員、標注類型、標注時間、審核人員、標注信息等。

4 結語

醫學知識標注體系設計及標注系統是醫學數據類信息標注現有標準的重要補充及參考資源。其中,醫學知識標注體系可以幫助實現醫學知識標簽設計的快速實現,是醫學知識標注的重要基礎。醫學知識標注系統通過提供標準化的標注流程、便捷的功能支持和交互友好的操作界面的同時,融入醫學知識標注體系提供更高效的標注手段,降低了實現醫學知識標注的時間成本、人力成本,降低了醫學知識標注的設計及實現難度,提升了操作便易性和流程的流暢性,為醫學知識標注提供了強有力的技術及知識基礎。系統使用之初,可能有不完善之處,將在后續的版本中不斷更新完善。

猜你喜歡
語義體系用戶
構建體系,舉一反三
語言與語義
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
“曲線運動”知識體系和方法指導
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 一边摸一边做爽的视频17国产| 免费女人18毛片a级毛片视频| 国产精品9| 无码不卡的中文字幕视频| 欧美日韩综合网| 国产精品亚欧美一区二区| 欧美一区福利| 国模极品一区二区三区| 国产一区免费在线观看| 免费无码网站| 国产成人亚洲综合A∨在线播放| 91无码视频在线观看| 亚洲色无码专线精品观看| 国产成人精品优优av| 91精品国产综合久久香蕉922| 麻豆精品视频在线原创| 青草精品视频| 爽爽影院十八禁在线观看| 香蕉国产精品视频| 精品91视频| 精品91在线| 波多野结衣在线一区二区| 亚洲综合九九| 亚洲va在线∨a天堂va欧美va| 久操线在视频在线观看| 亚洲一区二区黄色| 国产精品视频a| 真人免费一级毛片一区二区| 国产日韩欧美中文| 亚洲中文无码av永久伊人| 色窝窝免费一区二区三区 | 欧美一区二区啪啪| 亚洲最大福利网站| 国产精品欧美激情| 国产无人区一区二区三区 | 亚洲品质国产精品无码| 欧美日韩理论| 女人爽到高潮免费视频大全| 亚洲欧美一区在线| 视频一本大道香蕉久在线播放| A级毛片无码久久精品免费| 久久福利片| 国产嫖妓91东北老熟女久久一| 成人毛片免费观看| 久久国语对白| 伊人婷婷色香五月综合缴缴情| 成人无码区免费视频网站蜜臀| 国产迷奸在线看| 一级福利视频| 国产SUV精品一区二区6| 免费看美女自慰的网站| 伊人中文网| 中国毛片网| 亚洲精品另类| 亚洲熟女中文字幕男人总站| 亚洲精品福利视频| 九九精品在线观看| 午夜啪啪福利| 国产99精品久久| 成人午夜视频在线| 亚洲男人天堂网址| 欧美亚洲中文精品三区| 亚洲天堂啪啪| 欧美狠狠干| a级毛片免费网站| 国产午夜小视频| 无码'专区第一页| 青青青亚洲精品国产| 成人在线亚洲| 国产精品性| 99精品在线看| 98超碰在线观看| 成人久久18免费网站| 国产成人精品综合| 亚洲人成电影在线播放| 国产后式a一视频| a毛片基地免费大全| 亚洲av综合网| 57pao国产成视频免费播放| 国产精品理论片| 国产在线无码一区二区三区| 久久久久久高潮白浆|