999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SAS軟件開發的MedDRA自動編碼系統

2021-05-08 05:55:00東南大學公共衛生學院流行病與衛生統計系210009黃子陽王詩遠劉癸壬
中國衛生統計 2021年2期
關鍵詞:系統

東南大學公共衛生學院流行病與衛生統計系(210009) 黃子陽 王詩遠 劉癸壬 劉 沛

《國際醫學用語詞典》(medical dictionary for regulatory activities,MedDRA)是在人用藥物注冊技術要求國際協調理事會(international council for harmonization,ICH)主辦下編制的國際標準醫學術語集[1]。它被廣泛應用于對由藥品或醫療器械引起的不良事件的規范化表達。MedDRA的應用不僅使得衛生管理部門和制藥企業可以更方便地評估藥品或醫療器械的安全性,同時也有利于安全性數據的跨公司交換以及國際間的學術交流與合作。MedDRA12.1推出了中文版,中文版的推出為我國不良事件的規范化表達提供了技術支撐[2]。使用MedDRA官方提供的中文版桌面瀏覽器進行人工編碼時,需要將原始不良事件描述逐個輸入軟件中并手動選擇MedDRA編碼,過程繁瑣且易出錯。而若利用自動編碼系統減少MedDRA編碼過程中人工參與的程度,則可帶來十分可觀的收益[3]。雖然目前國內已有應用MedDRA對不良事件描述編碼的報道[4-6],但關于開發中文版MedDRA自動編碼系統的報告卻未見報道。

方 法

1.設計原理

在使用MedDRA桌面瀏覽器進行編碼時,我們發現,由于該軟件不支持批量編碼,因此只能通過手工將不良事件描述逐條輸入軟件。另外,該軟件在搜索匹配術語時采用單字匹配法,導致其精準度低,因此當搜索非標準不良事件描述時,匹配到的MedDRA術語雖然條數眾多,但包含正確匹配MedDRA術語的概率卻較低。在臨床試驗中,需要進行MedDRA編碼的不良事件數目往往很大,如果通過人工逐條輸入編碼并在眾多匹配結果中選擇,除工作量大之外,還十分容易發生匹配錯誤。為了解決這些實際問題,我們考慮將從MedDRA官網下載的包含全部MedDRA術語層級結構的ASCII文件導入SAS,在SAS中先使用SQL語句將標準的原始不良事件描述與相應MedDRA術語直接匹配;而對于那些非標準的原始不良事件描述,首先通過引入編輯距離算法計算其與各MedDRA術語的相似度,之后對相似度排序,從而以較大概率通過人工快速選出匹配的MedDRA術語。另外,根據“自動學習”理念,將每次人工選擇的結果保存于同義詞典中,當下次再遇到已選擇過的非標準不良事件描述時可以直接完成匹配,隨著同義詞典中儲存同義詞的增多,就可不斷提高該自動編碼系統匹配的效率。

2.SAS宏程序工作流程

按照前述原理,我們開發了一套基于SAS宏程序并引入了相似度計算的MedDRA自動編碼系統,SAS宏程序工作流程見圖1。

圖1 MedDRA自動編碼SAS宏程序工作流程

(1)首先判斷當前是否為初次使用該宏程序,若為初次使用,需在參數中指定用于生成MedDRA編碼詞典的ASCII文件所在路徑,宏程序會自動將所需的全部ASCII文件導入SAS,并合并為一個單獨的且具有完整MedDRA層級結構的SAS數據集,稱為MedDRA編碼詞典。

(2)之后判斷當前是否已存在MedDRA同義詞典,若存在則先根據同義詞典對原始不良事件描述進行同義詞替換,之后再與MedDRA編碼詞典中的LLT術語進行初次匹配;若不存在,則直接將原始不良事件描述與MedDRA編碼詞典中的LLT術語進行初次匹配。

(3)初次匹配完成后,通過SAS的PROC IML模塊調用R的stringdist包,對每個未完成初次匹配的非標準不良事件描述分別計算其與MedDRA編碼字典中各LLT術語的相似度,并保留相似度最高的若干個LLT術語作為對該非標準不良事件描述推薦選用的LLT術語;對于同時包含多個癥狀的非標準不良事件描述(如,將“感冒、咳嗽、發熱、流涕”作為一條不良事件描述),該宏程序可以自動對其進行分詞并分別計算每個癥狀描述與各LLT術語的相似度,從而實現更為精準的LLT術語推薦。計算完成后,將相似度計算結果輸出為EXCEL表格以進行人工編碼,編碼完成后自動將結果返回SAS。

(4)根據人工編碼結果進行第二次匹配。全部匹配完成后將每一原始不良事件描述及其對應的MedDRA標準術語(包括LLT、PT、HLT、HLGT、SOC及其各自對應的代碼)輸出到結果數據集中;最后利用MedDRA同義詞典記錄每次人工編碼的結果。

3.編輯距離算法及其實現

本自動編碼系統選用編輯距離(levenshtein distance,LD)算法計算非標準不良事件描述與LLT術語間的相似度。編輯距離算法作為常用的字符串相似度求解算法,具有應用廣泛、查找有效和時間復雜度較低等優勢[7]。編輯距離是指在兩個字符串之間,由一個字符串轉為另一個字符串所需要的最少編輯次數(可用的編輯操作包括替換一個字符、插入一個字符和刪除一個字符)。編輯距離相似度的計算公式為:

兩個字符串之間的編輯距離越小,其相似度越高;反之,相似度越低。

編輯距離算法可以通過R包stringdist中的stringsim函數實現。在SAS 9.4版本中,可以通過PROC IML模塊直接調用R包stringdist(需要先在本地R軟件中安裝該R包),代碼示例如下:

proc iml;

call ExportDataSetToR(“Target_MeaDRA”,“Target_MedDRA”);

call ExportDataSetToR(“SingleTerm”,“SingleTerm”);

%include “C:UserskynooDesktopMedDRAinclude.sas”;

call ImportDataSetFromR(“Single_Output”,“Single_Output”);

quit;

Call ExportDataSetToR語句可以將SAS數據集傳入R中;Call ImportDataSetFromR語句可以將R中的數據傳回SAS中;調用的目標R代碼需要放置于Submit塊中,由于SAS不允許將Submit塊直接置于宏中,所以需要先將Submit塊置于另一個SAS程序,之后在宏中通過%include命令對該SAS程序進行引用。SAS程序Include.sas即用于存放需要調用的R代碼和相應的Submit語句。

4.數據結構

本自動編碼系統由許多SAS數據集構成,在此介紹構成該系統的三個關鍵SAS數據集的結構。

(1)MedDRA編碼詞典:MedDRA術語集包含五級術語,分別為低位語(low level term,LLT)、首選語(preferred term,PT)、高位語(high level term,HLT)、高位組語(high level group term,HLGT)和系統器官分類(system organ class,SOC)。構成MedDRA編碼詞典的所有ASCII文件均可以從MedDRA官網下載。將這些文件導入SAS后利用SQL語句使其合并成為一個具有完整MedDRA層級結構的SAS數據集,即MedDRA編碼詞典。當MedDRA版本更新時,只需將舊版本的MedDRA編碼詞典刪除,之后重新導入新版本的ASCII文件即可完成本系統MedDRA編碼詞典的更新。該數據集結構如表1所示。

表1 MedDRA編碼詞典結構

由于一個PT術語通過不同的HLT術語或HLGT術語可以對應多個SOC術語,而其對應的主SOC只有一個,所以需要通過設置指示變量PRIMARY_SOC_FG標識該PT術語所對應的主SOC。該變量取值為”Y”時表示該SOC術語為當前PT術語的主SOC;取值為“N”時表示該SOC為當前PT術語的次SOC。本系統在進行匹配時自動選擇主SOC作為輸出結果。

(2)MedDRA人工編碼文件:此數據集用于存放未成功進行初次匹配的非標準不良事件描述、對該非標準不良事件描述推薦選用的LLT術語及相應的相似度。該數據集可通過SAS的X命令輸出為EXCEL文件以進行人工編碼,人工編碼完成后可直接將編碼結果重新讀入SAS,從而實現SAS與EXCEL、自動與人工編碼的無縫銜接[8]。該數據集結構如表2所示。

表2 MedDRA人工編碼文件結構

(3)MedDRA同義詞典:對于完成了人工匹配的非標準不良事件描述,其與最終選用LLT術語之間的對應關系將作為一對同義詞存入MedDRA同義詞典。該同義詞典同樣通過X命令輸出為EXCEL表格,在人工填寫GLOBALYN變量后重新讀入SAS并保存在永久邏輯庫中。若下次使用本系統進行編碼時再次遇到相同的非標準不良事件描述,則會直接根據MedDRA同義詞典進行自動編碼,無需再次進行人工匹配。這意味著本自動編碼系統具有“學習”功能。該數據集結構如表3所示。

表3 MedDRA同義詞典結構

該數據集中的GLOBALYN變量用于界定同義詞的適用范圍,若對于任意研究均適用,則填寫“Y”;若僅對本次研究適用,則填寫“N”。

實例應用

使用我們開發的MedDRA自動編碼系統對某疫苗隨機盲法安慰劑對照III期臨床試驗進行了實際應用。該臨床試驗共入組3000人,數據庫中不良事件描述共5553條。其中,第一針接種后8~28天癥狀/疾病1451條,第二針接種后8~28天癥狀/疾病812條;第一針接種后7天局部癥狀203條,全身癥狀1898條;第二針接種后7天局部癥狀125條,全身癥狀1064條。對于這5553條不良事件描述,若逐條進行人工MedDRA編碼,其工作量和復雜程度不言而喻。故選用該項目數據測試本自動編碼系統的性能,能夠較為真實的反映出本系統相較手工編碼所帶來的效率提升。

調用宏程序對該項目數據進行自動編碼的代碼如下:

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.AE1,AE_Var=FIRDIS,RecommendNum=5);

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.AE2,AE_Var=SECDIS,RecommendNum=5);

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.QS1,AE_Var=FIRSYS,RecommendNum=5);

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.QS2,AE_Var=SECSYS,RecommendNum=5);

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.JB1,AE_Var=FIRLOC,RecommendNum=5);

%Trans2MedDRA(StudyID=EV71,SubjectID=SUBSCNUM,AE_Dataset=ae.JB2,AE_Var=SECLOC,RecommendNum=5);

宏程序%Trans2MedDRA的參數StudyID用于指定研究項目編號,其作用是在調用MedDRA同義詞典時判斷非通用同義詞的可用性;參數SubjectID用于指定受試者唯一識別號變量;參數AE_Dataset用于指定需要進行自動編碼的目標數據集,即存放不良事件描述變量的數據集;參數AE_Var用于指定目標數據集中的不良事件描述變量;參數RecommendNum用于指定在輸出MedDRA人工編碼文件時,對每一條非標準不良事件描述所展示的推薦LLT術語數目,本例中指定推薦LLT術語數為5。受篇幅所限,本文僅以第一針接種后8~28天癥狀/疾病的部分不良事件編碼流程為例說明本宏程序的用法和性能。

在讀取原始數據并完成同義詞替換后,會首先對全部不良事件描述進行初次MedDRA術語匹配(精確匹配)。對于未能完成初次匹配的不良事件描述,逐條計算其與每條LLT術語的相似度。計算完成后輸出MedDRA人工編碼文件至EXCEL中,如表4-5所示(實際使用過程中所輸出的EXCEL表格還包含每條推薦LLT術語對應的各級PT-SOC術語,受篇幅所限此處不予展示)。

表4 MedDRA人工編碼文件(EXCEL)輸出結果示例1

如表4所示,對“心絞疼”這條非標準癥狀描述,在其對應的“推薦選用的LLT”列中可以找到相匹配的LLT術語“心絞痛”,其相似度為0.67,故在該條LLT術語右側的“處理(Y/N/MODIFY)”列中填寫“Y”,代表選用該條LLT術語。

如表5所示,對于“頭磕破”這條非標準癥狀描述,在其對應的“推薦選用的LLT”列中沒有發現相匹配的LLT術語,利用MedDRA官方桌面瀏覽器進行查詢并憑借臨床經驗可判斷“頭部損傷”為最匹配的LLT術語,故在“頭磕破”下方的“MODIFY_TERM”右側填寫“頭部損傷”,代表將LLT術語“頭部損傷”人工匹配給非標準癥狀描述“頭磕破”。

表5 MedDRA人工編碼文件(EXCEL)輸出結果示例2

本宏程序在MedDRA人工編碼文件填寫完成后會自動將填寫結果再次讀入SAS,并將成功完成人工匹配的非標準癥狀描述與標準LLT術語之間的對應關系保存至MedDRA同義詞典中。之后再將MedDRA同義詞典輸出至EXCEL文件如表6所示。

表6 MedDRA同義詞典(EXCEL)輸出結果

如表6所示,對于人工編碼的結果,需要逐條對其作為同義詞的適用范圍進行聲明。若某對同義詞僅適用于當前的研究,則在“是否為通用同義詞”列的相應位置填寫“N”;若某對同義詞適用于所有的研究,則在“是否為通用同義詞”列的相應位置填寫“Y”。至此,本宏程序需要人工操作的部分已全部完成。程序運行完畢后輸出包含輸入數據集中全部原始不良事件描述及其對應的各級MedDRA術語和代碼的結果數據集,該數據集包括LLT、PT、HLT、HLGT、SOC全部五級MedDRA術語及其相應的代碼。

實際應用顯示,在上述疫苗臨床試驗項目的5553條不良事件描述中,共5389條可以完成自動編碼,共164條非標準不良事件描述需要進行人工編碼;在人工編碼過程中,可以直接在推薦的5條LLT術語中找到匹配術語的有113條,推薦成功率為68.9%,僅51條需要進一步查詢MedDRA官方桌面瀏覽器。實際應用結果顯示,本系統可以大幅降低編碼人員的工作量,在顯著提升編碼效率的同時也降低了手工編碼可能導致的錯誤風險。

討 論

目前,MedDRA術語集已成為世界多個國家藥監機構推薦或強制使用的不良事件報告標準術語集[9]。本研究在系統分析MedDRA編碼原理的基礎上,針對使用MedDRA官方提供的中文版桌面瀏覽器進行人工編碼過程中存在的工作量大、復雜程度高等問題,通過將MedDRA官網下載的包含全部MedDRA術語層級結構的ASCII文件導入SAS,使用SAS SQL語句將標準的原始不良事件描述與相應MedDRA術語匹配,并引入編輯距離算法計算非標準原始不良事件與MedDRA術語的相似度。在保留原始不良事件描述的前提下,通過編寫SAS宏程序,實現了原始不良事件描述在MedDRA五個層級術語(LLT低位語、PT首選語、HLT高位語、HLGT高位語組、SOC系統器官分類)下的自動編碼。

MedDRA桌面瀏覽器內置的模糊匹配算法只能按單個漢字拆分后進行簡單匹配,搜索結果中僅展示包含搜索詞全部漢字的候選MedDRA術語集合,如輸入“心絞痛”時,會匹配到同時包含“心”、“絞”、“痛”三個字的全部MedDRA術語;而當輸入“心絞疼”時,因MedDRA術語庫中并無同時包含“心”、“絞”、“疼”這三個字的術語,故無法搜索到所需結果。本系統在進行模糊匹配時引入了相似度的概念,而不局限于僅列出包含輸入不良事件描述全部漢字的結果,從而在原理上對原系統對漢字的識別功能進行了改進。通過將原始不良事件描述與相應MedDRA術語之間的相似程度量化,進而選取相似度較高的MedDRA術語推薦給編碼人員,便于編碼人員快速鎖定目標MedDRA術語。

本研究通過引入編輯距離算法部分解決了MedDRA桌面瀏覽器內置模糊匹配算法精準度較低的問題,并且隨著同義詞典中同義詞的積累,可不斷提高本自動編碼系統的匹配效率,使得本系統具備了一定的自動學習功能。但本系統尚存在一些不足之處,如非標準不良事件描述“變態反應”與LLT術語“超敏反應”在語義上十分接近,但計算出的相似度卻較低,究其原因,是因為本系統所選用的編輯距離算法只能計算兩字符串的字面相似度,無法考慮到語義上的相似情況。當使用本系統完成足夠多的MedDRA編碼任務后,可以利用自然語言處理(natural langunge processing,NLP)技術對先前積累的數據進行深度學習,從而在計算非標準不良事件描述與MedDRA術語之間的相似度時,可以同時考慮其在字面和語義上的關系。詞匯的語義相似度計算正是當前人工智能研究的熱點之一,在信息檢索、自然語言處理、推薦系統等領域已有成功應用[10],這是今后進一步完善本系統需要研究的方向。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 热re99久久精品国99热| 露脸真实国语乱在线观看| 女人av社区男人的天堂| 欧美啪啪精品| 亚洲精品高清视频| 无码有码中文字幕| 国产乱人免费视频| 日韩一级二级三级| 性视频一区| 欧美三级视频在线播放| 在线看免费无码av天堂的| 亚洲欧美色中文字幕| 亚洲精品国偷自产在线91正片| 国产精品久久久久久久久久98| 久久精品无码国产一区二区三区| 日本成人福利视频| 91小视频在线| 久久综合一个色综合网| 91热爆在线| 亚洲天堂777| 性做久久久久久久免费看| 在线视频亚洲色图| 东京热一区二区三区无码视频| 久久人人97超碰人人澡爱香蕉| 手机精品视频在线观看免费| 久久无码高潮喷水| 亚洲第一香蕉视频| 国内熟女少妇一线天| 午夜毛片免费观看视频 | 最新国产高清在线| 亚洲人成网站日本片| 精品偷拍一区二区| 色综合成人| 综合色天天| 亚洲综合香蕉| 国产成a人片在线播放| 在线不卡免费视频| 九九香蕉视频| 激情综合婷婷丁香五月尤物| 婷婷午夜天| 二级毛片免费观看全程| 无码人妻免费| 欧美天天干| 热思思久久免费视频| 国产在线一区视频| 亚洲无线观看| 国产在线精品99一区不卡| 91亚洲视频下载| 国产18页| 激情爆乳一区二区| 男人天堂伊人网| 免费a级毛片视频| 天天综合网亚洲网站| 精品国产美女福到在线不卡f| 性做久久久久久久免费看| 日韩AV无码免费一二三区| 亚洲精品老司机| 青青热久免费精品视频6| 99久久精品国产综合婷婷| 欧美色图第一页| 中国国产A一级毛片| 97se综合| 久久久久人妻一区精品色奶水| 性69交片免费看| 国产视频只有无码精品| 中文字幕在线看视频一区二区三区| 亚洲色图欧美| 91精品国产福利| 五月六月伊人狠狠丁香网| 在线观看亚洲精品福利片| 伊人天堂网| 91精品国产自产在线观看| 欧美国产日韩在线| 高清久久精品亚洲日韩Av| 国产日韩欧美中文| 曰韩人妻一区二区三区| a级毛片毛片免费观看久潮| av一区二区人妻无码| 亚洲综合一区国产精品| 国产女人在线观看| 国产日韩欧美精品区性色| AV不卡国产在线观看|