999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于開(kāi)源平臺(tái)的醫(yī)學(xué)數(shù)據(jù)集成應(yīng)用與研究

2021-04-18 08:42:16李越飛李少云馮虎翼周凱欣周樂(lè)明
醫(yī)學(xué)信息 2021年7期
關(guān)鍵詞:數(shù)據(jù)庫(kù)

李越飛,李少云,馮虎翼,周凱欣,周樂(lè)明

(1.重慶市第五人民醫(yī)院大數(shù)據(jù)實(shí)驗(yàn)室,重慶 400062;2.中國(guó)科學(xué)院大學(xué)生命科學(xué)學(xué)院,北京 100049;3.重慶市衛(wèi)生健康統(tǒng)計(jì)信息中心大數(shù)據(jù)應(yīng)用發(fā)展部,重慶 401120)

隨著醫(yī)院信息系統(tǒng)在醫(yī)院信息化建設(shè)和現(xiàn)代化管理中的普及,海量增長(zhǎng)的醫(yī)療數(shù)據(jù)已經(jīng)成為了寶貴的科研資源。科學(xué)而有效的利用這些數(shù)據(jù),對(duì)于醫(yī)學(xué)研究和藥物研發(fā)等都是極其重要的方法和手段。然而,絕大多數(shù)醫(yī)院信息系統(tǒng)僅服務(wù)于醫(yī)院的診療流程,存在系統(tǒng)數(shù)據(jù)存儲(chǔ)和標(biāo)準(zhǔn)的不統(tǒng)一,質(zhì)量控制不完善等問(wèn)題。這使得醫(yī)院所有的業(yè)務(wù)系統(tǒng)數(shù)據(jù)集幾乎都無(wú)法達(dá)到“科研數(shù)據(jù)集”的標(biāo)準(zhǔn)[1]。基于醫(yī)院臨床數(shù)據(jù)構(gòu)建醫(yī)療大數(shù)據(jù)集成平臺(tái),形成健康醫(yī)療大數(shù)據(jù)的生態(tài)體系,進(jìn)一步發(fā)揮數(shù)據(jù)的資源優(yōu)勢(shì),已成為越來(lái)越多大型研究型醫(yī)院以及臨床專家的共識(shí)。然而,健康高效的醫(yī)療大數(shù)據(jù)科研生態(tài)體系的形成,需要大量的資金投入與長(zhǎng)時(shí)間持續(xù)的數(shù)據(jù)治理,這對(duì)于大部分中小型醫(yī)院不太現(xiàn)實(shí)。與此同時(shí),醫(yī)療科研需求越來(lái)越多。如果能快速有效的通過(guò)開(kāi)源數(shù)據(jù)集成工具,從面向醫(yī)療流程設(shè)計(jì)的數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)并轉(zhuǎn)換成科研數(shù)據(jù)集[1],將會(huì)使大部分中小型醫(yī)院獲益。數(shù)據(jù)集成的三個(gè)基本環(huán)節(jié):抽取(extract)、轉(zhuǎn)換(transform)、加載(load)簡(jiǎn)稱ETL[2]。抽取是將數(shù)據(jù)從已有的數(shù)據(jù)源中提取出來(lái),轉(zhuǎn)換是對(duì)原始數(shù)據(jù)進(jìn)行處理,加載是將數(shù)據(jù)寫(xiě)入目標(biāo)數(shù)據(jù)庫(kù)。開(kāi)源技術(shù)已經(jīng)成為整個(gè)互聯(lián)網(wǎng)時(shí)代的支撐技術(shù),其透明性、可控性、安全性及穩(wěn)定性深受業(yè)界青睞。采用開(kāi)源平臺(tái)及技術(shù)來(lái)實(shí)現(xiàn)數(shù)據(jù)ETL,能夠有效提升科研效率,節(jié)省科研經(jīng)費(fèi),具有可觀的應(yīng)用價(jià)值。本文結(jié)合重慶市第五人民醫(yī)院的醫(yī)療信息系統(tǒng)及中國(guó)科學(xué)院科技服務(wù)網(wǎng)絡(luò)計(jì)劃(STS)項(xiàng)目的數(shù)據(jù)需求為實(shí)例,總結(jié)運(yùn)用開(kāi)源平臺(tái)及技術(shù)實(shí)現(xiàn)從醫(yī)療數(shù)據(jù)集到科研數(shù)據(jù)集的轉(zhuǎn)換及清理,現(xiàn)報(bào)道如下。

1 系統(tǒng)設(shè)計(jì)及框架

1.1 系統(tǒng)現(xiàn)狀及需求分析 以“適配特定人群院內(nèi)醫(yī)療真實(shí)世界數(shù)據(jù)[3]”為例,需要提供以患者為導(dǎo)向的信息如下:①患者基本信息;②歷次發(fā)藥記錄、藥品目錄;③門(mén)診、住院醫(yī)囑、診斷情況;④病歷、手術(shù)記錄;⑤檢查、檢驗(yàn)項(xiàng)目結(jié)果。上述數(shù)據(jù)并非存儲(chǔ)在單一的系統(tǒng)里,而是分別存在醫(yī)院的患者體檢系統(tǒng)(PEIS)、電子病歷(EMR)和醫(yī)院信息系統(tǒng)(HIS)中。這些系統(tǒng)由不同的服務(wù)商提供,其數(shù)據(jù)存儲(chǔ)在不同的數(shù)據(jù)庫(kù)中,如PEIS 的數(shù)據(jù)存儲(chǔ)在SQL Server,EMR 的數(shù)據(jù)存儲(chǔ)在Oracle,HIS 的數(shù)據(jù)存儲(chǔ)在SybaseASE。從這些異構(gòu)數(shù)據(jù)庫(kù)提取所需數(shù)據(jù)的難點(diǎn)在于:①三個(gè)系統(tǒng)是醫(yī)院的主要業(yè)務(wù)系統(tǒng),數(shù)據(jù)量大,增量快,存儲(chǔ)在異構(gòu)數(shù)據(jù)庫(kù)中;②數(shù)據(jù)關(guān)系分散,單一數(shù)據(jù)庫(kù)查詢后再與其它數(shù)據(jù)合并需要繁瑣的關(guān)聯(lián)操作;③異構(gòu)數(shù)據(jù)庫(kù)如果沒(méi)有有效的數(shù)據(jù)集成處理,無(wú)法進(jìn)行統(tǒng)計(jì)和數(shù)據(jù)分析;④缺乏患者主索引(EMPI)[3],PEIS 的體檢數(shù)據(jù)與其它系統(tǒng)的患者信息沒(méi)有共有的唯一標(biāo)識(shí)符做關(guān)聯(lián)。集成這三個(gè)異構(gòu)數(shù)據(jù)庫(kù)中的數(shù)據(jù),并保證數(shù)據(jù)的持續(xù)增量,為科研數(shù)據(jù)需求提供優(yōu)質(zhì)數(shù)據(jù),是本次的研究目標(biāo)。

1.2 數(shù)據(jù)集成框架設(shè)計(jì) 鑒于以上難點(diǎn)和實(shí)例需求,本文醫(yī)學(xué)數(shù)據(jù)集成作業(yè)框架,見(jiàn)圖1,將實(shí)例需求拆分為具體的任務(wù):①異構(gòu)數(shù)據(jù)源同步;②任務(wù)執(zhí)行與調(diào)度;③數(shù)據(jù)清洗與整理;④數(shù)據(jù)視圖解釋;⑤數(shù)據(jù)探索及結(jié)果計(jì)算,以上具體作業(yè)抽支撐了對(duì)數(shù)據(jù)的存儲(chǔ)、歸納和分析[4]。

圖1 數(shù)據(jù)集成的作業(yè)流程

2 實(shí)現(xiàn)方法

2.1 異構(gòu)數(shù)據(jù)源同步 由于數(shù)據(jù)存儲(chǔ)在異構(gòu)數(shù)據(jù)庫(kù),數(shù)據(jù)的集成必須先以全量數(shù)據(jù)同步的方式進(jìn)行異構(gòu)數(shù)據(jù)整合。為滿足這一需求,采用DataX 來(lái)實(shí)現(xiàn)數(shù)據(jù)的同步。DataX 是阿里巴巴開(kāi)源的離線數(shù)據(jù)同步工具/平臺(tái),實(shí)現(xiàn)各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步。與被廣泛使用的數(shù)據(jù)集成工具PDI/Kettle 相比,DataX 設(shè)計(jì)的數(shù)據(jù)傳輸通道充當(dāng)了緩沖層,不光有多種流量控制模式可以選擇,還在限流的同時(shí)以各種策略支持任務(wù)的切分和并發(fā)。所以DataX 運(yùn)行時(shí)對(duì)源頭數(shù)據(jù)庫(kù)產(chǎn)生的壓力比較小,同時(shí)全量讀取速度優(yōu)于PDI/Kettle,并且能根據(jù)數(shù)據(jù)量進(jìn)行智能的性能調(diào)優(yōu),更加適合做數(shù)據(jù)同步工作。而后者則是擅長(zhǎng)做數(shù)據(jù)的清理和轉(zhuǎn)化等復(fù)雜任務(wù)。因而本研究將DataX 作為數(shù)據(jù)同步的首選方案。

本次數(shù)據(jù)同步流程圖見(jiàn)圖2。DataX 作為框架中的中樞模塊支撐,提供了數(shù)據(jù)的讀/寫(xiě)功能及同步工作所要求的所有配置規(guī)范,如基于JDBC 驅(qū)動(dòng)讀寫(xiě)的數(shù)據(jù)源、指定字段等,都可以在JSON 格式的配置文件上定義。當(dāng)一個(gè)同步工作開(kāi)始時(shí),以帶參數(shù)運(yùn)行的方式調(diào)用DataX 的Python 程序入口,讀入事先規(guī)定的JSON 文件配置片段,按照預(yù)先制定的流程來(lái)執(zhí)行同步任務(wù),便可將異構(gòu)數(shù)據(jù)源數(shù)據(jù)全量高效地同步到MySQL 數(shù)據(jù)庫(kù)。以HIS 中的發(fā)藥主表為例,當(dāng)每條記錄體積平均為633.8 kb 時(shí),平均同步速度達(dá)每秒11596 條,20 min 可完成13683325 條數(shù)據(jù)的同步。與之相比,相同條件下,PDI/Kettle 的同步任務(wù)速度最快僅能達(dá)到每秒2540 條,還會(huì)對(duì)源頭數(shù)據(jù)庫(kù)造成壓力。

圖2 數(shù)據(jù)同步流程

2.2 任務(wù)執(zhí)行與工作流調(diào)度 為了很好地組織起這樣的復(fù)雜執(zhí)行計(jì)劃,使數(shù)據(jù)能穩(wěn)定地進(jìn)行同步到目標(biāo)數(shù)據(jù)庫(kù)并能自動(dòng)進(jìn)行全局增量,需要一個(gè)工作流調(diào)度系統(tǒng)來(lái)調(diào)度執(zhí)行。目前開(kāi)源的主流數(shù)據(jù)調(diào)度平臺(tái) 有 Azkaban、Oozie、DolphinScheduler、Quartz、airflow、Zookeeper、XXL-Job 等,這些平臺(tái)都有各自不可替代的特性。在本研究應(yīng)用場(chǎng)景中,由LinkedIn開(kāi)源的Azkaban 批量工作流任務(wù)調(diào)度器既有便捷的部署優(yōu)勢(shì),又能在所構(gòu)造各種工作流內(nèi)以規(guī)定流程執(zhí)行任務(wù),這些特性能夠快速、清晰地組織起一系列DataX 數(shù)據(jù)同步任務(wù),達(dá)到數(shù)據(jù)增量更新的效果。本研究中的Azkaban 調(diào)度邏輯見(jiàn)圖3,Azkaban 平臺(tái)的兩個(gè)執(zhí)行器節(jié)點(diǎn)分別部署在不同位置的服務(wù)器上,調(diào)度平臺(tái)使用一組加權(quán)擇優(yōu)算法,根據(jù)節(jié)點(diǎn)當(dāng)前執(zhí)行任務(wù)數(shù)、CPU、內(nèi)存使用情況的綜合分析,判斷和選擇資源最優(yōu)的執(zhí)行器,保證執(zhí)行器的高度可用性。

圖3 Azkaban 工作流調(diào)度邏輯

2.3 數(shù)據(jù)整理與清洗 醫(yī)學(xué)數(shù)據(jù)挖掘工作中,事先常需要大量的觀察研究以便對(duì)數(shù)據(jù)進(jìn)行有效的整合和清洗。在本研究實(shí)例中,利用開(kāi)源可視化數(shù)據(jù)集成工具PDI/Kettle 的獨(dú)特優(yōu)勢(shì),簡(jiǎn)化了海量數(shù)據(jù)的管理,增加了處理數(shù)據(jù)的種類和速度。通過(guò)PDI/Kettle 的可視化編程來(lái)進(jìn)行字符串清理、字段清理、數(shù)據(jù)校驗(yàn)、排重等工作。如去除文本字段前后的空格、數(shù)字或標(biāo)點(diǎn)符號(hào);統(tǒng)一時(shí)間、日期、數(shù)字的格式;在字符串替換時(shí)引入正則表達(dá)式,結(jié)合字符切分等操作步驟,從各類診療文本中提取有用信息存入目標(biāo)數(shù)據(jù)庫(kù)的新字段里。

雖然PDI/Kettle 的字符串操作、字段選擇、過(guò)濾行等可視化編程控件提供了行之有效的工具,但是并不能完成所有清理工作。對(duì)于更加復(fù)雜的情況,基于效率和可操作性的考慮,本次并沒(méi)有使用PDI/Kettle 復(fù)雜的自定義模塊,而是使用易用性更高的Python 的數(shù)據(jù)分析包Pandas 來(lái)完成分類、智能數(shù)據(jù)對(duì)齊和局部去重等綜合整理。

本次對(duì)維度數(shù)據(jù)和度量數(shù)據(jù)兩類數(shù)據(jù)進(jìn)行清洗[5,6]。維度數(shù)據(jù)清洗包括患者個(gè)案信息在數(shù)據(jù)匹配過(guò)程中的必要清洗,以及對(duì)個(gè)體的行為在時(shí)間序列中的邏輯合理性判斷中所發(fā)現(xiàn)的異常數(shù)據(jù)進(jìn)行清洗。在此過(guò)程中,篩查和丟棄可信度低的數(shù)據(jù)。此外,清洗度量數(shù)據(jù)時(shí),對(duì)可以進(jìn)行數(shù)學(xué)計(jì)算的變量,如檢查檢驗(yàn)值、年齡等分布情況,進(jìn)行了一定的數(shù)據(jù)分析并剔除離群值。

2.4 數(shù)據(jù)視圖解釋 數(shù)據(jù)清理和集成后,臨床醫(yī)療服務(wù)數(shù)據(jù),包含實(shí)驗(yàn)室測(cè)試結(jié)果、處方、臨床資料、體檢記錄等組織在一起,形成以患者為中心的醫(yī)學(xué)科研數(shù)據(jù)。這些數(shù)據(jù)可實(shí)現(xiàn)自動(dòng)同步,也可以根據(jù)需求單獨(dú)對(duì)指定的數(shù)據(jù)表調(diào)整同步頻率和時(shí)間,獲取當(dāng)前最新數(shù)據(jù)。

本研究中,查詢獲得的科研數(shù)據(jù)集見(jiàn)圖4,在目標(biāo)數(shù)據(jù)源中集成了原本分散的醫(yī)療數(shù)據(jù),成功匹配個(gè)案35,971 個(gè),可以根據(jù)醫(yī)學(xué)研究需求自由組織“特定人群院內(nèi)真實(shí)世界醫(yī)療數(shù)據(jù)”,在一定程度上滿足了醫(yī)學(xué)科研對(duì)數(shù)據(jù)的需求及醫(yī)院現(xiàn)階段下臨床科研隊(duì)列的數(shù)據(jù)分析需要。

2.5 數(shù)據(jù)分析挖掘 對(duì)于“特定人群院內(nèi)真實(shí)世界醫(yī)療數(shù)據(jù)”中的“特定人群”,可以指定為研究組、對(duì)照組人員名單,也可以指定為使用某些藥物或者接受某種治療的患者。如本研究中的特定人群被規(guī)定為“使用胰島素、二甲雙胍、格列吡嗪、利格列汀等藥物的36 歲以下的患者”,組織他們的用藥頻次和血糖檢驗(yàn)數(shù)據(jù)。具體步驟如下:①查詢每種藥發(fā)藥記錄,編寫(xiě)Python 腳本,調(diào)用collections 模塊中Counter類的most_common()方法分別算出每個(gè)患者id 出現(xiàn)次數(shù),得到給藥頻次,回寫(xiě)進(jìn)數(shù)據(jù)庫(kù)臨時(shí)表;②以第一次發(fā)藥時(shí)間減去出生日期的方法判斷患者第一次取藥時(shí)的年齡;③橋接基本信息和血糖檢驗(yàn)值。這樣可從患者數(shù)據(jù)視圖出發(fā)進(jìn)行探索,實(shí)現(xiàn)了取出復(fù)雜條件下的科研個(gè)案隊(duì)列。

上述過(guò)程涉及到數(shù)據(jù)表中發(fā)藥明細(xì)表體積最大(1.7G),含發(fā)藥記錄27,804,621 條,通過(guò)依靠患者基本信息進(jìn)行數(shù)據(jù)集的初步篩選,可以有效縮短多表關(guān)聯(lián)時(shí)的查詢耗時(shí)。針對(duì)不同特征的查詢結(jié)果,用Pandas_profiling 探索分析或者按需尋找疾病、用藥、年齡等不同因素之間的關(guān)系,探索各變量間的相關(guān)性,檢查是否存在冗余。這種檢查的意義在于醫(yī)學(xué)數(shù)據(jù)科學(xué)中常會(huì)研究各種因素的相互作用,如藥品、治療方法和疾病之間的作用,如果變量之間相關(guān)性強(qiáng),統(tǒng)計(jì)建模時(shí)需剔除冗余的變量[5]。

3 關(guān)鍵技術(shù)問(wèn)題及解決方案

3.1 SybaseASE 的采集接口適配 DataX 沒(méi)有專用于SybaseASE 數(shù)據(jù)庫(kù)的插件,使用通用的關(guān)系型數(shù)據(jù)源讀取插件RDBMS_Reader 可實(shí)現(xiàn)DataX 從SybaseASE 數(shù)據(jù)庫(kù)的讀取。需要在其對(duì)應(yīng)配置中注冊(cè)SybaseASE 的JDBC 驅(qū)動(dòng)支持,并且為讀取插件使用驅(qū)動(dòng)時(shí)根據(jù)數(shù)據(jù)源正確指定正確字符集,如CP936。

圖4 實(shí)例數(shù)據(jù)串聯(lián)圖

3.2 開(kāi)源工具的組件依賴沖突 相比商用軟件,開(kāi)源工具在文檔說(shuō)明和技術(shù)服務(wù)等多個(gè)方面都存在不足之處。以本項(xiàng)目使用的開(kāi)源工具為例,Azkaban 官方并未提供安裝包,只能通過(guò)源碼編譯。這需要依賴如node.js、ant 等諸多環(huán)境以及項(xiàng)目自動(dòng)化構(gòu)建工具Gradle 來(lái)編譯Azkaban。使用Azkaban 工作流調(diào)度DataXJob 是實(shí)現(xiàn)數(shù)據(jù)自動(dòng)增量更新的關(guān)鍵所在,但Azkaban 平臺(tái)本身并不能直接運(yùn)行DataX 的Python 任務(wù)。所以通過(guò)利用在LinuxShell 讀寫(xiě)時(shí)間戳并運(yùn)行datax.py,根據(jù)目標(biāo)數(shù)據(jù)源情況選擇不同的DataX 配置判斷作全量或增量更新。在這個(gè)過(guò)程中,Azkaban 需要Python3 環(huán)境,而DataX 默認(rèn)了Python2,因此將Azkaban、DataX 放置在不同的Docker 容器中,利用容器化部署解決Python 版本沖突問(wèn)題。

3.3 確保數(shù)據(jù)匹配的精準(zhǔn)度 PEIS 數(shù)據(jù)庫(kù)的體檢記錄和其它兩個(gè)數(shù)據(jù)庫(kù)的患者記錄之間沒(méi)有共有的ID 關(guān)聯(lián),這給數(shù)據(jù)的關(guān)聯(lián)查詢帶來(lái)了一定的難度。為保證查詢結(jié)果的正確性,本研究按照EMPI 身份數(shù)據(jù)標(biāo)準(zhǔn)采用匹配專用字段,并選取多個(gè)用戶特征字段所建立的全面的關(guān)聯(lián)規(guī)則,來(lái)保證數(shù)據(jù)的匹配精準(zhǔn)度。匹配策略見(jiàn)圖5,身份證號(hào)、姓名、性別、和電話被選取為匹配策略的核心數(shù)據(jù)元素,而出生日期、家庭住址、工作單位等信息被選為輔助驗(yàn)證元素,根據(jù)匹配情況按需引入。這種策略的優(yōu)勢(shì)在于既不會(huì)丟失可能有用的個(gè)案數(shù)據(jù),同時(shí)提高了數(shù)據(jù)匹配的效率。具體策略如下:①核心元素全部一致即可判定的個(gè)案為同一患者;②如果僅有一個(gè)核心元素不一致的情況,輔助驗(yàn)證元素將被引入,用來(lái)進(jìn)一步判斷個(gè)案是否匹配。當(dāng)所有的輔助驗(yàn)證元素均能匹配時(shí),該個(gè)案被認(rèn)為是匹配的,反之則不匹配。單個(gè)核心元素的不一致有可能是在詢問(wèn)和錄入時(shí)由于輸入錯(cuò)誤所造成的。③當(dāng)不一致的核心元素超過(guò)一個(gè),遵循嚴(yán)格匹配的原則,該個(gè)案不能達(dá)到匹配條件。

圖5 患者個(gè)案匹配策略

4 應(yīng)用現(xiàn)狀

4.1 亟待解決的問(wèn)題 本研究使用開(kāi)源工具(平臺(tái))完成ETL,雖然開(kāi)源技術(shù)更加靈活自由,能夠?qū)崿F(xiàn)更多的個(gè)性化定制需求,也省略了許多商業(yè)活動(dòng)步驟,加快了知識(shí)轉(zhuǎn)化的速度,但并不能完全代替商業(yè)軟件,如可視化編程的PDI/Kettle 開(kāi)發(fā)過(guò)程比商業(yè)可視化編程工具的Informatica 開(kāi)發(fā)過(guò)程困難。除此之外,許多開(kāi)源工具不提供可視化操作界面,活用開(kāi)源工具通常需要一定的學(xué)習(xí)成本。數(shù)據(jù)清理過(guò)程中,異構(gòu)數(shù)據(jù)的某些維度因難以共享一致性而無(wú)法重新設(shè)計(jì),這正是由于缺乏能跨多個(gè)系統(tǒng)、設(shè)施的患者標(biāo)識(shí)造成的。

4.2 改進(jìn)對(duì)策和思路 對(duì)于開(kāi)源工具/平臺(tái)功能限制的問(wèn)題,可以通過(guò)靈活運(yùn)用多種開(kāi)源工具,相互補(bǔ)充以提升數(shù)據(jù)挖掘的效率,通過(guò)大數(shù)據(jù)工程師的設(shè)計(jì)、開(kāi)發(fā)、運(yùn)維能力來(lái)解決各種開(kāi)源框架在實(shí)際工作中相互配合時(shí)產(chǎn)生的報(bào)錯(cuò)和兼容性問(wèn)題。當(dāng)開(kāi)源軟件提供的功能不能滿足需要時(shí),可以通過(guò)二次開(kāi)發(fā)來(lái)拓展開(kāi)源軟件的功能,定制適用自身工作場(chǎng)景的插件。而對(duì)于相對(duì)簡(jiǎn)單的場(chǎng)景和需求,可以在不改變開(kāi)源軟件的情況下,通過(guò)手動(dòng)編寫(xiě)腳本的方式來(lái)解決。從而減少由于不必要的二次開(kāi)發(fā)帶來(lái)的工作量。根據(jù)需求和現(xiàn)有資源,購(gòu)入適當(dāng)規(guī)模的商業(yè)軟件,和開(kāi)源軟件協(xié)同工作,會(huì)有助于提高開(kāi)發(fā)和系統(tǒng)運(yùn)行的效率。對(duì)于數(shù)據(jù)一致性問(wèn)題,采取優(yōu)先確保在數(shù)據(jù)轉(zhuǎn)換和處理過(guò)程中醫(yī)生診斷、檢查、檢驗(yàn)、日期保持一致性的策略,以提高數(shù)據(jù)匹配和清理的準(zhǔn)確性和有效性。

5 總結(jié)

利用開(kāi)源的ETL 工具可實(shí)現(xiàn)醫(yī)療業(yè)務(wù)數(shù)據(jù)到科研數(shù)據(jù)集的轉(zhuǎn)化,在數(shù)據(jù)集成中進(jìn)行數(shù)據(jù)的匹配和清理,為科研課題的提供進(jìn)一步分析和研究提供了有效的查詢平臺(tái)。

猜你喜歡
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
兩種新的非確定數(shù)據(jù)庫(kù)上的Top-K查詢
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
主站蜘蛛池模板: 亚洲精品无码不卡在线播放| 亚洲国产欧美目韩成人综合| 国产一级视频在线观看网站| 国产精品人莉莉成在线播放| 欧美啪啪网| 亚洲v日韩v欧美在线观看| 亚洲精品第一在线观看视频| 亚洲人免费视频| 狠狠色香婷婷久久亚洲精品| 久久久久亚洲AV成人人电影软件| 日韩国产欧美精品在线| 欧美亚洲一区二区三区在线| 国产特级毛片aaaaaa| 国产在线视频自拍| 毛片网站观看| 国产自在线拍| 国内自拍久第一页| 国产精品女在线观看| 亚洲第一天堂无码专区| 最新国产午夜精品视频成人| 中文无码精品A∨在线观看不卡| 久久婷婷六月| 国产一区二区精品福利| www成人国产在线观看网站| 福利姬国产精品一区在线| 亚洲无码免费黄色网址| 国产成人免费视频精品一区二区 | 国产99视频免费精品是看6| 亚洲丝袜中文字幕| 精品国产aⅴ一区二区三区| 免费一级毛片在线播放傲雪网| 日韩精品无码免费专网站| 亚洲人成网站在线播放2019| 国产另类视频| 亚洲侵犯无码网址在线观看| 国产精品99久久久久久董美香| 国产一区二区视频在线| 色婷婷天天综合在线| 久久中文电影| av在线手机播放| 青青草原国产免费av观看| 国产v精品成人免费视频71pao| 欧美亚洲国产精品久久蜜芽| 日韩av在线直播| av大片在线无码免费| 国产一区二区三区精品久久呦| 中文字幕欧美日韩| 久久青草热| www.99在线观看| 久久人搡人人玩人妻精品| 精品视频在线观看你懂的一区| 在线视频97| 91亚洲视频下载| 亚洲一本大道在线| 99视频精品在线观看| 伊人激情久久综合中文字幕| 视频二区中文无码| 成年女人18毛片毛片免费| 国产高清在线精品一区二区三区| 91午夜福利在线观看精品| 波多野结衣第一页| 国产亚洲欧美日本一二三本道| 一级毛片免费观看久| 88国产经典欧美一区二区三区| 亚洲日韩精品无码专区| 91探花国产综合在线精品| 欧美中文字幕一区| 99热这里只有精品免费| 久久福利网| 999精品色在线观看| 亚洲国产综合精品一区| 爱做久久久久久| 巨熟乳波霸若妻中文观看免费 | 国产欧美网站| 国产精品综合色区在线观看| 亚洲女同一区二区| 日韩激情成人| 2021国产v亚洲v天堂无码| 婷婷综合在线观看丁香| 51国产偷自视频区视频手机观看| 一级毛片在线免费视频| 青青青国产精品国产精品美女|