










摘 要:
醫(yī)學(xué)領(lǐng)域的電子健康檔案(electronic health records,EHR)數(shù)據(jù)涵蓋了大量寶貴的生物醫(yī)學(xué)知識(shí),為醫(yī)療數(shù)據(jù)分析提供了重要的資源。然而,隱私保護(hù)和數(shù)據(jù)共享的限制成為研究的主要瓶頸,阻礙了數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用和發(fā)展,為應(yīng)對(duì)這些挑戰(zhàn),研究者探索使用生成式建模來(lái)生成EHR數(shù)據(jù)。首先介紹并概括了擴(kuò)散模型的起源與發(fā)展;深入探討了現(xiàn)有擴(kuò)散模型的各種方法,對(duì)不同方法進(jìn)行了詳細(xì)分析;列舉并對(duì)比了各種生成式建模方法在EHR數(shù)據(jù)生成中的應(yīng)用效果,重點(diǎn)分析了擴(kuò)散模型的優(yōu)勢(shì)和局限性。最后,總結(jié)了擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域的應(yīng)用現(xiàn)狀,討論了當(dāng)前研究的局限性并展望了擴(kuò)散模型在該領(lǐng)域的未來(lái)發(fā)展方向。
關(guān)鍵詞:擴(kuò)散模型;數(shù)據(jù)生成;電子健康檔案;生成式模型
中圖分類(lèi)號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2024)12-001-3521-12
doi: 10.19734/j.issn.1001-3695.2024.04.0122
Research on electronic health record data generation for diffusion models
Wei Bolun, Zhang Xiankun
(College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China)
Abstract:
Electronic health records (EHR) data in the medical field contain a wealth of valuable biomedical knowledge and provide a crucial resource for healthcare data analysis. However, privacy protection and data sharing constraints have become significant bottlenecks for researchers, hindering the application and development of data analysis and machine learning techniques in healthcare. To address these challenges, researchers have been exploring the use of generative modeling methods to generate EHR data. Firstly, this paper introduced and summarized the origins and evolution of diffusion models. Next, it delved into various existing diffusion model methods, providing a detailed analysis of each approach. Then it listed and compared different generative modeling methods applied in EHR data generation, emphasized the advantages and limitations of diffusion models. Finally, it summarized the current applications of diffusion models in EHR data generation, discussed the limitations of current research, and presented an outlook on the future development and application of diffusion models in this field.
Key words:diffusion models; data generation; electronic health records; generative models
0 引言
對(duì)患者進(jìn)行身體各項(xiàng)指標(biāo)的重復(fù)測(cè)量和追蹤,進(jìn)而匯總成該患者的電子健康檔案(EHR),其數(shù)據(jù)包括疾病演變、生物醫(yī)學(xué)、患者個(gè)人隱私等重要信息。大量的EHR數(shù)據(jù)為開(kāi)發(fā)最先進(jìn)的計(jì)算生物醫(yī)學(xué)方法奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),如用于動(dòng)態(tài)疾病治療[1]、可區(qū)分自動(dòng)診斷[2]、生物醫(yī)學(xué)方面自然語(yǔ)言處理任務(wù)[3]等。
然而,真實(shí)的EHR數(shù)據(jù)多數(shù)包含患者的個(gè)人敏感信息以及其他重要隱私信息,涉及到患者的隱私保護(hù)問(wèn)題,這使得基于海量EHR數(shù)據(jù)進(jìn)行的數(shù)據(jù)分析工作和在醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)研究發(fā)展緩慢且有限[4]。傳統(tǒng)的數(shù)據(jù)匿名方法非常煩瑣且成本高昂,其數(shù)據(jù)加密方法可能會(huì)扭曲真實(shí)數(shù)據(jù)集的重要特征,從而顯著降低數(shù)據(jù)的使用效果[5],并且在數(shù)據(jù)敏感信息加密時(shí),即使過(guò)程符合現(xiàn)有標(biāo)準(zhǔn)也容易受到隱私攻擊[6]。
合成EHR數(shù)據(jù)為在醫(yī)療領(lǐng)域的數(shù)據(jù)分析、數(shù)據(jù)共享等技術(shù)的發(fā)展提供了新的可能[7]。合成EHR數(shù)據(jù)應(yīng)該著重關(guān)注兩個(gè)關(guān)鍵屬性:合成數(shù)據(jù)的高保真度(即在下游任務(wù)使用時(shí)有與真實(shí)數(shù)據(jù)相同的效果);具有隱私保護(hù)特性(即使用合成數(shù)據(jù)不會(huì)泄露真實(shí)患者的任何信息)。在合成EHR數(shù)據(jù)方面,各種生成模型的研究分別取得了不同程度的進(jìn)展[8]。現(xiàn)有的合成EHR數(shù)據(jù)的算法主要采用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[9]、自編碼器(autoencoder,AE)[10]或者兩者相互組合的變體。盡管這些方法在合成高質(zhì)量的EHR數(shù)據(jù)和隱私保護(hù)方面取得了較為理想的實(shí)驗(yàn)成果,但它們面臨著模式崩潰和訓(xùn)練不穩(wěn)定的問(wèn)題。部分研究者提出不同的技術(shù)來(lái)解決這些問(wèn)題,但面對(duì)復(fù)雜的真實(shí)EHR數(shù)據(jù),現(xiàn)有的模型生成效果并不理想。近年來(lái),一種名為擴(kuò)散模型的生成式建模被提出,并迅速在文本[11]、音頻[12]、計(jì)算機(jī)視覺(jué)[13,14]等領(lǐng)域表現(xiàn)了較好的生成性能。隨著擴(kuò)散模型被進(jìn)一步深入研究,其生成內(nèi)容在質(zhì)量和多樣性方面逐漸超越了GAN和自編碼器的性能。擴(kuò)散模型相較于GAN有著易于訓(xùn)練和易于處理的優(yōu)點(diǎn),與自回歸模型相比生成速度較快。一般來(lái)說(shuō),擴(kuò)散模型從隨機(jī)噪聲特征開(kāi)始,使用經(jīng)過(guò)訓(xùn)練的去噪模型逐漸去除特征中的噪聲,最終生成與真實(shí)數(shù)據(jù)分布相同的合成特征。截止到2024年3月,近15年在Web of Science上以denoising diffusion models為關(guān)鍵詞的文獻(xiàn)量總體呈逐年上升趨勢(shì)(圖1),并且擴(kuò)散模型被應(yīng)用的學(xué)科領(lǐng)域廣泛,在Web of Science上可查詢(xún)到擴(kuò)散模型在各個(gè)領(lǐng)域的應(yīng)用取前15(圖2)。這些數(shù)據(jù)反映了對(duì)擴(kuò)散模型研究的火熱程度,同時(shí)也說(shuō)明了該模型在人工智能等多個(gè)領(lǐng)域的重要性。
1 擴(kuò)散模型提出與發(fā)展
1.1 擴(kuò)散模型提出
擴(kuò)散概率模型(diffusion probabilistic model,DPM)于2015年被Sohl-Dickstein等人[15]首次提出,旨在消除訓(xùn)練圖像上連續(xù)應(yīng)用的高斯噪聲,可將其視為一系列的去噪自編碼器。其主要思路是:a)定義一個(gè)馬爾可夫鏈作正向過(guò)程,將一種數(shù)據(jù)分布不斷地加噪聲逐步轉(zhuǎn)換為另一個(gè)噪聲分布(如高斯分布)[16];b)反向擴(kuò)散過(guò)程,通過(guò)學(xué)習(xí)恢復(fù)數(shù)據(jù)原始分布的過(guò)程得到一個(gè)高度靈活且可以精確采樣和評(píng)估概率的生成模型。反向擴(kuò)散過(guò)程中的每一步都可以解析計(jì)算,因此整個(gè)鏈條也可以解析評(píng)估。學(xué)習(xí)只需估計(jì)反向過(guò)程中對(duì)擴(kuò)散過(guò)程的小擾動(dòng),之后從初始結(jié)果中將估計(jì)出的噪聲減去,從而在理論上可以得到干凈的圖片。
該方法借鑒了非平衡統(tǒng)計(jì)物理學(xué)的思想[17],采用準(zhǔn)靜態(tài)過(guò)程來(lái)訓(xùn)練逆向擴(kuò)散過(guò)程,并與正向過(guò)程共享相同的函數(shù)形式,易于學(xué)習(xí)。相比傳統(tǒng)方法,這種模型能靈活捕獲任意分布的數(shù)據(jù),同時(shí)具備可訓(xùn)練性、精確采樣和評(píng)估的優(yōu)勢(shì)。最初只在簡(jiǎn)單數(shù)據(jù)集上驗(yàn)證,其在復(fù)雜場(chǎng)景中的應(yīng)用和計(jì)算成本問(wèn)題仍需進(jìn)一步探索。
1.2 擴(kuò)散模型發(fā)展
1.2.1 去噪擴(kuò)散模型的發(fā)展
自擴(kuò)散概率模型在2015年被首次提出,現(xiàn)已成為最先進(jìn)的深度生成模型之一,它打破了生成對(duì)抗網(wǎng)絡(luò)(GAN)[18]在圖像合成領(lǐng)域中的長(zhǎng)期主導(dǎo)地位。但早期擴(kuò)散概率模型的研究進(jìn)展有限,直到2020年去噪概率擴(kuò)散模型(denoising diffusion probabilistic model,DDPM)[19]的提出,使得擴(kuò)散模型在圖像生成任務(wù)中變成主流,現(xiàn)在擴(kuò)散模型通常指的就是DDPM。
DDPM使用兩個(gè)馬爾可夫鏈,一個(gè)是將數(shù)據(jù)擾動(dòng)為高斯噪聲的正向鏈,一個(gè)是將噪聲轉(zhuǎn)換為目標(biāo)數(shù)據(jù)的反向鏈。正向鏈通過(guò)手工設(shè)計(jì)將任何數(shù)據(jù)分布轉(zhuǎn)換為簡(jiǎn)單的先驗(yàn)分布(通常是高斯分布),反向鏈通過(guò)深度神經(jīng)網(wǎng)絡(luò)參數(shù)化的轉(zhuǎn)換核來(lái)逆轉(zhuǎn)正向鏈,隨后從先驗(yàn)分布中采樣來(lái)生成新的數(shù)據(jù)。同年,提出去噪擴(kuò)散隱式模型(denoising diffusion implicit model,DDIM)[20],DDIM與DDPM有著相同的訓(xùn)練目標(biāo),相比于需要較長(zhǎng)正向擴(kuò)散步數(shù)的DDPM,DDIM通過(guò)減少采樣步數(shù)、不局限于正向擴(kuò)散過(guò)程必須是一個(gè)馬爾可夫鏈加速了生成過(guò)程。
2021年提出了余弦噪聲調(diào)度[21]對(duì)DDPM進(jìn)行改進(jìn),改變了添加噪聲的schedule,相比線(xiàn)性調(diào)度提升了高分辨率圖像的生成質(zhì)量,并大幅加速了采樣速度。盡管這些改進(jìn)提高了模型性能,模型在低分辨率圖像生成任務(wù)中的表現(xiàn)仍需進(jìn)一步優(yōu)化,與其他模型(如VAE和流模型)相比也還有待全面評(píng)估。
1.2.2 基于分?jǐn)?shù)的生成模型的發(fā)展
2019年,Song等人[22]提出了基于分?jǐn)?shù)的生成模型(score-based generative model,SGM),通過(guò)學(xué)習(xí)數(shù)據(jù)分布的對(duì)數(shù)梯度(score)來(lái)生成數(shù)據(jù)而不是直接學(xué)習(xí)數(shù)據(jù)分布。通過(guò)分布的score function可以得到分布的梯度,再沿著學(xué)習(xí)到的梯度逐步逼近目標(biāo)數(shù)據(jù);利用朗之萬(wàn)動(dòng)力學(xué)迭代[23,24]逐漸降低噪聲水平,最終生成與目標(biāo)分布相同的數(shù)據(jù)。由于SGM同樣也有改變?cè)肼晱?qiáng)度的加噪過(guò)程,其中的朗之萬(wàn)動(dòng)力學(xué)退火相當(dāng)于DDPM中的采樣去噪過(guò)程,兩者還可以通過(guò)隨機(jī)微分方程進(jìn)行統(tǒng)一,統(tǒng)一后DDPM的噪聲預(yù)測(cè)網(wǎng)絡(luò)和SGM的梯度計(jì)算網(wǎng)絡(luò)可等價(jià)替換[14]。
2021年,文獻(xiàn)[25]首次提出在擴(kuò)散模型中使用分類(lèi)器引導(dǎo)擴(kuò)散,通過(guò)額外訓(xùn)練的分類(lèi)器計(jì)算梯度來(lái)指導(dǎo)模型生成圖像,使U-Net模型在生成過(guò)程中更好地接近目標(biāo)圖像。此外,該研究受GAN實(shí)驗(yàn)的啟發(fā),還通過(guò)消融實(shí)驗(yàn)優(yōu)化了模型架構(gòu)。
2022年提出了可以不訓(xùn)練分類(lèi)器而是使用生成模型自己來(lái)做擴(kuò)散的引導(dǎo)[26]。通過(guò)訓(xùn)練有條件和無(wú)條件的擴(kuò)散模型,在采樣時(shí)混合兩個(gè)模型的score估計(jì)來(lái)實(shí)現(xiàn)樣本質(zhì)量和多樣性之間的平衡,最終輸出為有條件生成減去無(wú)條件生成的結(jié)果,達(dá)到類(lèi)似分類(lèi)器引導(dǎo)的效果。
1.2.3 擴(kuò)散模型的統(tǒng)一
目前的擴(kuò)散模型是diffusion model和score-based model兩類(lèi)算法的統(tǒng)稱(chēng)。從擴(kuò)散模型在2015年被提出到后來(lái)的diffusion model和score-based model,可以看作是早期兩個(gè)獨(dú)立發(fā)展的算法方向,后來(lái)逐漸融合統(tǒng)一為擴(kuò)散模型,并在生成模型領(lǐng)域作出了重要貢獻(xiàn)。
基于分?jǐn)?shù)的生成模型[22]重點(diǎn)解決高維數(shù)據(jù)訓(xùn)練中的擴(kuò)展性問(wèn)題,提出了切片分?jǐn)?shù)匹配方法,盡管取得了進(jìn)展,模型仍無(wú)法生成高質(zhì)量樣本。擴(kuò)散概率模型通過(guò)學(xué)習(xí)變分解碼器逆轉(zhuǎn)數(shù)據(jù)擾動(dòng)過(guò)程,生成新樣本,并通過(guò)證據(jù)下界(ELBO)進(jìn)行訓(xùn)練。這種方法與基于分?jǐn)?shù)的模型使用score matching訓(xùn)練和Langevin采樣生成樣本具有等價(jià)性。DDPM解釋了這種關(guān)系:訓(xùn)練DPM的ELBO本質(zhì)上等同于基于分?jǐn)?shù)模型的加權(quán)score matching目標(biāo)。使用類(lèi)似于基于分?jǐn)?shù)模型的U-Net結(jié)構(gòu),DPM能夠生成媲美甚至超越GAN的高質(zhì)量圖像樣本[14]。
Song等人進(jìn)一步深入研究了DDPM和SGM之間的相關(guān)性,發(fā)現(xiàn)兩者的采樣方法可以結(jié)合從而構(gòu)建出Predictor-Corrector samplers。更重要的是當(dāng)可變?cè)肼晱?qiáng)度的噪聲擾動(dòng)擴(kuò)展到無(wú)窮個(gè)尺度的噪聲,便可以得出DDPM和SGM都是由score function決定的隨機(jī)微分方程(SDE)的離散形式,從此兩者得到了統(tǒng)一。下文將分別介紹DDPM和SGM以及兩者連續(xù)時(shí)間擴(kuò)散的SDE。
經(jīng)過(guò)之前的發(fā)展,已經(jīng)將擴(kuò)散模型的性能優(yōu)化到了可以超越同期的GAN和VAE等模型的水平。后續(xù)OpenAI又提出了在GLIDE[27]基礎(chǔ)上改進(jìn)的DALL-E2[28],將擴(kuò)散模型引入到了更為廣泛的視野中,并引發(fā)了圖片生成領(lǐng)域各類(lèi)性能較好的模型出現(xiàn)。Google公司的研究人員提出了Imagen[29]以及Imagen2,Stability AI提出了Stable Diffusion[30],以及廣受關(guān)注的Midjourney[31]。
如今,擴(kuò)散模型已經(jīng)在圖像生成領(lǐng)域占據(jù)長(zhǎng)期主導(dǎo)地位[32],并且應(yīng)用于多個(gè)重要領(lǐng)域如計(jì)算機(jī)視覺(jué)[33,34]、時(shí)態(tài)數(shù)據(jù)建模[35,36]、魯棒機(jī)器學(xué)習(xí)[37]以及跨學(xué)科的計(jì)算化學(xué)[38,39]和醫(yī)學(xué)圖像重建[40,41]等。
2 擴(kuò)散模型的原理及數(shù)學(xué)實(shí)現(xiàn)
擴(kuò)散模型發(fā)展至今有三種主要的形式,分別是去噪擴(kuò)散概率模型(DDPM)[15,19]、基于分?jǐn)?shù)的生成模型(SGM)[22,32]和隨機(jī)微分方程(stochastic differential equation, SDE)[14,42]。
2.1 去噪擴(kuò)散概率模型(DDPM)
2.1.1 正向過(guò)程
DDPM中,原始數(shù)據(jù)及其分布用x0~q(x0)表示,正向過(guò)程中,前向馬爾可夫過(guò)程生成的一系列加噪時(shí)的隨機(jī)變量序列x1,x2,…,xT的轉(zhuǎn)換核為q(xt|xt-1)。根據(jù)概率鏈?zhǔn)椒▌t以及馬爾可夫性質(zhì),可以分解x1,x2,…,xT在x0條件下的聯(lián)合概率密度q(x1,…,xT|x0),分解后表達(dá)為
已知,就可已知反向SDE和ODE,隨后便可通過(guò)其他數(shù)值求解技術(shù)生成新樣本,如退火朗之萬(wàn)動(dòng)力學(xué)[22]、數(shù)值SDE求解器[14,50]、數(shù)值ODE求解器[14,20,42,51,53]。與SGM估計(jì)得分函數(shù)一樣,可以創(chuàng)造一個(gè)與時(shí)間相關(guān)的評(píng)分模型sθ(xt,t),通過(guò)分?jǐn)?shù)匹配來(lái)估計(jì)評(píng)分函數(shù),得到目標(biāo)函數(shù):
3 擴(kuò)散模型在EHR數(shù)據(jù)生成中的應(yīng)用
近年來(lái)擴(kuò)散模型推動(dòng)了數(shù)據(jù)生成領(lǐng)域的發(fā)展并逐漸應(yīng)用于各領(lǐng)域,本文著重探討擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域的研究。
獲取具有統(tǒng)計(jì)性和臨床代表性的患者健康數(shù)據(jù)對(duì)于推進(jìn)疾病診療研究、提升患者護(hù)理和開(kāi)發(fā)新型藥物具有巨大潛力。然而,電子健康記錄中含有敏感信息,數(shù)據(jù)共享會(huì)帶來(lái)隱私問(wèn)題,并且EHR數(shù)據(jù)獲取成本高、時(shí)間長(zhǎng)、樣本有限[54,55]。使用生成模型生成合成數(shù)據(jù)是一種有效的解決方案,能夠減輕這些風(fēng)險(xiǎn)。
真實(shí)的EHR數(shù)據(jù)包含患者敏感的私人信息,在使用或公開(kāi)前需要進(jìn)行去識(shí)別化[56,57],在此過(guò)程中需要進(jìn)行加密并且需要煩瑣嚴(yán)格的人工審查。另外由于法律和道德限制,其發(fā)布也需要數(shù)月時(shí)間[58],這嚴(yán)重阻礙了精準(zhǔn)醫(yī)學(xué)方法研究的進(jìn)步。于是研究者將目光轉(zhuǎn)向如何生成高質(zhì)量的EHR合成數(shù)據(jù),各類(lèi)生成模型被投入在該領(lǐng)域中并取得了不錯(cuò)的成果。近年來(lái)興起的擴(kuò)散模型[4,59~63]具有高效的生成效率,在某些方面的評(píng)價(jià)可超越一些經(jīng)典的生成式模型,如變分自編碼器(variational autoencoder,VAE)[64,65]、生成對(duì)抗網(wǎng)絡(luò)(GAN)[8,9,66~68]及兩者的各種組合及變式[69]。
3.1 擴(kuò)散模型生成不同類(lèi)型EHR數(shù)據(jù)
EHR數(shù)據(jù)常見(jiàn)類(lèi)型包括表格數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、圖像數(shù)據(jù)和非結(jié)構(gòu)化文本數(shù)據(jù)。近年來(lái),生成建模主要應(yīng)用于表格數(shù)據(jù)和時(shí)間序列數(shù)據(jù),兩者都以唯一的病人身份ID標(biāo)識(shí)數(shù)據(jù)(如圖5、6所示)。在圖5(a)~(c)分別表示表格數(shù)據(jù)常見(jiàn)的三種類(lèi)型:離散表格數(shù)據(jù)、連續(xù)表格數(shù)據(jù)和分類(lèi)表格數(shù)據(jù)。離散表格數(shù)據(jù)一般包括病人每月看診次數(shù)、病人年齡、收縮壓、ICD編碼等具有多個(gè)不連續(xù)可能值的數(shù)據(jù),最開(kāi)始引入擴(kuò)散模型的數(shù)據(jù)類(lèi)型就是離散表格數(shù)據(jù)的生成[59]。連續(xù)表格數(shù)據(jù)一般包括用藥記錄、血液、尿檢等檢查記錄,患者的部分醫(yī)學(xué)影像數(shù)據(jù)等檢查結(jié)果也可以用連續(xù)表格數(shù)據(jù)按照時(shí)間、部位和結(jié)果等信息進(jìn)行記錄。由于連續(xù)數(shù)據(jù)的時(shí)序特性,在進(jìn)行實(shí)際操作時(shí)有部分不同于離散表格數(shù)據(jù)的數(shù)據(jù)預(yù)處理方式。分類(lèi)表格數(shù)據(jù)是表示起來(lái)最簡(jiǎn)單的EHR數(shù)據(jù),一般包括性別、國(guó)籍、膚色、是否患某病等基本信息。在進(jìn)行數(shù)據(jù)生成時(shí),雖然其是有限數(shù)量個(gè)分類(lèi),但與其他信息有著強(qiáng)關(guān)聯(lián)性,所以分類(lèi)表格數(shù)據(jù)的生成任務(wù)也是一大難點(diǎn)。
時(shí)間序列數(shù)據(jù)依然會(huì)包括連續(xù)數(shù)據(jù)、離散數(shù)據(jù)和分類(lèi)數(shù)據(jù),但由于其時(shí)序特性,其數(shù)據(jù)表現(xiàn)形式有所不同。如圖6所示,其中,的每一張表格代表一個(gè)人的EHR數(shù)據(jù),表中的第二、三列是連續(xù)時(shí)序數(shù)據(jù),第四、五列是分類(lèi)時(shí)序數(shù)據(jù)和離散時(shí)序數(shù)據(jù);中將數(shù)據(jù)按照時(shí)間表示為更為方便處理的形式,為EHR數(shù)據(jù)生成提供了新的思路。
3.2 EHR數(shù)據(jù)生成任務(wù)的挑戰(zhàn)與困難
由于隱私和安全問(wèn)題,大部分EHR數(shù)據(jù)限制了醫(yī)學(xué)信息挖掘和機(jī)器學(xué)習(xí)任務(wù)的發(fā)展。一些研究者轉(zhuǎn)而關(guān)注生成與原始數(shù)據(jù)分布相同且具備隱私保護(hù)的合成數(shù)據(jù)。通過(guò)生成模型學(xué)習(xí)原始數(shù)據(jù)的高維分布,訓(xùn)練生成具有相同分布的合成數(shù)據(jù),從而避免隱私問(wèn)題。圖7展示了EHR數(shù)據(jù)生成的步驟:a)對(duì)原始數(shù)據(jù)進(jìn)行逆行去識(shí)別化處理,保護(hù)數(shù)據(jù)隱私,并將處理后的數(shù)據(jù)通過(guò)公開(kāi)數(shù)據(jù)庫(kù)供研究者使用,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等;b)將處理好的數(shù)據(jù)用于訓(xùn)練適合的生成模型,以生成EHR數(shù)據(jù),本文主要探討使用各類(lèi)擴(kuò)散模型進(jìn)行EHR數(shù)據(jù)生成;c)對(duì)生成的數(shù)據(jù)進(jìn)行隱私性評(píng)價(jià),確保生成的合成數(shù)據(jù)符合安全隱私標(biāo)準(zhǔn)。
早期EHR數(shù)據(jù)生成缺乏規(guī)范步驟,研究者多關(guān)注離散代碼特征如ICD編碼,而較少生成臨床敘述的表格、時(shí)序、圖像和非結(jié)構(gòu)化文本數(shù)據(jù)。例如Buczak等人[72]的方法主要針對(duì)特定疾病生成EHR數(shù)據(jù),靈活性差且易泄露隱私。Walonoski等人[67]開(kāi)發(fā)的Synthea軟件涵蓋了20種常見(jiàn)情況,但數(shù)據(jù)類(lèi)型仍不夠豐富。引入機(jī)器學(xué)習(xí)模型后,GAN生成高質(zhì)量醫(yī)學(xué)數(shù)據(jù)但常遇到模式崩潰問(wèn)題,只能生成部分?jǐn)?shù)據(jù)分布。為解決此問(wèn)題,研究者結(jié)合自編碼器減少特征維度,但參數(shù)不當(dāng)會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量下降和維度特征丟失。
總的來(lái)說(shuō),在引入擴(kuò)散模型到EHR數(shù)據(jù)生成領(lǐng)域之前,該領(lǐng)域相較于其他數(shù)據(jù)生成任務(wù)存在以下問(wèn)題:
a)數(shù)據(jù)類(lèi)型單一,生成數(shù)據(jù)僅限于某類(lèi)疾病或編碼,疾病類(lèi)型不夠多樣化;
b)隱私安全性不足,生成數(shù)據(jù)與原始數(shù)據(jù)高度相關(guān),無(wú)法確保合成數(shù)據(jù)獨(dú)立且具有相同分布;
c)模型性能問(wèn)題,現(xiàn)有模型泛化能力和魯棒性不足,生成性能較差;
d)數(shù)據(jù)格式復(fù)雜,EHR數(shù)據(jù)格式多樣且復(fù)雜,導(dǎo)致生成工作難以取得突破;
e)數(shù)據(jù)質(zhì)量不統(tǒng)一,缺乏有效的評(píng)價(jià)標(biāo)準(zhǔn),無(wú)法保證生成數(shù)據(jù)質(zhì)量。
3.3 擴(kuò)散模型應(yīng)用于EHR數(shù)據(jù)生成
由于EHR數(shù)據(jù)的使用法規(guī)和隱私問(wèn)題,限制了研究中真實(shí)EHR數(shù)據(jù)的使用。機(jī)器學(xué)習(xí)模型需要大量多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,生成模型如GAN和VAE在EHR數(shù)據(jù)生成中快速發(fā)展。近年來(lái),擴(kuò)散模型因其強(qiáng)生成能力引起關(guān)注,但尚未在EHR數(shù)據(jù)生成領(lǐng)域建立統(tǒng)一評(píng)價(jià)體系[73]。本節(jié)介紹了近年來(lái)基于擴(kuò)散模型的EHR數(shù)據(jù)生成任務(wù)及其改進(jìn)模型,表1列出了常用的評(píng)價(jià)標(biāo)準(zhǔn)。
3.3.1 MedDiff
He等人[59]首次成功將擴(kuò)散模型應(yīng)用于EHR數(shù)據(jù)生成,并將模型命名為MedDiff。該模型經(jīng)過(guò)調(diào)試可以生成高質(zhì)量、穩(wěn)健的樣本,并且通過(guò)安德森加速提升了模型的生成速度,MedDiff生成樣本的質(zhì)量?jī)?yōu)于基于GAN的方法。
MedDiff采用改進(jìn)的U-Net架構(gòu),包括更深更寬的模型、位置嵌入、殘差塊用于上采樣和下采樣,以及重新縮放的殘差連接。傳統(tǒng)的DDPM適用于圖像和音頻生成,但在一維信號(hào)中效果有限[25],通過(guò)改進(jìn)U-Net架構(gòu)以適應(yīng)一維結(jié)構(gòu)的數(shù)據(jù)。為每一個(gè)患者生成一個(gè)向量,MedDiff可以很好地捕獲相鄰特征的相關(guān)性。該模型的基本架構(gòu)是基于擴(kuò)散模型改進(jìn)的DDIM過(guò)程[20],其正向過(guò)程是將原始的EHR真實(shí)數(shù)據(jù)x0逐步加入噪聲,最后轉(zhuǎn)變?yōu)橥耆辉肼暩采w的樣本xT;其反向過(guò)程通過(guò)訓(xùn)練后的生成器網(wǎng)絡(luò)來(lái)反向推斷樣本,通過(guò)預(yù)測(cè)出的噪聲從xT中逐步去除噪聲,最后還原到類(lèi)似于原始樣本。
MedDiff模型訓(xùn)練過(guò)程中采用DDPM的重構(gòu)誤差最小化目標(biāo),并通過(guò)反向傳播優(yōu)化生成器網(wǎng)絡(luò)參數(shù)。在采樣過(guò)程中,使用安德森加速算法通過(guò)線(xiàn)性組合近K步迭代結(jié)果來(lái)提高采樣效率。評(píng)價(jià)標(biāo)準(zhǔn)包括維度分布概率、相關(guān)系數(shù)和絕對(duì)誤差以及密度估計(jì)方法來(lái)評(píng)估有條件生成樣本的分布匹配度。研究中與其他生成模型如MedGAN、CorGAN和DDPM進(jìn)行了比較,結(jié)果顯示MedDiff在多個(gè)指標(biāo)上表現(xiàn)優(yōu)于這些模型。
盡管MedDiff成功實(shí)現(xiàn)了高質(zhì)量醫(yī)療記錄的有條件生成,并通過(guò)加速算法提升了生成效率,但仍存在一些缺陷。未來(lái)的發(fā)展方向包括多模態(tài)學(xué)習(xí)處理更復(fù)雜的醫(yī)療記錄、生成更多動(dòng)態(tài)和高關(guān)聯(lián)性的臨床時(shí)間序列數(shù)據(jù)。
3.3.2 EHRDiff
EHRDiff[4]探究了擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域的可能性,并在公開(kāi)數(shù)據(jù)集MIMIC-Ⅲ上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明,EHRDiff生成的EHR數(shù)據(jù)質(zhì)量?jī)?yōu)于以往基于GAN模型的方法,更加接近真實(shí)醫(yī)療記錄。
相較于MedDiff,EHRDiff使用的是基于SGM的擴(kuò)散模型,直接使用了常規(guī)的確定性O(shè)DE解決方程進(jìn)行逆向生成,不需要額外的采樣技術(shù)。該模型首次將SGM引入到EHR數(shù)據(jù)生成領(lǐng)域,在解耦網(wǎng)絡(luò)輸出方面,MedDiff采用了直接預(yù)測(cè)噪聲的方法,這種設(shè)計(jì)可能會(huì)受到輸入噪聲尺度變化的影響,從而影響網(wǎng)絡(luò)的訓(xùn)練。相比之下,EHRDiff采用了適應(yīng)性解耦的方法,利用cin、cout等參數(shù)將網(wǎng)絡(luò)輸入統(tǒng)一為單位方差,這樣做有助于緩解因輸入噪聲尺度變化而帶來(lái)的問(wèn)題。EHRDiff訓(xùn)練過(guò)程可能需要更多的參數(shù)和計(jì)算資源,所以生成速度略慢于其他生成方法,其實(shí)驗(yàn)在MIMIC-Ⅲ[56,57]數(shù)據(jù)集上進(jìn)行,其泛化性可能還需要進(jìn)一步驗(yàn)證。
模型的評(píng)價(jià)標(biāo)準(zhǔn)采用多個(gè)指標(biāo)進(jìn)行評(píng)估,分為效用指標(biāo)如特征分布相似度、相關(guān)性、樣本聚類(lèi)和醫(yī)學(xué)概念豐富度等,隱私指標(biāo)如隱私風(fēng)險(xiǎn)評(píng)估、屬性判斷風(fēng)險(xiǎn)、會(huì)員資格判斷風(fēng)險(xiǎn)等。其對(duì)比模型選用了medGAN[74]、medBGAN[75]、CorGAN[76]等,并證明EHRDiff效果最好。但該模型依然存在一些改進(jìn)方向,如后續(xù)可以嘗試在更大規(guī)模數(shù)據(jù)集上訓(xùn)練與測(cè)試,可以結(jié)合注意力機(jī)制設(shè)計(jì)更大的解耦網(wǎng)絡(luò),或如SC-GAN[77]一樣利用臨床關(guān)系建模生成流程。
3.3.3 ScoEHR
Naseer等人[62]提出了一種新的深度學(xué)習(xí)框架ScoEHR,解決了如何通過(guò)模型生成符合臨床標(biāo)準(zhǔn)的合成電子醫(yī)療記錄數(shù)據(jù)的問(wèn)題。ScoEHR通過(guò)結(jié)合自編碼器和連續(xù)時(shí)間擴(kuò)散模型,同時(shí)考慮了EHR數(shù)據(jù)中的離散值和連續(xù)值特征及其關(guān)聯(lián)關(guān)系,在保留生成數(shù)據(jù)醫(yī)學(xué)真實(shí)性上優(yōu)于當(dāng)前主流GAN方法,為醫(yī)療機(jī)構(gòu)提供了一種擴(kuò)充代表性樣本數(shù)據(jù)的方法,供下游應(yīng)用。
ScoEHR框架結(jié)合了自編碼器和連續(xù)時(shí)間擴(kuò)散模型,能夠捕獲EHR數(shù)據(jù)中離散值和連續(xù)值的分布,并有效控制特征之間的相關(guān)性。它利用預(yù)訓(xùn)練的編碼器和解碼器進(jìn)行低維表示,然后通過(guò)變方差SDE進(jìn)行正向擴(kuò)散來(lái)加噪處理樣本;反向SDE和得分預(yù)測(cè)網(wǎng)絡(luò)用于重構(gòu)樣本,通過(guò)訓(xùn)練得分函數(shù)預(yù)測(cè)模型[22]可以生成符合臨床標(biāo)準(zhǔn)的EHR合成數(shù)據(jù);最終使用解碼器將低維樣本投影到原始特征空間,完成EHR數(shù)據(jù)的生成。通過(guò)此過(guò)程ScoEHR模型可以學(xué)習(xí)EHR數(shù)據(jù)分布的結(jié)構(gòu),有效地生成符合臨床標(biāo)準(zhǔn)的EHR合成數(shù)據(jù)。
文獻(xiàn)[62]對(duì)該模型的實(shí)驗(yàn)效果進(jìn)行評(píng)估時(shí)使用了medGAN[74]、medWGAN和medBGAN[75]三個(gè)基線(xiàn)模型,在數(shù)據(jù)生成效用的四個(gè)關(guān)鍵性指標(biāo)上進(jìn)行了比較。目前的合成數(shù)據(jù)領(lǐng)域并沒(méi)有普遍建立的指標(biāo)可供比較,所以作者選用了較為符合該模型的評(píng)價(jià)標(biāo)準(zhǔn):保留特征邊緣關(guān)系、保留特征相關(guān)性、使用對(duì)數(shù)聚類(lèi)度量(捕獲真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的相似性)、下游患者結(jié)果預(yù)測(cè)中的綜合數(shù)據(jù)性能(訓(xùn)練下游機(jī)器學(xué)習(xí)模型,通過(guò)下游任務(wù)來(lái)從側(cè)面反映數(shù)據(jù)質(zhì)量)。ScoEHR 生成數(shù)據(jù)的真實(shí)性由一組美國(guó)委員會(huì)認(rèn)證的醫(yī)生進(jìn)行評(píng)估,其與實(shí)際 EHR 高度一致。最后作者還對(duì)模型的隱私披露進(jìn)行了簡(jiǎn)要審查。
ScoEHR的未來(lái)工作方向主要體現(xiàn)在:a)模型的泛化能力,未來(lái)可以考慮在更多類(lèi)型的不同EHR數(shù)據(jù)集上評(píng)估該模型的泛化能力;b)隱私保護(hù)方面,可以考慮在模型結(jié)構(gòu)中加入隱私保護(hù)機(jī)制,例如對(duì)抗隱私或微分隱私技術(shù)來(lái)降低從生成數(shù)據(jù)中推斷個(gè)人隱私信息的可能性;c)目前ScoEHR主要針對(duì)結(jié)構(gòu)化EHR數(shù)據(jù),未來(lái)可以研究如何生成更豐富和語(yǔ)義連貫的臨床敘述文檔,例如結(jié)合生成對(duì)抗網(wǎng)絡(luò)或變異自動(dòng)編碼器等自然語(yǔ)言生成技術(shù)。
3.3.4 TabDDPM
Ceritli等人[61]對(duì)使用擴(kuò)散模型生成混合類(lèi)型的EHR數(shù)據(jù)進(jìn)行了探討分析,模型被命名為T(mén)abDDPM,該模型可以同時(shí)生成連續(xù)值和分類(lèi)值,從而更好地?cái)M合包含這兩種特征類(lèi)型的醫(yī)療數(shù)據(jù)。
TabDDPM模型可以生成混合類(lèi)型的EHR數(shù)據(jù),首先使用高斯擴(kuò)散過(guò)程和多項(xiàng)式擴(kuò)散過(guò)程分別生成連續(xù)值和分類(lèi)值特征。對(duì)于連續(xù)值特征未采用高斯擴(kuò)散過(guò)程,通過(guò)對(duì)原始數(shù)據(jù)加噪的方法將數(shù)據(jù)逐步轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)高斯分布;對(duì)離散的分類(lèi)值特征,采用了多項(xiàng)式擴(kuò)散過(guò)程[78],通過(guò)給分類(lèi)值加上隨機(jī)性使其逐步轉(zhuǎn)變?yōu)榫鶆蚍植?。該模型的反向過(guò)程可以兼容兩種正向擴(kuò)散過(guò)程,模型使用MLP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)反向過(guò)程,對(duì)于連續(xù)值特征直接使用回歸預(yù)測(cè)噪聲,對(duì)于分類(lèi)值離散特征,MLP預(yù)測(cè)后連接softmax函數(shù)來(lái)生成類(lèi)條件概率分布。因此,通過(guò)組合高斯擴(kuò)散和多項(xiàng)式擴(kuò)散過(guò)程以及反向過(guò)程的特定設(shè)計(jì),TabDDPM模型可以一并學(xué)習(xí)生成混合類(lèi)型EHR數(shù)據(jù)中連續(xù)值和分類(lèi)值的分布,從而生成真實(shí)而有效的合成EHR樣本,解決了僅使用單一擴(kuò)散過(guò)程的限制。
TabDDPM進(jìn)行實(shí)驗(yàn)時(shí)選用變分自編碼器、medGAN和CorGAN這些該領(lǐng)域較為經(jīng)典模型,從數(shù)據(jù)分布正確性、隱私風(fēng)險(xiǎn)、下游任務(wù)實(shí)用性等四個(gè)維度對(duì)比模型生成數(shù)據(jù)的優(yōu)劣。最終結(jié)果表示TabDDPM在維度概率和預(yù)測(cè)性能等數(shù)據(jù)質(zhì)量指標(biāo)上優(yōu)于基線(xiàn)模型,但在隱私指標(biāo)上,TabDDPM效果不如基線(xiàn),這是因?yàn)樗傻臄?shù)據(jù)質(zhì)量更高,但也增加了泄露隱私信息的風(fēng)險(xiǎn)。
3.3.5 擴(kuò)散模型生成EHR混合縱向數(shù)據(jù)
Kuo等人[63]設(shè)計(jì)了基于U-Net的擴(kuò)散概率模型,可以在不同時(shí)間步估計(jì)和去除數(shù)據(jù)中的不同強(qiáng)度噪聲,從而逐步重建出清晰無(wú)噪的數(shù)據(jù)。為了處理混合類(lèi)型數(shù)據(jù),作者提出了將數(shù)據(jù)轉(zhuǎn)換為數(shù)值和one-hot表示的方法,以將DPM框架應(yīng)用于臨床變量;利用該DPM模型生成兩組臨床數(shù)據(jù)集,一個(gè)用于急性低血壓,一個(gè)用于艾滋病治療,包含觀測(cè)值、操作和獎(jiǎng)勵(lì)等各類(lèi)變量。
DPM的前向過(guò)程中,通過(guò)定義好的方差函數(shù),每一時(shí)間步都將高斯噪聲加入原始數(shù)據(jù),最后得到由原始數(shù)據(jù)變化而來(lái)的接近于高斯分布的噪聲數(shù)據(jù)。反向擴(kuò)散過(guò)程中,采用基于U-Net網(wǎng)絡(luò)的DPM框架來(lái)輸入時(shí)間步和位置嵌入,從而預(yù)測(cè)該時(shí)間步加入的噪聲量,其中U-Net包含下采樣、卷積塊和上采樣等模塊。
在模型評(píng)價(jià)方面,作者選用MedGAN[74]、Health Gym GAN和MVAE作為基線(xiàn)模型,并在統(tǒng)計(jì)分布特征匹配度、模式崩塌程度、RL應(yīng)用效果和隱私風(fēng)險(xiǎn)評(píng)估等方面進(jìn)行模型的橫向?qū)Ρ?。最終結(jié)果表明DPM生成數(shù)據(jù)在統(tǒng)計(jì)特征上超過(guò)極限,并且不易發(fā)生模式崩塌,以及DPM的數(shù)據(jù)隱私風(fēng)險(xiǎn)也控制得較好。
目前DPM僅使用位置嵌入來(lái)區(qū)分不同時(shí)間步,未來(lái)可以嘗試加入更豐富的上下文信息,如治療行為等,生成出更具解釋性和臨床意義的記錄。作者還指出,目前模型主要關(guān)注記錄層面,未來(lái)可以嘗試生成更細(xì)粒度的生物標(biāo)志數(shù)據(jù),滿(mǎn)足不同下游任務(wù)要求。
3.3.6 TIMEDIFF
與基于GAN模型的EHR數(shù)據(jù)生成研究相似,生成的數(shù)據(jù)類(lèi)型也逐漸開(kāi)始從單個(gè)時(shí)間點(diǎn)的表格數(shù)據(jù)向具有時(shí)間序列的數(shù)據(jù)過(guò)渡[77]。Tian等人[60]提出了一個(gè)名為T(mén)IMEDIFF的基于雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRNN)的架構(gòu)生成高效的時(shí)間序列數(shù)據(jù)。
TIMEDIFF是第一個(gè)將混合擴(kuò)散方法應(yīng)用于EHR時(shí)間序列數(shù)據(jù)生成的模型。為了對(duì)EHR時(shí)間序列中的混合變量類(lèi)型進(jìn)行建模,TIMEDIFF提出一種混合序列擴(kuò)散方法,將高斯擴(kuò)散和多項(xiàng)式擴(kuò)散結(jié)合起來(lái),使得它能夠同時(shí)生成浮點(diǎn)值和離散值時(shí)間序列,它采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)編碼序列信息,同時(shí)具有可變長(zhǎng)度輸入的靈活性。該模型使用雙向遞歸神經(jīng)網(wǎng)絡(luò)作為生成模型的基礎(chǔ)架構(gòu),可以很好地捕捉時(shí)間序列中隱含的時(shí)序依賴(lài)關(guān)系,其前向過(guò)程與TabDDPM[61]相似,同樣是使用高斯擴(kuò)散和多項(xiàng)式擴(kuò)散來(lái)處理連續(xù)變量和離散變量,從而實(shí)現(xiàn)對(duì)混合變量類(lèi)型的支持。特別地,為了表示缺失值信息,它使用指示符掩碼對(duì)每個(gè)數(shù)字時(shí)間序列進(jìn)行編碼。
該模型的正向過(guò)程將原始的數(shù)據(jù)集進(jìn)行高斯擴(kuò)散和多項(xiàng)式擴(kuò)散[78]處理,獲得擴(kuò)散過(guò)程樣本的集合,再初始化雙向LSTM網(wǎng)絡(luò)作為時(shí)間條件生成網(wǎng)絡(luò)(相當(dāng)于DDPM中的噪聲預(yù)測(cè)網(wǎng)絡(luò)),輸入給該網(wǎng)絡(luò)的不僅僅是擴(kuò)散后時(shí)間序列樣本本身,還包括位置編碼信息。位置編碼表示每個(gè)時(shí)間點(diǎn)在整個(gè)序列中的相對(duì)位置,需要對(duì)其進(jìn)行縮放和偏移以將其映射到更合適的范圍內(nèi),這樣處理后的位置編碼會(huì)與雙向LSTM當(dāng)前時(shí)間點(diǎn)的隱狀態(tài)進(jìn)行結(jié)合。之后給定擴(kuò)散路徑中的一個(gè)時(shí)間點(diǎn)樣本,時(shí)間條件生成器預(yù)測(cè)此點(diǎn)前一個(gè)時(shí)間點(diǎn)的高斯分布參數(shù)和多項(xiàng)式分布參數(shù)。訓(xùn)練過(guò)程計(jì)算loss函數(shù)和最小化損失函數(shù),訓(xùn)練出最終模型進(jìn)行數(shù)據(jù)生成,使用訓(xùn)練好的模型進(jìn)行朗之萬(wàn)采樣,生成高質(zhì)量且多樣化的EHR時(shí)間序列。
作者將TIMEDIFF在六個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與八種現(xiàn)有的方法進(jìn)行了比較。評(píng)價(jià)標(biāo)準(zhǔn)使用實(shí)用性評(píng)價(jià)標(biāo)準(zhǔn)(訓(xùn)練下游預(yù)測(cè)任務(wù)模型,通過(guò)預(yù)測(cè)性能說(shuō)明)、醫(yī)學(xué)可解釋性評(píng)價(jià)(臨床專(zhuān)家打分等方法)、私密性評(píng)價(jià)、計(jì)量指標(biāo)分析等。結(jié)果表明該模型在數(shù)據(jù)效用方面明顯優(yōu)于現(xiàn)有的所有方法。
TIMEDIFF模型目前在一些方面還存在不足,如僅考慮單個(gè)病人序列且推廣能力有限,模型內(nèi)部機(jī)理解釋性程度也需要提高。此外,訓(xùn)練和采樣效率尚待優(yōu)化,真實(shí)大規(guī)模臨床數(shù)據(jù)的處理能力需要進(jìn)一步增強(qiáng)。未來(lái)工作可以在以下幾個(gè)方面深入改進(jìn)TIMEDIFF:a)加入注意力機(jī)制提取時(shí)間依賴(lài)關(guān)系;b)結(jié)合更多臨床知識(shí)如ICD編碼進(jìn)行預(yù)訓(xùn)練,生成樣本表現(xiàn)更切合臨床。總體來(lái)說(shuō),提升TIMEDIFF在跨病人建模、推廣學(xué)習(xí)和醫(yī)學(xué)解釋性等方面的能力,將使其在保護(hù)隱私的基礎(chǔ)上為臨床應(yīng)用提供更強(qiáng)大的支持。
表2對(duì)近年擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域的應(yīng)用進(jìn)行了對(duì)比分析。
4 其他模型在EHR數(shù)據(jù)生成中的應(yīng)用
近年來(lái),擴(kuò)散模型在某些任務(wù)中展現(xiàn)出略高于VAE和GAN的性能,但VAE和GAN在生成領(lǐng)域長(zhǎng)期積累的研究成果仍然顯著。本章重點(diǎn)分析擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域的發(fā)展,同時(shí)也探索VAE和GAN在該領(lǐng)域的應(yīng)用成果,如表3所示,以期為擴(kuò)散模型在這一領(lǐng)域的進(jìn)一步發(fā)展提供新的視角和思路。
4.1 變分自編碼器(VAE)
為了解決研究人員對(duì)電子健康數(shù)據(jù)的需要,建立模型來(lái)生成EHR合成數(shù)據(jù),使用變分自編碼器VAE可以生成縱向的EHR數(shù)據(jù)。Biswal等人[64]提出名為EVA的方法,使該模型能夠根據(jù)特定的疾病條件進(jìn)行生成,從而支持特定疾病的研究。
EVA作為生成真實(shí)離散EHR數(shù)據(jù)的深度生成模型,對(duì)時(shí)間條件的生成和多樣性的序列都有較好的效果,且該模型首次采用變分自編碼器進(jìn)行EHR數(shù)據(jù)生成。VAE框架通過(guò)最大化特定方程來(lái)聯(lián)合學(xué)習(xí)生成模型和推理網(wǎng)絡(luò)的參數(shù)。推理網(wǎng)絡(luò)(編碼器)負(fù)責(zé)近似給定輸入數(shù)據(jù)的潛變量真后驗(yàn)分布,生成模型(解碼器)負(fù)責(zé)在給定潛變量的情況下生成輸出數(shù)據(jù)[79]。
EVA模型可以生成連續(xù)的EHR序列,而不是單獨(dú)的靜態(tài)患者表征,即每一個(gè)生成的EHR對(duì)應(yīng)一個(gè)假設(shè)患者,其中還包括一系列連續(xù)的門(mén)診記錄。每條門(mén)診記錄為一個(gè)類(lèi)別化表示,即使用一個(gè)向量來(lái)表示該次門(mén)診記錄涉及的各種診斷代碼、用藥代碼等臨床元素。生成EHR數(shù)據(jù)時(shí)還考慮到了不同個(gè)體之間的差異,該模型可以根據(jù)可控制的條件來(lái)生成符合條件的患者群體,這一點(diǎn)彌補(bǔ)了以往生成EHR的限制[80]。模型的評(píng)價(jià)標(biāo)準(zhǔn)采用醫(yī)生評(píng)價(jià)來(lái)判定生成序列的真實(shí)性,采用預(yù)先訓(xùn)練的模型與真實(shí)數(shù)據(jù)訓(xùn)練模型進(jìn)行對(duì)比,從側(cè)面反映了數(shù)據(jù)的質(zhì)量。
作者將模型生成因素分解為人口水平和個(gè)體水平,這一層次結(jié)構(gòu)設(shè)計(jì)能有效學(xué)習(xí)人口水平的醫(yī)學(xué)特征表示,使模型的合成數(shù)據(jù)質(zhì)量得以提升。但模型依然有著明顯的不足,該模型在隱私風(fēng)險(xiǎn)評(píng)估方面存在缺陷,盡管通過(guò)訓(xùn)練EVA并生成樣本可以克服從原始數(shù)據(jù)到生成數(shù)據(jù)的一對(duì)一映射,但需要正式評(píng)估生成數(shù)據(jù)的隱私保護(hù),存在泄露的可能性,即當(dāng)攻擊者能夠確定EVA是使用包含某患者記錄的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),攻擊者會(huì)假設(shè)該患者在訓(xùn)練數(shù)據(jù)中,這可能導(dǎo)致隱私泄露。在數(shù)據(jù)方面,可以考慮更多臨床上重要的生物特征,并可以結(jié)合外部醫(yī)學(xué)詞匯來(lái)改進(jìn)表示學(xué)習(xí),且該模型使用的數(shù)據(jù)集可以考慮改用更大更權(quán)威的數(shù)據(jù)集。
4.2 對(duì)抗生成網(wǎng)絡(luò)(GAN)
生成對(duì)抗網(wǎng)絡(luò)作為最經(jīng)典的生成式模型之一,有著廣泛的應(yīng)用領(lǐng)域和扎實(shí)的理論基礎(chǔ),基于GAN模型可以生成不同類(lèi)型的EHR數(shù)據(jù)、表格數(shù)據(jù)和時(shí)間序列。在EHR數(shù)據(jù)生成領(lǐng)域依然可以發(fā)揮較為穩(wěn)定的性能。
4.2.1 GAN模型生成EHR表格數(shù)據(jù)
早期GAN模型在EHR數(shù)據(jù)生成的應(yīng)用一般體現(xiàn)在生成結(jié)構(gòu)化離散表格EHR,如診斷計(jì)費(fèi)的ICD編碼,medGAN就是最早開(kāi)始學(xué)習(xí)離散特征表格和二進(jìn)制特征表格的GAN模型[74]?;趍edGAN在離散表格數(shù)據(jù)方面的成功,分別根據(jù)帶有懲罰梯度的Wasserstein GAN(WAGE-GP)[81]和邊界搜索GAN模型(BGAN)[82]提出了medWGAN和medBGAN[75]模型,提高了medGAN的生成數(shù)據(jù)質(zhì)量。后續(xù)研究人員專(zhuān)注于通過(guò)提出的相關(guān)性捕獲GAN(correlation capturing GAN,CorGAN)[76]來(lái)改進(jìn)EHR表格數(shù)據(jù)中相關(guān)性捕獲,CorGAN結(jié)合GAN和卷積自動(dòng)編碼器(convolutional autoencoders,CA)來(lái)捕獲離散和連續(xù)數(shù)據(jù)中特征之間的局部相關(guān)性。后續(xù)工作中開(kāi)始專(zhuān)注提高模型的訓(xùn)練穩(wěn)定性,如EMR-WGAN(EMR Wasserstein GAN)中刪除了從medGAN中集成的自編碼器來(lái)解釋離散特征,應(yīng)用過(guò)濾策略來(lái)增強(qiáng)針對(duì)低流行率臨床概念的GAN的訓(xùn)練[83]。
4.2.2 GAN模型生成EHR時(shí)間序列數(shù)據(jù)
目前研究中多為生成可以呈現(xiàn)患者在單個(gè)時(shí)間點(diǎn)狀態(tài)的EHR表格數(shù)據(jù),但與時(shí)間序列數(shù)據(jù)相比,表格數(shù)據(jù)無(wú)法記錄和捕捉患者狀態(tài)的變化。
為了加強(qiáng)對(duì)時(shí)序數(shù)據(jù)生成的研究,Zhang等人[84]提出了合成包含時(shí)態(tài)EHR數(shù)據(jù)的生成框架(synthetic temporal EHR generation,SynTEG),該框架專(zhuān)注于生成帶有時(shí)間戳的ICD編碼。SynTEG使用兩步來(lái)完成這個(gè)目標(biāo):第一步依次從原始數(shù)據(jù)中提取時(shí)間模式,并采用自注意力層;第二步使用WGAN[81]來(lái)生成以學(xué)習(xí)模式為條件的數(shù)據(jù)。類(lèi)似地,Lee等人[69]提出考慮使用雙對(duì)抗自動(dòng)編碼器(dual adversarial autoencoder,DAAE)來(lái)改進(jìn)兩個(gè)GAN組件,根據(jù)患者的時(shí)間順序來(lái)合成EHR序列,該模型可以合成定值醫(yī)療記錄序列。對(duì)于合成EHR的時(shí)間序列數(shù)據(jù)任務(wù),還有一些GAN模型使用變式,如生成時(shí)間序列藥物實(shí)驗(yàn)室效應(yīng)(DLE)軌跡,這個(gè)效應(yīng)軌跡的作用是患者在接收干預(yù)措施后監(jiān)測(cè)患者,以防止藥物的不良反應(yīng)。Esteban等人使用循環(huán)的GAN模型(RGAN)以及條件生成對(duì)抗網(wǎng)絡(luò)提出了可以生成連續(xù)時(shí)間序列的RCGAN模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)被用作RCGAN的生成器和判別器。之后受患者狀態(tài)、臨床藥物劑量數(shù)據(jù)和根據(jù)患者狀態(tài)調(diào)整劑量的臨床實(shí)踐的推動(dòng),順序耦合GAN(sequentially coupled GAN,SC-GAN)[77]被設(shè)計(jì)出來(lái),該模型由兩個(gè)不同的基于LSTM的生成器組成,用于協(xié)調(diào)患者狀態(tài)和藥物劑量數(shù)據(jù)的審查工作,患者狀態(tài)生成器的輸出被放入藥物劑量數(shù)據(jù)生成器上,后者生成器模仿根據(jù)患者狀態(tài)來(lái)調(diào)整藥物劑量的臨床實(shí)踐狀態(tài)。
根據(jù)表3可以看出早期的GAN在EHR數(shù)據(jù)生成領(lǐng)域一般是專(zhuān)注于離散編碼的生成,并且對(duì)于高維度的數(shù)據(jù)生成任務(wù)GAN容易發(fā)生模式崩潰等問(wèn)題,于是研究人員開(kāi)始逐漸引入自編碼器來(lái)緩解該問(wèn)題。之后研究方向逐漸轉(zhuǎn)變?yōu)檠芯繒r(shí)序數(shù)據(jù),于是開(kāi)始加入RNN和LSTM以及自注意力機(jī)制來(lái)對(duì)特征進(jìn)行準(zhǔn)確捕捉。但以GAN為基礎(chǔ)的模型遇到瓶頸,其生成性能無(wú)法提升后,研究者開(kāi)始專(zhuān)注于研究模型穩(wěn)定性和模型生成數(shù)據(jù)效率上。
對(duì)比表2和3可知在基線(xiàn)模型方面,GAN和VAE的基線(xiàn)選取沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),部分模型的基線(xiàn)只是模型自身的條件生成版或者消融實(shí)驗(yàn)作為基線(xiàn)對(duì)比,這大大減少了實(shí)驗(yàn)應(yīng)有的說(shuō)服力。在評(píng)價(jià)標(biāo)準(zhǔn)方面,無(wú)論是GAN和VAE并沒(méi)有較為統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),但還是可以分為兩個(gè)方向:效用指標(biāo)和隱私指標(biāo)。對(duì)于擴(kuò)散模型已經(jīng)逐漸開(kāi)始形成統(tǒng)一標(biāo)準(zhǔn),基本所有實(shí)驗(yàn)都會(huì)引用效用指標(biāo)中對(duì)維度考察的相關(guān)指標(biāo),并且下游機(jī)器學(xué)習(xí)模型的訓(xùn)練也可以側(cè)面說(shuō)明生成數(shù)據(jù)的效用。在隱私方面都開(kāi)始引入成員推斷和屬性推斷來(lái)衡量其隱私性,評(píng)價(jià)指標(biāo)的選取逐漸趨于成熟。在數(shù)據(jù)集選取方面,有部分?jǐn)?shù)據(jù)集較為經(jīng)典,也是最近的研究?jī)A向于選用的,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等數(shù)據(jù)集。同時(shí)還有部分研究人員更傾向于使用私人數(shù)據(jù)集,這也在保證隱私性和安全性的同時(shí)展開(kāi)了研究,但由于數(shù)據(jù)集無(wú)法公開(kāi),使得模型的可移植性和可解釋性有待考量。
5 未來(lái)展望
最新的擴(kuò)散模型技術(shù)在電子健康檔案數(shù)據(jù)生成領(lǐng)域的應(yīng)用為潛在的研究和決策支持系統(tǒng)帶來(lái)了令人鼓舞的前景,本文回顧了在這一領(lǐng)域的研究工作,涵蓋了擴(kuò)散模型在EHR數(shù)據(jù)生成中的算法、理論和應(yīng)用進(jìn)展。然而,該研究仍然存在一些挑戰(zhàn)、差距和發(fā)展機(jī)遇需要進(jìn)一步考慮和解決。
5.1 評(píng)價(jià)指標(biāo)現(xiàn)狀與發(fā)展方向
在EHR領(lǐng)域中,可靠擴(kuò)散模型的開(kāi)發(fā)受到缺乏通用評(píng)估方法的制約,這是其發(fā)展的主要瓶頸。根據(jù)表1,評(píng)估組件和指標(biāo)尚未標(biāo)準(zhǔn)化。目前的方法包括:a) 借鑒圖像生成和非醫(yī)學(xué)時(shí)間序列生成等其他領(lǐng)域的擴(kuò)散模型應(yīng)用指標(biāo);b) 使用基準(zhǔn)模型的評(píng)估指標(biāo);c) 引入新的評(píng)估指標(biāo)。此外,同一評(píng)估測(cè)試可能使用不同的名稱(chēng),導(dǎo)致了擴(kuò)散模型評(píng)估的混亂[4,59~62]。在評(píng)估機(jī)器學(xué)習(xí)性能時(shí),必須報(bào)告合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的結(jié)果,以了解模型的基線(xiàn)性能并準(zhǔn)確確定合成數(shù)據(jù)對(duì)下游任務(wù)的效用。另外,不同的指標(biāo)會(huì)導(dǎo)致各種限制和權(quán)衡,且同類(lèi)模型之間并沒(méi)有橫向?qū)Ρ?。因此,EHR生成領(lǐng)域在沒(méi)有完整且系統(tǒng)的公用評(píng)價(jià)指標(biāo)前提下無(wú)法比較出EHR生成任務(wù)的最優(yōu)模型。雖然提供定性評(píng)估和分析可以證明模型的研究?jī)r(jià)值,但如果不支持統(tǒng)一嚴(yán)格的定量評(píng)估指標(biāo)將嚴(yán)重阻礙該領(lǐng)域的發(fā)展。本研究介紹了不同擴(kuò)散模型在不同任務(wù)中選擇的評(píng)估指標(biāo),希望通過(guò)這項(xiàng)工作來(lái)激發(fā)研究者的后續(xù)研究。研究方向著重于對(duì)新引入評(píng)估指標(biāo)的測(cè)試和使用、研究評(píng)估指標(biāo)的局限性和權(quán)衡指標(biāo)的側(cè)重方向,最終會(huì)制定出評(píng)估指標(biāo)選擇及其權(quán)重的標(biāo)準(zhǔn)化指南,并確保其與合成數(shù)據(jù)的實(shí)用性相匹配。
未來(lái)的研究還可以是探討合成數(shù)據(jù)的通用性方面,并在優(yōu)化標(biāo)準(zhǔn)中加以考慮。例如在機(jī)器學(xué)習(xí)任務(wù)中,為了數(shù)據(jù)增強(qiáng)而生成的合成數(shù)據(jù)的評(píng)估方法應(yīng)該與為研究目的生成數(shù)據(jù)有所不同。在當(dāng)前關(guān)于EHR的擴(kuò)散模型文獻(xiàn)中,缺少對(duì)合成數(shù)據(jù)通用性的研究且擴(kuò)散模型訓(xùn)練的計(jì)算成本較高。
5.2 進(jìn)一步平衡隱私性和實(shí)用性
正如Ceritli等人[61]提出TabDDPM時(shí)首次引入的觀點(diǎn),生成模型在數(shù)據(jù)生成時(shí)要對(duì)隱私保護(hù)和數(shù)據(jù)實(shí)用性之間做好權(quán)衡。擴(kuò)散模型的高性能依賴(lài)于比其他生成式模型有更高的訓(xùn)練穩(wěn)定性,可選擇樣本的多樣性以及其特別的模型架構(gòu)?;跀U(kuò)散模型的生成任務(wù)通過(guò)對(duì)噪聲圖片去噪完成分布相似的數(shù)據(jù)生成,保證合成數(shù)據(jù)在隱私方面得到保護(hù),因?yàn)閱蝹€(gè)合成輸出與真實(shí)輸入之間沒(méi)有直接關(guān)系。然而,在處理諸如EHR等敏感信息時(shí)可能會(huì)發(fā)生意外的信息泄露。
為了解決實(shí)用性與隱私之間的權(quán)衡問(wèn)題,無(wú)論選擇何種隱私保證級(jí)別,后續(xù)研究者都應(yīng)該同時(shí)測(cè)試這兩個(gè)因素。一些早期的研究沒(méi)有充分考慮信息泄露風(fēng)險(xiǎn),同樣,一些專(zhuān)注于提高生成模型隱私保護(hù)的工作也未充分評(píng)估數(shù)據(jù)的分布相似性保持問(wèn)題,例如,差異隱私等隱私保證對(duì)于隱私保護(hù)很有幫助,但可能在保真度和實(shí)用性方面帶來(lái)高昂的代價(jià)。未來(lái)的研究方向應(yīng)與監(jiān)管機(jī)構(gòu)合作,制定關(guān)于隱私風(fēng)險(xiǎn)的明確指南,這樣私人數(shù)據(jù)所有者才能放心地共享合成數(shù)據(jù),從而為新的研究應(yīng)用開(kāi)辟道路。
5.3 引入多模態(tài)數(shù)據(jù)特征
各種臨床多樣性的EHR數(shù)據(jù)為數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)研究提供了廣泛可能性,當(dāng)前大多數(shù)EHR數(shù)據(jù)生成模型專(zhuān)注于單一數(shù)據(jù)模態(tài)的生成,雖然已開(kāi)始從單一時(shí)間點(diǎn)的表格數(shù)據(jù)向包含時(shí)間序列的數(shù)據(jù)轉(zhuǎn)變,但很少有模型能夠同時(shí)捕捉異構(gòu)類(lèi)型數(shù)據(jù)之間的相關(guān)性。此外,盡管部分模型能夠條件化生成連續(xù)和離散分類(lèi)數(shù)據(jù),但實(shí)際醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)多種形式,包括非結(jié)構(gòu)化醫(yī)學(xué)記錄和醫(yī)療影像等。
未來(lái)的研究應(yīng)考慮如何利用圖像、語(yǔ)音等多模態(tài)數(shù)據(jù)來(lái)豐富和改進(jìn)EHR數(shù)據(jù)的生成質(zhì)量和多樣性。合成數(shù)據(jù)具有潛力激發(fā)廣泛的臨床研究,加速研究進(jìn)展、推動(dòng)醫(yī)療保健機(jī)器學(xué)習(xí)的發(fā)展。特別是在基于擴(kuò)散模型的EHR數(shù)據(jù)生成方面,這是一個(gè)相對(duì)新興的領(lǐng)域,仍有很大的改進(jìn)空間,尤其是在處理EHR數(shù)據(jù)多樣性、異質(zhì)性、缺失和稀疏性等方面。未來(lái)的工作應(yīng)集中在改進(jìn)模型以更好地捕捉這些復(fù)雜性,提高合成數(shù)據(jù)的質(zhì)量和可用性,為臨床研究和醫(yī)療保健領(lǐng)域帶來(lái)更大的益處。同時(shí),需要加強(qiáng)與醫(yī)療監(jiān)管機(jī)構(gòu)的合作,確保合成數(shù)據(jù)的可靠性和隱私保護(hù),為其在臨床實(shí)踐中的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)。
5.4 下游任務(wù)推理
在以往的研究中,通常是將下游任務(wù)模型的效果作為生成數(shù)據(jù)質(zhì)量和實(shí)用性的側(cè)面反映,實(shí)際上,將生成的大量數(shù)據(jù)用作訓(xùn)練樣本進(jìn)行臨床預(yù)測(cè)模型的預(yù)訓(xùn)練是一種常見(jiàn)的做法。由于生成的數(shù)據(jù)量龐大,可以解決真實(shí)數(shù)據(jù)數(shù)量有限的問(wèn)題,有助于模型學(xué)習(xí)任務(wù)的規(guī)律。在生成數(shù)據(jù)上預(yù)訓(xùn)練預(yù)測(cè)模型,然后在真實(shí)數(shù)據(jù)上微調(diào)優(yōu)化。這樣做可以借鑒生成器學(xué)習(xí)到的知識(shí)來(lái)促進(jìn)下游模型效果的提升。接著可以將生成數(shù)據(jù)和真實(shí)數(shù)據(jù)結(jié)合進(jìn)行聯(lián)合訓(xùn)練。利用合成數(shù)據(jù)進(jìn)行訓(xùn)練,在真實(shí)數(shù)據(jù)進(jìn)行測(cè)試;利用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行訓(xùn)練,真實(shí)數(shù)據(jù)進(jìn)行測(cè)試等兩種數(shù)據(jù)交叉使用的方法,
這種互相促進(jìn)的方式有助于改善下游任務(wù)模型的效果。這種集成方法可以更好地利用生成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的優(yōu)勢(shì),為臨床研究和醫(yī)療保健提供更加準(zhǔn)確和可靠的模型預(yù)測(cè)。
6 結(jié)束語(yǔ)
在電子健康檔案(EHR)數(shù)據(jù)生成領(lǐng)域,隨著醫(yī)療信息技術(shù)的快速發(fā)展,隱私保護(hù)日益成為關(guān)注的核心議題。生成合成EHR數(shù)據(jù)時(shí)必須確保不泄露個(gè)人身份信息,同時(shí)保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性和臨床相關(guān)性,以滿(mǎn)足醫(yī)療研究和數(shù)據(jù)分析的需求。選擇和設(shè)計(jì)生成模型(如VAE、GAN、擴(kuò)散模型等)至關(guān)重要,每種模型在數(shù)據(jù)質(zhì)量和隱私保護(hù)方面各有優(yōu)勢(shì)和限制。因此,研究人員需在這些選擇中進(jìn)行權(quán)衡,以找到最適合特定場(chǎng)景的生成方法。
近年來(lái),擴(kuò)散模型在EHR數(shù)據(jù)生成領(lǐng)域迅速發(fā)展,其優(yōu)秀的生成效果引起了廣泛關(guān)注,這些模型通過(guò)模擬數(shù)據(jù)的擴(kuò)散和反向擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù),有效保護(hù)了數(shù)據(jù)的隱私性。擴(kuò)散模型的出現(xiàn)為生成高質(zhì)量且具有一定隱私性要求的EHR數(shù)據(jù)提供了新的方法和思路,結(jié)合生成模型的技術(shù)優(yōu)勢(shì)和對(duì)隱私保護(hù)的需求,擴(kuò)散模型已成為EHR數(shù)據(jù)生成領(lǐng)域的研究熱點(diǎn)之一。
此外,評(píng)估合成EHR數(shù)據(jù)的質(zhì)量也是一個(gè)重要的課題。除了數(shù)據(jù)的統(tǒng)計(jì)特性和臨床相關(guān)性外,評(píng)估指標(biāo)還包括Kullback-Leibler (KL) 散度、合成數(shù)據(jù)的實(shí)用性和隱私保護(hù)等。研究人員需要綜合考慮這些指標(biāo),以確保生成的數(shù)據(jù)能夠在醫(yī)療研究和數(shù)據(jù)分析中發(fā)揮有效的作用。
盡管在EHR數(shù)據(jù)生成領(lǐng)域取得了進(jìn)展,但仍面臨諸多挑戰(zhàn),如如何平衡隱私與數(shù)據(jù)實(shí)用性、處理多模態(tài)數(shù)據(jù)、提高生成數(shù)據(jù)的多樣性和復(fù)雜性等,都需要進(jìn)一步研究和探索。此外,為確保合成數(shù)據(jù)的可靠性和合規(guī)性,研究人員需與醫(yī)療監(jiān)管機(jī)構(gòu)合作,制定明確的指南和標(biāo)準(zhǔn)。隨著技術(shù)進(jìn)步和合成數(shù)據(jù)應(yīng)用范圍的擴(kuò)展,EHR數(shù)據(jù)生成領(lǐng)域?qū)⒂瓉?lái)更多挑戰(zhàn)與機(jī)遇。
參考文獻(xiàn):
[1]Sonabend A, Lu Junwei, Celi L A, et al. Expert-supervised reinforcement learning for offline policy learning and evaluation [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 18967-18977.
[2]Yuan Hongyi, Yu Sheng. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification [J]. Artificial Intelligence In Medicine, 2024,148(2): 102748.
[3]Huang Kexin, Altosaar J, Ranganath R. ClinicalBERT: modeling clinical notes and predicting hospital readmission [EB/OL]. (2020-11-29). https://arxiv.org/pdf/1904.05342v3.
[4]Yuan Hongyi, Zhou Songchi, Yu Sheng. EHRDiff: exploring realistic EHR synthesis with diffusion models [EB/OL]. (2024-03-24). https://arxiv.org/pdf/2303.05656.
[5]Iyengar A, Kundu A, Pallis G. Healthcare informatics and privacy [J]. IEEE Internet Computing, 2018, 22(2): 29-31.
[6]Janmey V, Elkin P L. Re-identification risk in HIPAA de-identified datasets: the MVA attack [J]. AMIA Annual Symposium Proceedings, 2018, 2018: 1329-1337.
[7]Chen R J, Lu Mingyang, Chen T Y, et al. Synthetic data in machine learning for medicine and healthcare [J]. Nature Biomedical Engineering, 2021, 5(6): 493-497.
[8]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C]// Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-268.
[9]He Huan, Zhao Shifan, Xi Yuanzhe, et al. GDA-AM: on the effectiveness of solving minimax optimization via Anderson mixing [C]// Proc of the 10th International Conference on Learning Representations. 2022.
[10]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proc of the 25th International Conference on Machine Learning. New York: ACM Press, 2008: 1096-1103.
[11]Li Xiang, Thickstun J, Gulrajani I, et al. Diffusion-LM improves controllable text generation [C]// Proc of the 36th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 4328-4343.
[12]Huang Rongjie, Lam M W Y, Wang Jun, et al. FastDiff: a fast conditional diffusion model for high-quality speech synthesis [C]// Proc of the 31st International Joint Conference on Artificial Intelligence Main Track. 2022: 4157-4163.
[13]Zhang Guanhua, Ji Jiabao, Zhang Yang, et al. Towards coherent image inpainting using denoising diffusion implicit models [EB/OL]. (2023-04-06). https://arxiv.org/pdf/2304.03322.
[14]Song Yang, Sohl-Dickstein J, Kingma D P, et al. Score-based gene-rative modeling through stochastic differential equations [EB/OL]. (2021-02-10). https://arxiv.org/abs/2011.13456.
[15]Sohl-Dickstein J, Weiss E A, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2256-2265.
[16]Burda Y, Grosse R, Salakhutdinov R. Accurate and conservative estimates of MRF log-likelihood using reverse annealing [C]// Proc of the 18th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2015:102-110.
[17]Jarzynski C. Equilibrium free-energy differences from nonequilibrium measurements: a master-equation approach [J]. Physical Review E, 1997, 56(5): 5018.
[18]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: an overview [J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.
[19]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 6840-6851.
[20]Song Jiaming, Meng Chenlin, Ermon S. Denoising diffusion implicit models [EB/OL]. (2022-10-05). https://arxiv.org/abs/2010.02502.
[21]Nichol A, Dhariwal P. Improved denoising diffusion probabilistic models [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8162-8171.
[22]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 11918-11930.
[23]Kirkpatrick S, Jr Gelatt C D, Vecchi M P. Optimization by simulated annealing [J]. Science, 1983, 220(4598): 671-680.
[24]Neal R M. Annealed importance sampling [J]. Statistics and Computing, 2001, 11(4): 125-139.
[25]Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis [C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 8780-8794.
[26]Ho J, Salimans T. Classifier-free diffusion guidance [EB/OL]. (2022-07-26). https://arxiv.org/abs/2207.12598.
[27]Nichol A, Dhariwal P, Ramesh A, et al. GLIDE: towards photorea-listic image generation and editing with text-guided diffusion models [C]// Proc of the 39th International Conference on Machine Lear-ning. [S.l.]: PMLR, 2022:16784-16804.
[28]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents [EB/OL]. (2022-04-13). http://export.arxiv.org/abs/2204.06125.
[29]Saharia C, Chan W, Saxena S, et al. Photorealistic text-to-image diffusion models with deep language understanding [EB/OL]. (2022-05-23). https://arxiv.org/abs/2205.11487.
[30]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10684-10695.
[31]Wahid R, Mero J, Ritala P. Editorial: written by ChatGPT, illustrated by Midjourney: generative AI for content marketing [J]. Asia Pacific Journal of Marketing and Logistics, 2023, 35(8): 1813-1822.
[32]Song Yang, Ermon S. Improved techniques for training score-based generative models [C]// Proc of the 34th International Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2020: 12438-12448.
[33]Amit T, Shaharbany T, Nachmani E, et al. SegDiff: image segmentation with diffusion probabilistic models [EB/OL]. (2022-09-07). https://arxiv.org/abs/2112.00390.
[34]Baranchuk D, Rubachev I, Voynov A, et al. Label-efficient semantic segmentation with diffusion models [EB/OL]. (2022-03-16). https://arxiv.org/abs/2112.03126.
[35]Alcaraz J M L, Strodthoff N. Diffusion-based time series imputation and forecasting with structured state space models [EB/OL]. (2023-05-06). https://arxiv.org/abs/2208.09399.
[36]Chen Nanxin, Zhang Yu, Zen Heiga, et al. WaveGrad: estimating gradients for waveform generation [EB/OL]. (2020-10-09). https://arxiv.org/abs/2009.00713.
[37]Blau T, Ganz R, Kawar B, et al. Threat model-agnostic adversarial defense using diffusion models [EB/OL]. (2022-07-17). https://arxiv.org/abs/2207.08089.
[38]Anand N, Achim T. Protein structure and sequence generation with equivariant denoising diffusion probabilistic models [EB/OL]. (2022-05-26). https://arxiv.org/abs/2205.15019.
[39]Hoogeboom E, Satorras V G, Vignac C, et al. Equivariant diffusion for molecule generation in 3D [C]// Proc of the 39th International Conference on Machine Learning. [S.l.]: PMLR, 2022: 8867-8887.
[40]Cao Chentao, Cui Zhuoxu, Wang Yue, et al. High-frequency space diffusion model for accelerated MRI [J]. IEEE Trans on Medical Imaging, 2024, 43(5): 1853-1865.
[41]Chung H, Lee E S, Ye J C. MR image denoising and super-resolution using regularized reverse diffusion [J]. IEEE Trans on Medical Imaging, 2022, 42(4): 922-934.
[42]Karras T, Aittala M, Aila T, et al. Elucidating the design space of diffusion-based generative models [C]// Proc of the 36th Internatio-nal Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2022: 26565-26577.
[43]來(lái)杰, 王曉丹, 向前, 等. 自編碼器及其應(yīng)用綜述 [J]. 通信學(xué)報(bào), 2021, 42(9): 218-230.( Lai Jie, Wang Xiaodan, Xiang Qian, et al. Review on autoencoder and its application [J]. Journal on Communications, 2021, 42(9): 218-230.)
[44]張彬, 周粵川, 張敏, 等. 生成對(duì)抗網(wǎng)絡(luò)改進(jìn)角度與應(yīng)用研究綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(3): 649-658. (Zhang Bin, Zhou Yuechuan, Zhang Min, et al. Review of research on improvement and application of generative adversarial networks [J]. Application Research of Computers, 2023, 40(3): 649-658.)
[45]Hyvrinen A. Some extensions of score matching [J]. Computatio-nal Statistics amp; Data Analysis, 2007, 51(5): 2499-2512.
[46]Hyvrinen A, Dayan P. Estimation of non-normalized statistical mo-dels by score matching [J]. Journal of Machine Learning Research, 2005, 6(4): 695-709.
[47]Song Yang, Garg S, Shi Jiaxin, et al. Sliced score matching: a sca-lable approach to density and score estimation [C]// Proc of the 35th Uncertainty in Artificial Intelligence Conference. [S.l.]: PMLR, 2020: 574-584.
[48]Jolicoeur-Martineau A, Piché-Taillefer R, Combes R T, et al. Adversarial score matching and improved sampling for image generation [EB/OL]. (2020-10-10). https://arxiv.org/abs/2009.05475.
[49]Parisi G. Correlation functions and computer simulations [J]. Nuclear Physics B, 1981, 180(3): 378-384.
[50]Jolicoeur-Martineau A, Li Ke, Piché-Taillefer R, et al. Gotta go fast when generating data with score-based models [EB/OL]. (2021-05-28). https://arxiv.org/abs/2105.14080.
[51]Lu Cheng, Zhou Yuhao, Bao Fan, et al. DPM-solver: a fast ODE solver for diffusion probabilistic model sampling in around 10 steps [C]// Advances in Neural Information Processing Systems. 2022: 5775-5787.
[52]Vincent P. A connection between score matching and denoising autoencoders [J]. Neural Computation, 2011, 23(7): 1661-1674.
[53]Zhang Qinsheng, Chen Yongxin. Fast sampling of diffusion models with exponential integrator [EB/OL]. (2023-02-25). https://arxiv.org/abs/2204.13902.
[54]Rashidian S, Wang F, Moffitt R, et al. SMOOTH-GAN: towards sharp and smooth synthetic EHR data generation [C]// Proc of the 18th International Conference on Artificial Intelligence in Medicine. Berlin: Springer-Verlag, 2020: 37-48.
[55]Murtaza H, Ahmed M, Khan N F, et al. Synthetic data generation: state of the art in health care domain [J]. Computer Science Review, 2023, 48(5): 100546.
[56]Johnson A E W, Pollard T J, Shen Lu, et al. MIMIC-Ⅲ, a freely accessible critical care database [J]. Scientific Data, 2016, 3(1): article No.160035.
[57]Johnson A E W, Bulgarelli L, Shen Lu, et al. MIMIC-Ⅳ, a freely accessible electronic health record dataset [J]. Scientific Data, 2023, 10(1): article No.1.
[58]Hodge Jr J G, Gostin L O, Jacobson P D. Legal issues concerning electronic health information: privacy, quality, and liability [J]. Jama, 1999, 282(15): 1466-1471.
[59]He Huan, Zhao Shifan, Xi Yuanzhe, et al. MedDiff: generating electronic health records using accelerated denoising diffusion model [EB/OL]. (2023-02-08). https://arxiv.org/abs/2302.04355.
[60]Tian Muhang, Chen B, Guo A, et al. Fast and reliable generation of EHR time series via diffusion models [EB/OL]. (2023-09-23). https://openreview.net/pdf?id=ESSqkWnApz.
[61]Ceritli T, Ghosheh G O, Chauhan V K, et al. Synthesizing mixed-type electronic health records using diffusion models [EB/OL]. (2023-08-10). https://arxiv.org/abs/2302.14679.
[62]Naseer A A, Walker B, Landon C, et al. ScoEHR: generating synthetic electronic health records using continuous-time diffusion models [C]// Proc of the 8th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2023: 489-508.
[63]Kuo N I, Jorm L, Barbieri S. Synthetic health-related longitudinal data with mixed-type variables generated using diffusion models [EB/OL]. (2023-03-22). https://arxiv.org/abs/2303.12281.
[64]Biswal S, Ghosh S, Duke J, et al. EVA: generating longitudinal electronic health records using conditional variational autoencoders [C]// Proc of the 6th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2021: 260-282.
[65]Sadati N, Nezhad M Z, Chinnam R B, et al. Representation learning with autoencoders for electronic health records: a comparative study [EB/OL]. (2019-09-20). https://arxiv.org/abs/1908.09174.
[66]Iqbal T, Ali H. Generative adversarial network for medical images (MI-GAN) [J]. Journal of Medical Systems, 2018, 42(11): 231.
[67]Walonoski J, Kramer M, Nichols J, et al. Synthea: an approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record [J]. Journal of the American Medical Informatics Association, 2018, 25(3): 230-238.
[68]Sun Chang, Van Soest J, Dumontier M. Generating synthetic personal health data using conditional generative adversarial networks combining with differential privacy [J]. Journal of Biomedical Informa-tics, 2023, 143(7): 104404.
[69]Lee D, Yu H, Jiang Xiaoqian, et al. Generating sequential electronic health records using dual adversarial autoencoder [J]. Journal of the American Medical Informatics Association, 2020, 27(9): 1411-1419.
[70]Pollard T J, Johnson A E W, Raffa J D, et al. The eICU collaborative research database, a freely available multi-center database for critical care research [J]. Scientific Data, 2018, 5(1): 180178.
[71]Asuncion A, Newman D. UCI machine learning repository [DB/OL]. [2024-03-02]. https://archive.ics.uci.edu/datasets.
[72]Buczak A L, Babin S, Moniz L. Data-driven approach for creating synthetic electronic medical records [J]. BMC Medical Informatics and Decision Making, 2010, 10: article No.59.
[73]Yan Chao, Yan Yao, Wan Zhiyu, et al. A multifaceted benchmar-king of synthetic electronic health record generation models [J]. Nature Communications, 2022, 13(1): 7609.
[74]Choi E, Biswal S, Malin B, et al. Generating multi-label discrete patient records using generative adversarial networks [C]// Proc of the 2nd Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2017: 286-305.
[75]Baowaly M K, Lin C C, Liu Chaolin, et al. Synthesizing electronic health records using improved generative adversarial networks [J]. Journal of the American Medical Informatics Association, 2019, 26(3): 228-241.
[76]Torfi A, Fox E A. CorGAN: correlation-capturing convolutional ge-nerative adversarial networks for generating synthetic healthcare records [C]// Proc of the 33rd International Florida Artificial Intelligence Research Society Conference. Palo Alto, CA: AAAI Press, 2020.
[77]Wang Lu, Zhang Wei, He Xiaofeng. Continuous patient-centric sequence generation via sequentially coupled adversarial learning [C]// Proc of the 24th International Conference Database Systems for Advanced Applications. Cham: Springer, 2019: 36-52.
[78]Hoogeboom E, Nielsen D, Jaini P, et al. Argmax flows and multinomial diffusion: learning categorical distributions [EB/OL]. (2021-10-22). https://arxiv.org/abs/2102.05379.
[79]Kingma D P, Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). http://export.arxiv.org/abs/1312.6114.
[80]Hu Zhiting, Yang Zichao, Liang Xiaodan, et al. Toward controlled generation of text [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR, 2017: 1587-1596.
[81]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[82]Hjelm R D, Jacob A P, Che Tong, et al. Boundary-seeking generative adversarial networks [EB/OL]. (2018-02-21). https://arxiv.org/abs/1702.08431.
[83]Zhang Ziqi, Yan Chao, Mesa D A, et al. Ensuring electronic medical record simulation through better training, modeling, and evaluation [J]. Journal of the American Medical Informatics Association, 2020, 27(1): 99-108.
[84]Zhang Ziqi, Yan Chao, Lasko T A, et al. SynTEG: a framework for temporal structured electronic health data simulation [J]. Journal of the American Medical Informatics Association, 2021, 28(3): 596-604.
[85]Esteban C, Hyland S L, Rtsch G. Real-valued (medical) time series generation with recurrent conditional GANs [EB/OL]. (2017-12-04). https://arxiv.org/abs/1706.02633.