李寅昊,黎成權,劉林威,王 霞,肖立,4*
(1.清華大學臨床醫學院,北京 100084;2.清華大學醫學院,北京 100084;3.中國科學院計算技術研究所,中科院智能信息處理重點實驗室,北京 100090;4.中國科學院大學寧波華美醫院學科發展中心,浙江 寧波 305010)
隨著我國醫療水平的進步,越來越多的醫院開始引進數字化信息系統,如醫院信息系統(HIS)、醫學影像歸檔和通信系統(PACS)、檢驗信息系統(LIS)等逐漸被醫院采用[1]。數字化信息系統的成功應用,在方便患者的同時也留下了大量數字化數據,為醫學人工智能技術發展提供了堅實的基礎。然而,由于標準不統一,相關人員培訓乏力等原因,導致醫療數據在使用中存在“臟數據”“非標準化數據”及“數據信息孤島”等一系列問題[2],數據輸入、維護、處理等環節時常出現異常[3]。
現有的醫療數據集大多來自不同中心,并且不同中心的數據格式、標注規范等存在差異,因此這些醫療數據普遍具有多源異構的特點。對于這些多源異構數據,一方面,其源自多個數據持有方,統一利用勢必存在困難;另一方面,不同持有方的數據特征和標注規范不一致,將會導致出現數據偏移和數據噪聲的情況。因此,如何集成并學習這些多源異構數據,成為了醫學數據處理的重要研究問題,本文將對多源異構數據集成和學習方法進行梳理和總結。
隨著信息技術的飛速發展,數據獲取渠道不斷擴展,這導致無論是醫療圖像還是自然圖像,其數據源頭越來越廣,數據類型也越來越多。這種來源不同的數據被稱為多源數據,而如果這些數據所表現出的類型和特征不一致,則被稱為異構數據,一般來說,數據的多源性也會導致其具有異構的特點[4]。對于這種多源異構數據,由于其具有多個數據持有方,標注標準不統一及標注人員水平不一的特點,導致其在使用時存在著統一利用困難,數據偏移及數據噪聲的問題。因此,傳統的數據存儲方法及學習方法很難對其進行處理。因此,如何構建新的數據集成及學習方式,成為最大化利用多源異構數據的關鍵[5]。
由于現有的醫學數據庫所依賴的計算機體系結構不同,數據存儲方式存在差異,以及不同數據庫的模式不盡相同,導致其具有系統性、技術性及語義性3個方面的異構[6]。醫療異構數據集成解決方案主要基于數據倉庫、聯邦數據庫、中間件(包裝器/中介器、本體/網格、XML)3大類型構建而成。
2.1 基于數據倉庫的數據集成 數據倉庫概念被認為是由William Inmon創始并定義:“數據倉庫(Data WareHouse,DW)是1個面向主題的(Subject Oriented)、集成的(Integrated)、非易失性的(Non-Volatile)、時變的(Variant Time)數據集合,用于支持管理決策(Decision Support Making)。[7]”基于數據倉庫的數據集成模式主要包含3部分:ETL(extract-transform-load)、集成器及數據倉庫。其中ETL主要負責抽取轉換來自于各個數據源的數據,在抽取轉換過后將數據傳入集成器來消除異構性,之后再經過數據清洗后傳送到數據倉庫中,由數據倉庫將數據提供給各個用戶。
ETL過程在構建數據倉庫中具有十分關鍵的作用,在數據抽取過程中,處理過程的復雜性取決于數據特征和屬性、數據量、處理時間等因素。在數據轉換和清洗過程中,需要保證數據的完整性、有效性、準確性、一致性。在數據加載過程中,關鍵是要區分新數據和現有數據[8]。
數據倉庫在實現上也存在一些挑戰,如時間模式設計、可追溯性、表達模式、知識進化、流程自動化等一系列問題[9]。
Kadek Ary Budi Permana等設計了一個數據倉庫用于醫療病歷信息存儲[10]。該數據倉庫采用Kimball架構,集成了以下幾類數據:用藥記錄、患者醫療記錄、患者國際疾病傷害及死因分類標準第十版(ICD10)編碼、其它類型數據等,主要服務于醫院間信息交換和政府機構信息化監管。該模型總線架構設計如下:將業務流程劃分為患者藥物、患者治療、患者ICD10編碼、患者分布4個部分,并設計了患者、藥物、治療、ICD10編碼、醫院、時間等6個維度。在該架構中,各機構數據進入ETL過程接受整合,包括數據提取、清洗、轉換、加載到數據倉庫等步驟,醫院和監管機構的用戶可以通過客戶端數據中心調用這些數據。

圖1 基于數據倉庫的數據集成
Hamoud等設計了一個癌癥數據倉庫(Clinical Data Warehouse,CDW)[11]。研究人員首先將來自多個醫療機構的數千份紙質數據錄入到excel數據表中并進行匯總整合,使用了SQL Server管理服務工具[SQL Server管理服務(SSMS),SQL Server集成服務(SSIS),SQL Server分析服務(SSAS)和SQL Server報告服務(SSRS)],將星型模式作為CDW設計模式,該模式由年齡、性別、疾病、個人信息、日期和地址六個維度和事實表組成。基于CDW的維度構造數據立方體以執行在線分析處理(On-line Analytical Processing,OLAP)操作,最后還可使用SSRS生成報告,將Excel數據透視表連接到SSAS以查看多維數據集。通過該數據倉庫,研究人員可以查看癌癥患者在不同時間、年齡、性別等因素下的分布情況,從而研究不同因素對癌癥的影響。

圖2 癌癥數據倉庫[11]
In Young Choi等開發了一個前列腺癌數據庫,該數據倉庫囊括人口信息、病史、癌癥分期、檢驗信息、藥物治療等信息,還提供了數據可視化功能[12]。該系統主要具有三種數據來源:EMR中非結構化數據、EMR結構化數據、患者紙質數據,該系統支持3種數據錄入方式:手工錄入、Excel數據表文件上傳、CDW與EMR直連。研究人員在圣瑪麗醫院(St. Mary’s Hospital)開展了試驗,使用CDW方法,可以將前列腺癌患者的信息從EMR系統中轉移到前列腺癌數據庫中。通過該系統,可以比較采用不同治療方案患者的治療效果,基于此開展前瞻性研究,促進前列腺癌患者臨床護理。
2.2 基于聯邦數據庫的集成 聯邦數據庫系統是1種元數據庫管理系統,它透明地將多個自治數據庫系統映射到單個聯合數據庫中,再統一地由聯邦數據庫管理系統提供控制和協同操作[13]。
建立聯邦數據庫的關鍵在于優化以下幾點:包括查詢模式、分析算法、語義映射、數據傳輸、負載平衡、資源調配等內容。[14]
因為不需要集中存儲,聯邦數據庫比數據倉庫更具可擴展性和靈活性,但需要花費較多成本向系統添加新的數據源,或者修改當前服務[15]。盡管聯邦數據庫在數據隱私保護方面存在一定優勢,但依舊需要采取一定的隱私保護措施,如硬件防篡改,身份認證等保障措施。[16]

圖3 聯邦數據庫
Muilu J等人提出了TwinNet結構,該結構以聯邦數據庫為基礎,用來集成在7個歐洲國家和澳大利亞收集的基因型和表型信息,通過這種結構進行此數據庫設置,以便進行數據交換和匯總分析[17]。在TwinNet中,各個數據提供中心通過虛擬私人網絡(VPN)連接到數據集成節點,數據集成節點則負責將數據上傳到集成器上完成集成。通過TwinNet結構,來源不同的基因型和表型信息可以很好地集成起來。在TwinNet結構中,用戶以及開發人員可以透明地從系統中獲取數據,而無須關心數據的格式或站點。在安全性方面,TwinNet所維護的所有數據庫和數據集的標識符都經過隨機化處理,不包含任何個人信息。并且數據間的連接使用虛擬私人網絡(VPN),從而確保了連接的安全性。基于該數據庫,研究人員匯集了歐洲60萬雙胞胎的信息,證明了該架構的可擴展性。

圖4 TwinNet[17]
2.3 基于中間件的集成 中間件是一種位于應用系統和各個異構數據源之間的結構,目的是為了解決分布異構數據交換與集成問題。其負責轉換各異構數據源的模式,從而能夠向用戶提供全局統一模式的數據。
中間件能夠隱藏網絡的細節,有助于應用的開發、植入、執行和交互,主要有事務中間件、過程中間件、消息中間件和面向對象中間件四種類型[18]。
中間件致力于解決不同異構設備間的互操作性問題,但同樣面臨異構網絡擴展性、實時推理等問題,提供能夠描述醫療物聯網和傳感器的完整本體也是一大挑戰[19]。
Hansi Zhang等人使用基于本體的數據集成方法,基于多水平癌癥生存集成數據分析方法(Integrative Data Analysis,IDA)尋找癌癥生存預測因子[20]。研究人員采用的數據源包含了個人層面(種族、性別、確診年齡、腫瘤類型等)、環境層面(地區高中畢業率、地區貧困率等)的多個水平數據,建立了癌癥研究變量本體(Ontology for Cancer Research Variables,OCRV),用于通過異構數據源集成和統一多級癌癥預測器,使用語義映射公理創建基于本體的語義數據訪問框架(Ontology-based Data Access,OBDA),OBDA模型由映射公理和數據源聲明兩部分組成,通過SPARQL查詢訪問相關臨床數據庫。
Longxiang Shi等人提出了一種醫療信息集成模型,用于集成醫療健康數據和異構文本醫學知識(Textual Medical Knowledge,TMK)并進行語義查詢和推理[21]。該模型包括三個部分:醫學知識模型(Medical Knowledge Model,MKM)、健康數據模型(Health Data Model,HDM)和術語表(Terminology Glossary,TG),其中TG包含健康數據元數據索引、醫學知識元數據索引、元數據間術語映射本體、模型間概念映射本體。MKM用于定義知識模式,將TMK組織成概念圖。HDM從原始數據模式中生成,通過Web本體語言(OWL)來表達本體模型,用于標準化EHR數據。TG提供表達TMK和HDM實例的詞庫,并提供語義映射用于實現集成。在該系統中,通過輸入身體特定部位,可以檢索位于該身體部位相關癥狀、可能疾病以及相應治療方案,反之亦然。該系統還能夠自動集成最新的醫學知識資源,促進醫學研究的臨床轉化工作。
Bales等人提出了一種基于XML的數據集成方法XBrain用來集成多源異構的大腦數據[22]。該方法將數據源,可視化工具以及分析工具集成起來,并能夠處理關系型、本體型以及XML型數據,其中,數據源包含皮質刺激映射關系數據庫(Cortical Stimulation Mapping,CSM)、解剖學基礎模型本體(Foundational Model of Anatomy,FMA)、XML圖像管理器,可視化工具用于操作二維、三維圖像,多種分析工具用于實現不同功能,如大腦映射可視化工具(Visualization Brain Mapper,VBM)。在該模型中,所有的源數據在導入進查詢處理器時需要從原本的格式轉換為XML格式。用戶利用JSP頁面向XQueryD處理器輸入查詢,由XQueryD處理器向各本地數據源發送查詢并集成生成的XML片段。最終的查詢結果可以以多種格式展示給用戶。

圖5 XBrain[22]
Chun fei Zhang等人設計了一個基于SOA架構(Service-Oriented Architecture)的醫療信息集成平臺,用于整合醫院業務和數據,并實現與外部系統的互操作性[23]。該平臺包含七個主要模塊:基本業務層(集成了醫院現有主要信息系統)、信息交換層、信息服務層、信息管理層、數據分析層、平臺應用層和門戶層。在該平臺的數據集成模塊中,通過XML、Web Service和消息中間件技術以集成異構數據,消息中間件用于屏蔽來自不同系統的不同格式的異構數據源,并生成標準XML格式的數據,Web Service端對XML格式數據做統一的集成處理,最后通過中間件輸出數據用于存儲和調用。SOA架構通過設計取代原有點對點的數據接口模式,提高了醫療信息的訪問和交互效率。
3.1 聯邦學習 聯邦學習系統是一個學習過程,在這個過程中,數據所有者共同訓練一個模型,并且任何一個數據擁有者的數據都不向另外的數據擁有者公開[24]。聯邦學習旨在保持數據本地化的前提下,在數據中心完成模型的訓練。這就要求聯邦學習具有大規模學習,分布式優化以及隱私保護的能力[25]。

圖6 SOA架構
聯邦學習主要有三種類型:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。在橫向聯邦學習中,各節點共享數據特征,數據內容則不相同,這適用于具有同類醫療數據信息的不同醫療機構構建聯邦學習網絡。在縱向聯邦學習中,各節點持有相似數據內容,但研究的數據特征有一定差異,以滿足不同的研究目的。在聯邦遷移學習中,各節點數據內容和數據特征都不盡相同,目的在于將一個領域的知識遷移到另一個領域以求獲得更好的學習效果[26]。
聯邦學習的訓練模式主要有兩種:并行訓練和非并行訓練。并行訓練的效率雖然較高,但在某些場景可能帶來邏輯問題。非并行訓練雖然效率較低,但可以適應非齊次計算環境。非齊次訓練又可進一步分為三種訓練結構:集成訓練、單權重訓練、循環權重訓練[27]。
Olivia Choudhury等人建立了一個聯邦學習模型,使用醫療數據來預測藥物不良反應(Adverse Drug Reaction,ADR),該模型可以集成分布式醫療數據用于訓練ADR預測模型[28]。研究人員基于兩組用例對該模型進行了測試:預測患者長期服用阿片類藥物癥狀和服用抗精神病藥物的錐體束外癥狀。各個終端共享全局模型,使用分布式數據進行訓練,訓練得到的模型參數將被用于改良全局模型,直到達到模型訓練目標。在聚合本地模型更新以優化全局模型方面,該架構根據樣本類別比例設定相應權重,并對罕見類別賦予更高權重,同時對使用較少樣本和時間達到收斂的終端賦予更高權重,以期實現更佳訓練效果。研究人員在聯邦學習中采用了支持向量機(Support Vector Machine, SVM)、單層感知器(Single-layer Perceptron)和邏輯回歸(Logistic Regression)三類算法,使用基于隨機梯度下降(Stochastic Gradient Descent,SGD)的優化方法,并證明了在ADR預測方面聯邦學習模型的性能與中心化學習的性能相當。
Abhijit Guha Roy等人設計了一種點對點的聯邦學習架構BrainTorrent,在該架構中沒有中心集成平臺,所有客戶端之間可直接交互,研究人員提出了基于聯邦學習的DNN訓練策略,通過平均所有客戶端中模型參數權重來創建模型,通過客戶端動態更新來支持模型訓練[29]。研究人員將該模型應用于MRI T1全腦影像分割任務中,將左右腦整合為一個類別,所有皮層細胞整合為一個類別,以簡化分割任務。最后,證明了采用該架構的效果與數據集中式模型訓練的性能相近,并通過動態更新保證了模型的健壯性。
Adnan Qayyum等人提出一種基于協作式聯邦學習(Clustered Federated Learning,CFL)的框架,應用邊緣計算技術,部署機器學習模型,處理X線和超聲影像多模態數據,用于COVID-19的自動多模態診斷,并發現該模型相對于傳統聯邦學習模型能夠更好地應對異源(X線、超聲圖像)的數據分布的差異[30]。由于在實際應用場景中不同終端圖像大小、對比度、亮度、質量、部位等因素都存在差異,這在一定程度上影響了模型訓練的效果。
聯邦學習可以解決醫療數據隱私或去標識化問題,降低數據泄露風險,不斷升級客戶端,提升聯邦學習網絡通信能力是重要方向[31]。在實際應用時要注意數據的非獨立同分布特性、全局最優與局部最優之間的權衡等問題[32]。
聯邦學習主要存在以下幾大挑戰:網絡通信成本高、統計異構性、計算異構性、存儲異構性、系統異構性、隱私問題等[33]。
3.2 噪聲數據的學習 多源異構數據中通常含有噪聲,給模型學習帶來不少挑戰。這些噪聲包括樣本本身的噪音,以及數據標注過程中的噪音。
在MRI、PET、CT、超聲等醫學影像中都存在低信噪比的問題,在數字圖像處理過程中,去噪通常是最重要的預處理環節之一。
通過統計學中的異常值檢測方法在醫學影像中的應用具有一定局限性,因為一些噪聲數據并非統計意義下的異常值。通過引入人工智能方法,對噪聲數據進行識別,是未來的重要方向[34]。
深度學習神經網絡對噪聲具有較強的魯棒性,能夠增強噪聲圖像的連續邊緣,保留線條和角點等結構特征,在圖像重建和噪聲表現之間做出權衡[35]。
Guotai Wang等人設計了一種對噪聲魯棒的結構,用來完成covid-19 CT圖像病變分割任務[36]。肺部CT影像分割的挑戰在于不同患者病變表現、大小、階段不一,該結構采用經典的教師-學生模型,教師模塊和學生模塊相互促進,用來減少噪聲數據對模型的影響。該模型使用來自 10家不同醫院的558例新冠患者的臨床 CT 掃描,這些圖像具有不同的切片厚度和像素大小。實驗發現,數據重新加權和標簽更新都有助于獲得更好的分割性能。
Guohua Cheng等人設計了一種基于GAN的結構,這種結構結合了標簽校正以及樣本權重分配,來解決噪聲標簽的問題[37]。該網絡包含兩個主要部分:發生器,是一個雙重推斷網絡,用于校正標簽和完成分割;鑒別器,用于評估校正標簽和相應的評分。研究人員在Shining 3D牙科視頻數據集上進行了測試,隨機化選擇并標注了7800幅圖像,該模型通過標簽校正,對于牙齒形狀、相機運動和背景雜斑等帶來的噪音具有穩健性,在實驗中能夠有效區分臉頰和牙齦,牙齒和白色護舌器。
Farman Ali等人采用深度學習和特征融合技術,設計了一套心臟病智能預測監護系統。該系統融合了來自可穿戴設備、檢測設備和EMR中Framingham危險評分數據,提出在特征選擇中采用信息增益(IG)方法來消除不相關的特征,篩選出關鍵特征,降低噪聲和數據集復雜性以及維度,從而提高了性能。該系統還設計了基于語義網規則語言(SWRL)的本體,用來自動為心臟病患者提供飲食或活動推薦[38]。
數據中常見的另一類噪音為專家標注中的偏見引起的噪音,多標簽學習通過綜合學習多位專家的標注,可以在一定程度上克服標注中的偏見對模型的影響。多標簽學習通常分為三種類型,第一種是不考慮標簽之間的相關性,第二種是考慮標簽之間的兩兩相關性,第三是考慮標簽與其它所有標簽之間的整體相關性[39]。
多標簽學習中,一個研究對象通常與多個標簽相關聯,標簽之間存在相互關系通常難以通過原則化的方式來確定,保證標簽上標注完整性和準確性存在挑戰,類別不平衡、不等誤分類代價等問題[40]。此外,多標簽分類算法開發、高維特征空間的降維也是目前這方面的重點問題[41]。
Yu Shuang等人設計了一種結構來充分利用多標注者的共識信息來提升青光眼分類效果[42]。該工作提出利用多分支結構在三種不同的敏感度設定下產生預測,分別是最佳靈敏度預測、最佳特異度預測和均衡化預測。由于青光眼的病理部位集中在視盤及周邊區域,因此在預處理中,圍繞視盤中心的三個視盤直徑的區域被選擇為ROI區域,并被調整為同等尺寸。研究人員提出利用共識損失來鼓勵網絡對相同標簽的樣本產生相同預測結果,對不同標簽的樣本產生不同預測結果。并且,根據不同分支間預測結果的余弦相似度,可以判斷樣本的難易程度,從而讓網絡更聚焦于困難樣本上從而提升性能。通過這種設計,一方面可以更好地利用多標注者地標注信息,產生更好地結果,另一方面,該結構能夠產生不同敏感度下的預測結果,也更符合臨床需求。
由于在病理圖像領域中,不同專家對同一張病理圖像的判定存在較大差異,因此,面對有多專家標注的病理圖像數據,如何更好地權衡不同專家的標注可信度成為了解決病理圖像分割問題的關鍵[43]。在該結構中,權重網絡對每一張輸入圖片及每一位專家生成對應的權重熱度圖。該熱度圖表示該專家在特定圖像上標注的可信度,將該熱度圖作用在損失函數上用于指導訓練,從而起到了讓網絡更關注于高可信度標注的效果。此外,病理影像不同紋理區域在確定癌癥類型及其等級方面發揮不同作用,研究人員在模型實驗中發現大多數困難樣本都落在了粗糙區域,因此推測粗糙區域可能相對重要,因此提出一種高斯注意力焦點損失函數(Gaussian attention focal loss,GAFL),用以考慮到每個像素的粗糙度來作為優化。
Mengxing Huang等人提出一種異構數據源臨床決策支持框架(HDS CDS),該框架整合了實驗室數據、健康病歷數據、監測數據(心電圖數據)等異構數據源,包含實驗室數據分析、患者基本信息分析、癥狀分析、監測數據分析四大數據分析模塊,然后通過標簽矩陣重構模塊,利用余弦相似度計算每兩個標簽之間的相關性,構造相似度矩陣,然后通過相似度矩陣重構標簽矩陣,最后通過診斷模塊,利用CML kNN多標簽分類算法識別目標患者的可能疾病并輸出結果。研究人員通過該框架,收集了459例患者共計9種常見疾病的醫療健康檔案,并證明通過該框架能夠發掘疾病與年齡,疾病與疾病之間的關聯,但由于多標簽條件所帶來的復雜性,該方法還需要進一步采用更好的特征選擇方法來進行特征分析,以及提高模型的計算速度[44]。
3.3 特征融合學習 在臨床實踐中通常需要對圖像數據、檢驗數據、文本數據等多源數據進行融合以進行綜合準確的診斷。基于深度學習的融合策略可分成三個層面:特征融合,指將多個輸入模態融合成一個特征向量;聯合融合,將神經網絡中間層的特征表示與多模態的特征連接起來作為最終模型的輸入;決策層融合,由多個模型的預測得出最終結果[45]。
在融合過程中,圖像融合受到傳感器、噪聲、可變性、運動偽影、對比度和分辨率等多方面因素的影響,在特征融合中,改進成像質量和降低噪聲是提高融合質量的關鍵,數據融合中算法具備良好的特征模型是保證融合可靠性的關鍵[46]。
Tao Zhang等人提出了一種基于注意力機制的深度多模態融合網絡,用于阿爾茨海默病診斷。該網絡能夠選擇性地從MRI和PET分支中提取特征,采用注意力模型,網絡能夠聚焦到感興趣區域,根據數據的重要性自動分配各模態的融合率,并進行多模態融合。為了保證多模態融合的有效性,采用了分層融合的方法,提升多模態數據間的協同作用,并證明該網絡能夠挖掘多模態數據中的低層和高層特征,提高AD診斷的準確率。基于該模型,研究人員進行了三種類型分類實驗:正常對照組/AD組,早期輕度認知障礙(EMCI)/晚期輕度認知障(LMCI),AD四類分型,并證明了該模型相對于標準基線算法有不同程度的明顯提升,其中,由于AD組與正常對照組的差異較為明顯,因此分類準確率也是最高的[47]。
Dong Liu等人提出一種多層視覺特征融合(MLVSF)框架,該框架利用局部二值模式(LBP)和其變體CoLBP提取全局紋理低層特征,使用視覺詞袋獲取SIFT中層特征,使用AlexNet和VGG-16網絡進行CNN 特征學習,該方法能夠有效地集成手工特征和深度特征各自的優勢。研究人員在淋巴瘤數據集上測試了對CLL、FL、MCL三種類型淋巴瘤的分類性能,在組織學數據集上展開了測試,證明了該融合特征方法相對于AlexNet和VGG-16等模型在分類性能上有所提升,但也發現視覺詞袋模型在淋巴瘤分類中的準確率較低[48]。
Bumjun Jung等人提出了一個基于特征提取和多模態特征融合的視覺問答任務模型(VQA),VQA模型以醫學圖像和文本問題作為輸入,輸出是模型對該問題的預測答案。該模型使用帶全局平均池(GAP)的VGG16網絡提取圖像特征,采用bioBERT模型編碼文本特征,該模型相比傳統的BERT模型,在編碼生物醫學文本方面具有更強的性能,然后通過MFH池化,并結合協同注意力機制,融合圖像特征和文本特征,最終輸出預測結果。研究人員在ImageCLEF-VQAMed-2020醫學影像數據集上展開了訓練和測試,結果顯示該模型在測試集上準確率0.466,BLEU評分0.502[49]。
Xiaoxin Guo等人提出一種增強的多特征融合網絡(EMFN),該模型屬于卷積神經網絡,可用于眼底圖像硬性滲出液檢測。該模型選取了眼底圖像綠色通道、形態特征(MF)、對比度受限的自適應直方圖均衡化(CLAHE)、曲率作為輸入特征,為每種特征構建一個單獨的分支,最后通過YOLOv3目標檢測算法獲取融合輸出結果,在一定程度上解決了常規檢測方法準確率低、效率低的問題,并排除視盤區域的干擾。研究人員同時發現,眼底圖像綠色通道相比原始RGB圖像能夠更明顯地顯示硬滲出物的特征[50]。
由于醫療數據的來源和結構的多樣性,導致醫療數據普遍具有多源異構的特點。針對這一特點,已經有諸如數據倉庫等多種數據集成方法被提出并應用于實際,用來集成這些多源異構數據。另外,也有包括聯邦學習在內的多種學習方式,用來克服多源異構數據的缺陷,并從中學習到有用的信息。