申輝繁 黃源



摘? 要:基于乳腺超聲影像數據和病理報告數據,采用隱私保護技術保障數據的安全性,通過ETL技術和互聯網技術,開發乳腺超聲影像篩選與標定系統。系統實現了多模態的數據導入及預處理、乳腺超聲影像數據篩選及標定、專家審核等功能,為人工智能在乳腺超聲影像智能診斷與分析領域的應用提供高質量的數據支撐,同時提升了標定醫生的工作效率。
關鍵詞:人工智能;ETL;超聲影像;智能診斷
中圖分類號:TP391.9? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)11-0026-05
Design and Implementation of Breast Ultrasound Image Screening and Labeling System
SHEN Huifan, HUANG Yuan
(Sichuan Institute of Computer Sciences, Chengdu? 610041, China)
Abstract: Based on breast ultrasound image data and pathological report data, this paper uses privacy protection technology to ensure the data security, and develops the breast ultrasound image screening and labeling system through ETL and internet technology. The system realizes the functions of multimodal data importing and pretreatment, data screening and labeling of breast ultrasound image data, and expert review. It provides high-quality data support for the application of Artificial Intelligence in the field of intelligent diagnosis and analysis of breast ultrasound images, and improves the work efficiency of labeling doctors.
Keywords: Artificial Intelligence; ETL; ultrasound image; intelligent diagnosis
0? 引? 言
近年來,醫學影像與人工智能(AI)的結合成為行業發展的熱點,尤其是在AI與放射影像的結合領域取得了大量成果[1]。然而,超聲影像的信噪比低、病變類型分布不均、數據標注的成本高等特點增大了超聲影像AI訓練的難度,對AI與超聲影像結合領域的應用產生較大的影響[2]。本系統基于乳腺超聲影像數據和病理報告數據,采用ETL技術對影像數據和病理數據進行抽取、集成、融合,利用互聯網和信息安全等技術開發篩選與標定系統,實現數據清洗、多模態數據導入、數據篩選與標定、專家審核等工作流程,同時保障了數據的安全性。由于乳腺超聲影像數據的標注具有很強的專業性,需要有經驗的醫生對數據進行標注,因此高性能、高標準的數據標定系統顯得尤為重要,本系統的實現提升了標注醫生的工作效率,為乳腺超聲影像在AI領域的應用提供了高質量的數據支撐。
1? 系統設計
1.1? 系統總體架構設計
為保證系統的靈活性,讓系統能隨著用戶工作流程、工作需求等的變化而方便地升級,做到隨需應變,延長系統使用周期,該系統采用了以SOA(Service-Oriented Architecture)
架構思想為指導,以服務為核心[3,4],采用基于面向服務的思想進行業務建模和構架業務流程,有利于保證每個業務環節均通過服務進行實現,支持組織內部業務快速協同,有利于快速適應組織機構與業務流程的變化,系統的總體架構如圖1所示。系統的整體框架分為五層,包括數據中心、支撐平臺、應用層、網絡層、用戶層[5,6]。系統采用高拓展性、高可靠性和低成本的分布式存儲與計算框架,通過對結構化數據和非結構化數據進行標準化、結構化、歸一化后采用分布式存儲方式對數據進行安全存儲,充分運用事務處理等成熟技術,在統一應用支撐平臺上部署系統,并可根據負載變化進行集中式或集群部署。系統建立超聲影像安全管理體系,保障數據存儲、網絡設備、基礎設施等安全工作,并提供數據安全保障相應措施,做到數據流轉全程留痕、數據安全監測和預警、數據泄露事故可查詢可追溯等數據安全保障工作。
不同角色的用戶通過瀏覽器發出HTTP請求,由網絡層的Nginx服務器代理至Tomcat容器進行處理,后端采用RMI遠程調用的方式實現通信。
應用層采用Duboo+Zookeeper高可用分布式架構,基于微服務架構,使得每個服務能夠獨立運行而又互不影響,根據用戶不同的請求向業務中臺調用各類服務,如數據查看、統計分析、數據導出等。
支撐平臺為應用層提供業務支撐,主要包括表單組件、集成平臺、數據展示、用戶系統、權限系統、ETL工具等,支撐平臺是連接數據中心和應用層的橋梁。
數據中心是對系統數據進行存儲,體現為MySQL數據庫、Redis緩存數據庫、Mycat數據庫中間件等。數據中心主要包括乳腺超聲影像庫、乳腺超聲病理庫、病人基本信息庫、系統用戶信息庫等。
1.2? 系統設計原則
該系統的建設是一個系統性的工程,在功能上體現綜合性,結構上凸顯層次性,在設計過程中嚴格遵守了多種原則:
1)安全性:系統充分考慮系統運行的安全策略和機制,實現備份和方便快捷的恢復功能,能夠抵御高強度的網絡攻擊和滲透,在系統遭到攻擊或崩潰時能快速恢復,確保重要數據的機密性和完整性;數據處理過程要保證數據安全性,做到數據保密性、數據完整性、數據可利用等。
2)可擴展性:系統采用面向對象和模塊化的設計理念,各類接口服務滿足可擴展的原則,便于更新、擴充、升級。系統的功能滿足當前業務處理的需求,并充分考慮未來業務種類不斷增長和用戶不斷增長的需求。
3)高性能和穩定性:系統應保證各種網上應用服務的穩定高效運行,能夠在高訪問負載情況下,向各類服務對象提供可靠的服務。在考慮經濟性和實用性的前提下,選擇高性能的基礎架構設施。并規范地進行系統建設、開發和軟硬件配置,提供合理有效的應急方案,確保系統的高穩定。
1.3? 系統功能設計
如圖2所示,本系統功能主要分為數據錄入、數據清洗、數據管理、系統管理4個功能模塊:
1)數據錄入模塊:包括乳腺超聲影像數據導入和乳腺病理數據導入。乳腺超聲影像數據導入功能可以將病人歷年的乳腺超聲檢查數據導入該系統,乳腺病理數據導入功能可以將Excel文件數據或HTML文件數據等多模態數據導入該系統,并根據病人檢查號自動綁定乳腺超聲數據和乳腺病理數據。
2)數據清洗模塊:對乳腺超聲數據和乳腺病理數據進行數據抽取、數據轉換、數據融合,對敏感信息進行脫敏處理,最終得到系統可使用的數據。
3)數據管理模塊:對導入的乳腺超聲數據和乳腺病理數據進行管理。數據標注醫生可以通過數據篩選、數據標定功能對數據進行篩選、標定,專家醫生可以通過數據審核對標注醫生標注的數據進行審核和數據導出。
4)系統管理模塊:主要提供用戶權限控制以及系統監控等功能。系統采用基于角色的訪問控制的權限管理模式,通過為用戶分配角色,為角色設置權限來控制用戶的權限,系統監控包括日志管理、定時任務管理、性能監控等功能。
2? 關鍵技術
2.1? 多模態數據融合技術
系統采用多源異構數據融合技術,基于知識融合本身的特點,借鑒已有的數據融合算法,將其合理地移植到知識融合中,在傳統ETL能力基礎之上補充了半結構化、非結構化數據采集的能力,解決了針對文本、圖片等數據的采集、轉換、融合和存儲問題。將融合后的數據導入至MySQL、MongoDB或Neo4j等不同類型的數據庫,通過MySQL數據庫能夠實現對數據的便捷管理;MongoDB數據庫能夠便于處理鍵值的快速查詢;而Neo4j圖數據庫能夠便于發現數據關聯關系。建立統一數據接口,靈活接入和同步包括Socket、Webservice、Dll、Corba等多種數據源,在不同的應用場景快速完成多源異構數據整合,提供深度對接各個系統的能力。
2.2? 基于訪問控制的數據隱私保護技術
醫療數據通常包含大量用戶的隱私信息,因此對用戶隱私數據的保護顯得尤為重要。對數據隱私泄露的風險進行量化是一個非常復雜的過程,因為用戶各階段的訪問行為及信任度之間是相互獨立又相互聯系的關系[7],不同指標對最終風險的影響也是不同的。本系統在基于神經網絡和模糊理論的風險量化方法中,借助模糊推理系統對知識進行提取,將模糊推理系統和神經網絡相結合不僅可以提高模型的性能還可以使得數據的處理過程以人們易于接受的方式表達出來。此外,當用戶訪問行為發生微妙變化時,模型的輸出結果也會自動的發生變化,實現動態、自動化的處理方式。
2.3? 基于Duboo+Zookeeper的高可用分布式架構
系統采用Duboo+Zookeeper高可用分布式架構,基于Dubbo分布式服務框架,提供高性能和透明化的RPC遠程服務調用方案,以及SOA服務治理方案,使用ZooKeeper封裝好復雜易出錯的關鍵服務,將高效、穩定、易用的服務提供給用戶使用。以微服務架構為基礎,和傳統的單體架構相比,微服務架構使得整個系統的分工更加明確,將服務按照業務功能分為多個部分,使得開發人員可以獨立地開發、測試、部署和更新,對架構侵蝕具有更好的彈性。每個服務獨立運行,服務的單點故障不會擴展到整個系統,新服務的開發不會影響現有服務,通過REST接口快速整合各類服務,并提供統一、開放的接口服務,實現新業務快速開發和部署。
3? 系統實現
3.1? 數據錄入與檢索
主要實現乳腺超聲影像數據導入和乳腺病理數據導入以及對數據的檢索功能。乳腺超聲數據導入后經過數據預處理得到最終的乳腺超聲影像數據;乳腺病理數據可以導入excel文件數據或HTML文件數據,數據導入后經過數據脫敏、數據清洗后得到存入數據庫,如圖3所示。
3.2? 數據篩選功能
用戶登錄系統后可以根據乳腺病理報告對乳腺超聲影像數據進行篩選,同時可以查看病人詳細的超聲檢查報告詳情,幫助用戶快速篩選出高質量的數據,如果遇到難以篩選的數據,用戶可以跳過篩選并將其標記為“難篩選”,該部分數據將分發至專家醫生進行處理和操作,如圖4所示。
3.3? 數據標注功能
先由系統自動對篩選的數據進行標注,然后數據標注醫生在已標注的基礎上進行調整,提高了標注醫生的工作效率。系統可以通過打點、畫框、畫線、描邊等方式對乳腺超聲數據進行標注,對標注的圖像提供放大、縮小、回退、清空、刪除、編輯等操作,同時系統還提供快捷鍵的功能方便標注醫生進行操作,如圖5所示。
3.4? 數據審核功能
專家醫生登錄系統后可以對已標注的乳腺超聲影像進行審核,審核通過的數據可以保存并導出結果數據,審核不通過的數據可由專家醫生重新標注后得到最終的標定后的數據,通過該功能可以控制數據標定的質量,最終得到能為乳腺超聲影像智能診斷與分析算法模型進行訓練的高質量數據集,如圖6所示。
4? 結? 論
近年來,醫學影像是人工智能最有研究和應用前景的領域,但高質量數據獲取難度大、數據標注成本高等因素嚴重制約了“人工智能+醫學影像”的發展。本文通過多模態數據融合、基于訪問控制的數據隱私保護技術和互聯網等技術,基于乳腺超聲影像數據和病理報告數據,設計并實現了乳腺超聲影像篩選與標定系統,本系統的實現提升了標注醫生的工作效率,為乳腺超聲影像在AI領域的應用提供了高質量的數據支撐。
參考文獻:
[1] 施俊,汪琳琳,王珊珊,等.深度學習在醫學影像中的應用綜述 [J].中國圖象圖形學報,2020,25(10):1953-1981.
[2] 呂明慧,周帥,朱強.基于深度學習乳腺超聲計算機輔助診斷系統研究進展 [J].中國醫學影像技術,2020,36(11):1722-1725.
[3] 肖祥林,周春容.基于云+SOA架構的異構智慧校園平臺設計與實現 [J].電子設計工程,2018,26(4):85-89.
[4] 周洪成,譚宇.基于SOA架構的智慧旅游綜合管理服務平臺設計研究 [J].通信與信息技術,2021(2):87-89+79.
[5] 馮維娜.淺談分層技術在計算機軟件開發中的應用 [J].開封大學學報,2019,33(4):81-83.
[6] 楊芙清.軟件工程技術發展思索 [J].軟件學報,2005(1):1-7.
[7] 王祥,李紅娟,丁紅發.基于風險訪問控制的大數據安全與隱私保護 [J].電子技術與軟件工程,2021(13):236-238.
作者簡介:申輝繁(1987—),男,漢族,湖南邵陽人,工程師,碩士,研究方向:數據挖掘、軟件工程;通訊作者:黃源(1989—),男,漢族,四川德陽人,工程師,碩士,研究方向:數據挖掘、軟件工程。
收稿日期:2023-01-12