梁人月
摘 要 本文對人工智能醫療器械用數據集中的常見質量問題進行了分析,并對數據集的管理和評價原則進行了討論,對數據管理體系的設計和建設進行了研究和探索,提出了幾點對策和建議。
關鍵詞 人工智能;醫療器械;數據集
引言
當前人工智能在醫療器械的開發研究中獲得了廣泛的應用,其中數據集是人工智能進行學習、訓練的主要基礎。人工智能通過對數據集進行分析提取特征并形成算法模型,然后通過對這一模型進行持續的驗證、更新、迭代、優化,從而為最終產品的性能質量提供有力保證。由此可見,建立高質量的醫學對于人工智能醫療器械的開發與應用有著重要的意義。
1人工智能醫療器械用數據集的常見質量問題
在人工智能醫療器械用數據集中存在的質量問題可以從數據意義以及數據管理兩個方面進行分析和討論。
(1)數據意義質量問題。當前在人工智能醫療器械用數據集中出現的數據意義質量問題主要有:①數據偏倚。具體可以分為選擇偏倚、覆蓋偏倚、參考標準偏倚、驗證偏倚、閱讀順序偏倚、情境偏倚6種類型。數據偏倚的出現會導致數據集無法真實有效的反映患者特征,從而影響人工智能的學習效果。②樣本量不足。數據集中數據過少容易導致在抽取訓練集、測試集時出現較大的誤差,導致在同一算法下結果出現較大差異而影響算法性能,現進而影響人工智能的計算和學習。③數據陳舊。訓練集與測試集的抽取間隔時間較長會導致數據之間的誤差增加,設備的性能仍然以過去的訓練集計算結果為準,無法適應數據發生較大變化后的測試集,從而導致對相關器械產品的性能評價出現較大誤差。造成上述問題出現的主要原因是數據集設計不合理,對于人工智能醫療器械所需數據的患者群體、場景、人數、病種、數據來源等方面沒有進行綜合考慮和確定。
(2)數據管理質量問題。人工智能醫療器械用數據集的采集管理方面出現的質量問題主要表現在以下幾個方面:①數據誤差。在數據的采集、標注中由于方法不當、標準不統一導致獲取的數據與真實數據存在較大誤差,或者在歸檔、管理過程總由于操作失誤導致數據發生改變、誤刪除、無增加等而沒有及時糾正,出現數據謬誤。當出現誤差的數據超過一定比例時就會對數據集質量造成較大影響。②數據不完整或重復。在數據采集、歸檔過程中如某沒有進行審核,可能會導致其中存在著一定的重復數據沒有被剔除,或者不完整的數據。這些數據會導致數據集規模發生變化,數據對應出現問題,并造成各類型數據比例變化,從而導致數據集無法反映真實情況,影響醫療器械性能。③數據造假。部分人員為了獲取不當利益可能會對數據集中的部分或全部數據進行造假,使其滿足以一定條件從而改變醫療器械性能。④數據不可用。人工智能醫療器械所需數據的收集需要經過倫理委員會批準或根據國家相關法律法規對數據進行脫敏處理。如果沒有進行上述環節就會導致所獲取的數據無授權、來源追溯難等一系列問題,導致獲取的數據不可進行實際應用,如果貿然使用可能會影響器械設備性能或者遭受法律風險[1]。
2人工智能醫療器械用數據集管理與評價的原則
(1)數據集設計合理。數據集的設計應當能夠準確、全面反映人工智能醫療器械所針對的目標疾病的流行病學特征,并合理選擇數據庫類型,有效控制數據偏倚問題;保證數據真實可信,并通過擴大數據采集范圍、納入第三方數據庫等,保證數據集具有滿足人工智能訓練需求的足夠數據量。
(2)數據可用。人工智能醫療器械數據集應當包含計算分析所需的完整信息,明確數據的有效期和更新周期,確保數據時效性;數據集應當按照統一的標準格式儲存,且符合相關醫學標準、共識;數據集要能夠體現設備的預期用途、使用場景、核心功能、目標人群、使用限制等信息,具有一定的臨床代表性。
(3)研究資料詳細。數據集應當提供相關的研究資料,并對數據采集要求、入排標準、數據采集操作規范、數據質疑、稽查等環節進行詳細說明,保證數據集形成過程中采取了有效避免偏見的措施,保證數據的可追溯性。
(4)風險控制有效。數據集應當對臨床中可能出現的假陽性、假陰性等使用風險進行體現,在算法軟件中進行設置了相應的風險評估和控制措施,并對器械的禁用、慎用場景進行明確,將器械使用風險降到最低。同時,數據的采集使用還應當符合相關法律法規要求,避免產生法律風險。
(5)保障數據安全。數據集的采集應當按照相關法律法對數據進行加密、脫敏處理,做好安全措施、備份措施等,明確數據安全要求,盡量不通過公共互聯網進行敏感數據的傳輸,避免造成數據泄露[2]。
3數據管理體系設計
針對上述人工智能醫療器械用數據集存在的主要質量問題以及數據集管理、評價原則,在相關管理體系的設計上主要可以從以下幾個方面進行:①加強流程控制。針對醫療器械數據的采集、標注、核查、歸檔、管理等環節加強控制,建立起明確的數據采集和標注標準,加強數據審核并做好相應記錄,保證數據的有效性、真實性以及規范性;做好數據規范、管理、更改記錄,保證數據的可溯源;做好相關數據庫的網絡隔離、硬件安保、數據備份工作,保證數據安全性。②明確人員職責。在數據集形成管理過程中要對相關人員的職責、職能進行明確劃分,包括領導數據集管理整體工作、對數據質量管理進行研究設計、對醫學參考標注質量進行審核監督、對數據進行審查核對、對數據庫進行日常維護等工作,保證各環節人員相互協作但職能、利益上無交叉。③建立質量控制體系。結合數據集常見質量問題以及管理評價原則建立相應的質量管理控制機制,對數據集進行常態化的監督檢查預防質量問題發生,并在出現問題時及時落實責任到人,找出影響數據質量的主要因素,采取措施進行糾正、更改[3]。
4結束語
綜上所述,針對當前人工智能醫療器械用數據集中存在的主要質量問題,相關單位和部門要積極采取有效措施,結合數據集管理評價原則,加強流程控制、明確人員職責、建立質量控制體系,從而切實提高數據集質量,為人工智能醫療器械的發展和應用提供更好支持。
參考文獻
[1] 何寶宏,徐貴寶. 人工智能前沿技術應用趨勢與發展展望[J]. 中國工業和信息化,2019(4):24-28.
[2] 王浩,孟祥峰,李澍,等. 數據集在人工智能醫療器械質控中的角色與要求[J]. 中國醫療器械雜志,2019,43(1):54-57.
[3] 王權,王浩,孟祥峰,等. 人員管理對人工智能醫療器械用數據集質量的影響分析[J]. 中國醫療設備,2018,33(12):15-18.