999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談智能化快速部署醫院健康檔案數據集質量控制

2021-10-13 02:38:46王浩周娟曾雪孟祥峰張超李佳戈
中國醫療設備 2021年9期
關鍵詞:模態評價質量

王浩,周娟,曾雪,孟祥峰,張超,李佳戈

1. 中國食品藥品檢定研究院 醫療器械檢定所,北京 102629;2. 中國人民解放軍總醫院 醫學計量室,北京 100853

引言

健康檔案數據集是臨床診療、健康服務、醫保、臨床隊列研究等各個領域的重要資源。根據衛生行業標準WS 365[1],其含義是:醫療衛生機構為城鄉居民提供醫療衛生服務過程中的規范記錄,是以居民個人健康為核心,貫穿整個生命過程,涵蓋各種健康相關因素,滿足居民自我保健和健康管理、健康決策需要的系統化信息資源。健康檔案數據集是醫院信息化的重要對象,在慢病防治[2]、居民健康管理[3]、公共衛生[4-5]、疫情防控[6]等方面具有重要的支撐作用。

在人工智能、組學技術蓬勃發展的今天,健康檔案數據集的內涵日益豐富,涉及多源異構數據的交叉融合。從數據來源看,可能包括來自院內的檢查、檢驗數據,也可能包括院外的家用醫療器械、移動健康終端、社區篩查設備等。這些數據是人工智能醫療器械的重要研發資源,需要建立標準規范。目前,健康檔案數據集在元數據方面已有相關行業標準[1],但質量評價規范相對薄弱[7-9]。

在抗擊新冠疫情期間,智能化快速部署醫院、方艙醫院作為公共衛生應急的重要基礎設施,在我國獲得了很大的發展,也成為醫院信息化建設和人工智能醫療器械研發的重要場所[10-11]。此類醫院具有快速、機動、靈活的特點,部署和調度具有動態性和臨時性。在新冠疫情防控的特殊背景下,數據的采集、隨訪、跟蹤頻率更高,處于動態變化中,健康檔案數據集的建設和質量控制面臨更多的挑戰[12-16]。

本文結合人工智能醫療器械對數據集的通用要求[17],研究健康檔案數據集的特殊問題和質量控制要點,旨在促進智能化快速部署醫院等特殊場景下的數據集建設。同時,在實踐環節,本文使用不同方法開展了數據集抽樣檢驗,為健康檔案數據集的質量評價工作積累經驗。

1 健康檔案數據集質控要點

1.1 健康檔案數據集的特殊問題

數據集作為人工智能醫療器械研發、訓練、驗證、確認、日常質控等各個環節的重要材料,已納入醫療器械監管的關注范圍[18]。在參考現有的標準規范和前人研究[17-20]基礎上,在智能化快速部署醫院的背景下,健康檔案數據集在質控方面應關注4項問題。

(1)多模態數據的融合。在現代醫學背景下,檢驗數據、文本數據、影像數據和視頻數據等都有可能納入健康檔案數據集。模態之間的關聯和一致性、單一模態及組合的質量,都應納入考量。

(2) 敏感數據范圍的擴大。在新冠疫情防控的特殊時期,社區篩查與監控數據、流行病學調查數據、個人活動軌跡都可能與健康檔案數據集相關聯,數據集的建設需要對更廣泛的個人隱私、生物特征識別信息進行保護,質控工作在數據脫敏、匿名化方面需要加強。

(3)標注的不確定性。在應對重大突發公共衛生事件時,臨床診療規范和數據標注依據可能出現快速的迭代變化,意味著健康檔案數據集的數據標簽具有不確定性,對數據標注的組織管理和動態更新提出了更高的要求。

(4)管理的動態性。對于智能化快速部署醫院,醫療方艙的編組和部署是動態的,醫務人員和患者/受試者也是快速流動的。數據采集、標注、人員、來源、存儲設施都具有動態性,數據集的可追溯性、版本控制、標志標識都面臨更大的挑戰。

1.2 對數據集說明的特殊要求

基于以上考慮,對照《人工智能醫療器械質量要求和評價 第2部分:數據集通用要求(報批稿)》[17],健康檔案數據集的說明文檔宜增加6項特殊要求。

(1)數據形態。健康檔案數據集說明應描述健康檔案數據集包含的每一種數據模態對應的數據格式、數據量、存儲方式,明確哪些數據模態可獨立使用,哪些數據模態需聯合或組合使用。

(2)版本控制。對于可獨立使用的數據模態、需要聯合使用的數據模態組合,特殊需要(適當)時,可作為子集分配額外的版本號。

(3)數據元屬性。對于新型疾病或未知疾病,應設置專用的數據元名稱。特殊需要(適當)時,對該名稱進行動態更新,并確保可追溯性。

(4) 標注信息。健康檔案數據集說明應描述數據集整體、每一種可獨立使用的數據模態、需要聯合使用的多個數據模態是否具有標注信息。

(5)隱私保護。健康檔案數據集說明應描述受試者隱私保護的范圍、技術手段和規則。隱私保護的范圍至少考慮個人敏感信息、醫療健康數據、流行病學調查數據等。

(6)標識。健康檔案數據集應顯示唯一的標識,與數據采集相關的醫院、方艙的標識建立關聯。當醫院、方艙的部署發生變化時,數據集標識應相應改變。

1.3 對質量測度的特殊要求

在健康檔案數據集的具體質量測度方面,應增加5項特殊要求。

(1)對于多模態、多階段的健康檔案數據,各個模態時間戳的同步性、數據流轉的時效性應納入檢查范圍。

(2)在數據管理人員、數據來源動態變化的情況下,數據的用戶權限、訪問控制機制、隱私保護/加密機制應足夠快速,防止出現非授權訪問和隱私泄露。

(3)數據集的訪問、預覽、檢索工具及輔助工具應考慮單一模態、模態組合,確保數據集的用戶能充分地利用數據集的信息。

(4)健康檔案數據集整體、各獨立模態及其組合的數據特征層次、流行病學統計、樣本來源多樣性、數據多樣性等應符合數據集陳述的應用場景。

(5)健康檔案數據集各個模態的標注結論應不出現矛盾;數據集的一致性需考慮模態之間的一致性,對離群值、缺失數據進行解釋和處理。

2 數據集抽樣檢驗

2.1 生產驗收抽驗方法

健康檔案數據集的質量評價,需要開展必要的抽樣檢驗。一般來說,數據集的抽樣檢驗可分為生產驗收檢驗、質量監督檢驗兩種方式,但需要的樣本量不同,將影響成本和操作的可行性。

在生產驗收檢驗方面,業內通常參考GB/T 2828.2-2008[21](計數型抽樣檢驗)、GB/T 8054-2008[22](計量型抽樣檢驗)等標準,對產品進行抽檢。如果把數據集中的數據元看作產品,那么靜態的數據集符合孤立批的定義,而連續采集、動態增長的數據集符合連續批的定義。

一般來說,人工智能醫療器械訓練、測試使用的健康檔案數據集在一定周期內保持靜止,因此可看作孤立批,質量評價可采用極限質量(Limit Quality,LQ,不合格品百分率)作為主要指標。根據生產驗收評價思路,宜采用GB/T 2828.2-2008[21]規定的方法進行抽樣檢驗。此種情形下,應選用標準描述的模式A,根據數據集制造責任方聲稱的LQ、數據集的容量N查閱標準[21]中的表1,確定抽樣總量n和接收數(Accept,AC)。當抽樣數據中的不合格數量低于AC時,認為該數據集可接受。

2.2 質量監督抽驗方法

在質量監督檢驗領域,業內通常參照GB/T 2828.4-2008[23](計數型抽樣)、GB/T 6378.4-2008[24](計量型抽樣)等標準開展產品抽驗。當健康檔案數據集作為核查對象時,由于樣本量一般大于250,可采用GB/T 2828.4-2008[23]規定的方法進行抽樣檢驗。檢驗時,應根據數據集制造責任方聲稱的聲稱質量水平(Declared Quality Level,DQL,單位為每百單位產品不合格數)、極限質量比(Limit Quality Ratio,LQR)水平、核查樣本總數N,查閱標準[23]中的表2~9相關內容,確定抽樣樣本數n、不合格品限定數L。當抽樣樣本中的不合格數量低于L時,認為通過檢驗。此處應注意,GB/T 2828.4-2008的生產方風險為5%,消費方風險為10%。

DQL與LQR的乘積為實際不合格品百分數。LQR水平包括O、I、II、III四種水平。LQR的水平越高,意味著實驗允許的樣本量越大,LQR取值越小,實際不合格品百分數越小。LQR水平的選擇,由經濟成本和抽樣檢驗的嚴格程度權衡決定。對于健康檔案數據集,本文建議選用水平II,樣本量較大,嚴格程度較高。

2.3 比對試驗

為了直觀比較上述兩種思路的評價方式與樣本量需求,本文設計了比對實驗。實驗材料是帶標注的肺結節封閉測試集,包含600個CT序列。具體評價對象是標注結果的形式有效性,考察肺結節的標注框是否充分包裹結節區域,屬于計數型抽樣檢驗。對于每一個被抽中的CT序列,核查人員需要進行手動操作,對每一層圖像上的標注框和實際的結節圖像進行檢查。

本次實驗分別參照GB/T 2828.2-2008[21]和GB/T 2828.4-2008[23],進行生產驗收抽樣檢驗和質量監督抽樣檢驗。由于抽樣方案依據的主要參數量綱相同,以LQ/DQL為橫坐標,以抽樣樣本量為縱坐標繪制圖1,可以比較兩種方案對樣本量的需求。以LQ/DQL為橫坐標,以接收數/不合格品限定數為縱坐標繪制圖2,可以比較兩種抽樣方案對不合格品的寬容程度。根據圖1展示的曲線,可見對同等要求的LQ/DQL,質量監督需要的樣本量低于生產驗收需要的樣本量,降幅為50%~80%。根據圖2展示的曲線,可見對同等要求的LQ/DQL,質量監督對不合格品更寬容。假設數據集制造責任方約定LQ/DQL為2%,那么生產驗收抽樣檢驗需要抽取125個CT序列,且全部合格后判定通過檢驗。質量監督抽樣檢驗需要抽取50個CT序列,其中至少48個序列合格后判定通過,工作量為前者的40%。假設檢查每個序列平均用時20 min,則后者比前者節省25 h,能夠明顯減少人力和時間。

圖1 兩種思路的樣本量需求比較

圖2 兩種思路的不合格品限定數比較

3 討論與總結

本文圍繞健康檔案數據集開發與質控開展研究,針對數據來源和層次的多樣性、數據采集與標注的動態性、執行單元的靈活部署與調度等問題,提出了數據集說明文檔、質量特性方面的特殊要求,擴展了對這一專業領域的數據集質量意識和質控要求。這些要素適合智能化快速部署醫院等特殊場景下的數據集建設背景,有助于促進相關的數據集開發和人工智能醫療器械研發活動。

同時,本文針對數據集質量評價的實操問題,對具體案例設計了抽樣檢驗比對試驗,直觀地比較了GB/T 2828.2、GB/T 2828.4兩個常見標準的抽樣方案設計。本文采用胸部CT肺結節數據集作為試驗對象,評價角度為數據標注形式的有效性,作為數據集質量評價的一種簡單情形進行舉例。試驗中發現,質量監督抽樣檢驗比生產驗收抽樣檢驗節省50%以上的人力和時間。在實際工作中,根據人工智能醫療器械數據集通用要求[17],數據集質量評價的維度遠比本次試驗豐富,單一樣本需要投入的人力和時間成本更高。健康檔案數據集具有多模態交叉融合的特點,評價難度和成本將大于單模態數據集。因此,質量監督抽樣檢驗更具有經濟性、可行性,建議在成本受控的情況下,使用質量監督思路開展質量評價工作。同時,本文的研究工作還存在一定的限制,主要考慮靜態的健康檔案數據集和孤立批數據的檢驗。對于動態、連續采集的數據集,有必要繼續研究每批數據的檢驗策略,兼顧經濟性與合規性。

猜你喜歡
模態評價質量
“質量”知識鞏固
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
質量守恒定律考什么
做夢導致睡眠質量差嗎
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
國內多模態教學研究回顧與展望
基于Moodle的學習評價
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
保加利亞轉軌20年評價
主站蜘蛛池模板: Jizz国产色系免费| 国产在线一区二区视频| 色悠久久综合| 最新国产精品第1页| 国产精品毛片一区| 99精品视频九九精品| 成人韩免费网站| 国产精品hd在线播放| 99国产精品国产| 国产日本欧美亚洲精品视| 欧美国产日韩在线| 91精品网站| 亚洲伊人天堂| 色综合综合网| 精品国产免费观看| 国产91成人| 伊人AV天堂| 国产精品刺激对白在线| 日本午夜在线视频| www.91在线播放| 国产综合网站| 国产午夜精品鲁丝片| 成年午夜精品久久精品| 欧美啪啪网| 在线观看国产精品第一区免费| 国产午夜小视频| 91热爆在线| 亚洲成人精品| 18禁不卡免费网站| 久久精品国产精品青草app| 精品国产毛片| 综合成人国产| 国产在线精彩视频论坛| 亚洲高清中文字幕在线看不卡| 欧美日韩成人在线观看| 亚洲精品日产AⅤ| 极品国产在线| 日韩福利在线视频| 国产丰满成熟女性性满足视频| 欧美日韩国产在线播放| 欧美综合成人| 亚洲第一综合天堂另类专| 97视频精品全国在线观看| 26uuu国产精品视频| 69av在线| 亚洲人人视频| 视频二区亚洲精品| 精品国产成人av免费| 黄色国产在线| 久久性妇女精品免费| 熟妇人妻无乱码中文字幕真矢织江| 久草国产在线观看| 成人福利一区二区视频在线| 秋霞国产在线| 97一区二区在线播放| 在线播放真实国产乱子伦| 欧美色图久久| 亚洲综合18p| 老熟妇喷水一区二区三区| 久久人午夜亚洲精品无码区| 人妻91无码色偷偷色噜噜噜| 爱色欧美亚洲综合图区| 日韩成人在线视频| 国产欧美性爱网| 国产99在线观看| 日本午夜三级| 欧美亚洲综合免费精品高清在线观看| 中文字幕欧美成人免费| 欧美视频二区| 四虎国产在线观看| 97精品久久久大香线焦| 一区二区欧美日韩高清免费| 亚洲日本一本dvd高清| 亚洲无码91视频| 波多野结衣的av一区二区三区| 99热这里只有精品免费| 国产91色在线| 亚洲一区二区约美女探花| 91在线一9|永久视频在线| 日韩免费视频播播| 国产成a人片在线播放| 亚洲综合九九|