胥 婷 吳丹麥 魏明月
(上海市衛(wèi)生健康信息中心上海 200040) (上海交通大學(xué)公共衛(wèi)生學(xué)院上海 200025) (上海市兒童醫(yī)院上海 200062)
石晶金 于廣軍
(中國福利會國際和平婦幼保健院/上海交通大學(xué)醫(yī)學(xué)院附屬國際和平婦幼保健院 上海 200030) (上海市兒童醫(yī)院 上海 200062)
根據(jù)開放知識基金會(Open Knowledge Foundation)的定義[1],開放數(shù)據(jù)是指能被任何人自由使用、重復(fù)利用和重新分配的數(shù)據(jù)資源。2009年12月時(shí)任美國總統(tǒng)奧巴馬簽署《開放政府指令》(M-10-06),命令美國各聯(lián)邦機(jī)構(gòu)必須45天之內(nèi)在Data.gov上至少開放3項(xiàng)高價(jià)值數(shù)據(jù)集,此后數(shù)據(jù)開放運(yùn)動浪潮迅速席卷全球。2013年6月18日美國、英國等8國簽署《G8開放數(shù)據(jù)憲章》[2],明確了5項(xiàng)原則和3項(xiàng)共同行動,包括國家行動計(jì)劃、發(fā)布高價(jià)值數(shù)據(jù)和元數(shù)據(jù)映射,共同推動健康領(lǐng)域等14個重點(diǎn)領(lǐng)域數(shù)據(jù)開放。截至2020年12月10日開放知識基金會運(yùn)營管理的數(shù)據(jù)目錄網(wǎng)站(Datacatalogs.org)已收錄全球590個數(shù)據(jù)開放站點(diǎn)[3],包括聯(lián)合國數(shù)據(jù)目錄(UN Data)、歐盟開放數(shù)據(jù)(EU Open Data)、北京市政務(wù)數(shù)據(jù)資源網(wǎng)。識別并優(yōu)先開放高價(jià)值數(shù)據(jù)已成為世界各國數(shù)據(jù)開放運(yùn)動中普遍遵循的原則。美國《開放政府指令》以及《G8開放數(shù)據(jù)憲章》均強(qiáng)調(diào)優(yōu)先開放高價(jià)值數(shù)據(jù),世界銀行[4]提出數(shù)據(jù)開放應(yīng)大體遵循 “80/20法則”,即大約20%的數(shù)據(jù)會貢獻(xiàn)80%的公共價(jià)值,需重點(diǎn)識別這些數(shù)據(jù)并優(yōu)先發(fā)布。部分國家和組織在實(shí)踐中建立了高價(jià)值數(shù)據(jù)的識別和評估準(zhǔn)則。如美國聯(lián)邦首席信息官理事會創(chuàng)新委員會(Federal CIO Council)發(fā)布指南OpenDataPrioritizationToolkit[5],以問題清單方式給出評估數(shù)據(jù)開放的價(jià)值、成本和風(fēng)險(xiǎn)準(zhǔn)則;2016年7月歐盟Share-PSI項(xiàng)目發(fā)布指南BestPractice:DatasetCriteria[6],以最佳實(shí)踐方式規(guī)范高價(jià)值數(shù)據(jù)集識別準(zhǔn)則,保證其優(yōu)先于其他數(shù)據(jù)發(fā)布。
健康醫(yī)療領(lǐng)域數(shù)據(jù)高度集中,醫(yī)療健康大數(shù)據(jù)應(yīng)用需求已不局限于患者診療環(huán)節(jié),該領(lǐng)域數(shù)據(jù)開放共享和應(yīng)用將會產(chǎn)生巨大的經(jīng)濟(jì)和社會價(jià)值并將引發(fā)衛(wèi)生健康體系重大變革。但是因其具有多方持有性、隱私性和復(fù)雜性等特點(diǎn),健康醫(yī)療數(shù)據(jù)的開放共享存在阻礙。本文針對健康醫(yī)療數(shù)據(jù)價(jià)值評估指標(biāo)體系構(gòu)建相關(guān)問題進(jìn)行探討,以期在符合法律、道德和倫理的前提下,為促進(jìn)高價(jià)值健康醫(yī)療數(shù)據(jù)優(yōu)先開放、釋放數(shù)據(jù)紅利提供參考。
隨著大數(shù)據(jù)應(yīng)用成為熱點(diǎn),數(shù)據(jù)價(jià)值評估相關(guān)研究逐漸深化。根據(jù)評估目的不同數(shù)據(jù)價(jià)值評估方法主要可分為兩種[7-8]:一是從宏觀即自上而下角度,對開放數(shù)據(jù)的共享價(jià)值實(shí)現(xiàn)情況進(jìn)行分析;二是從數(shù)據(jù)使用者即自下而上角度,將數(shù)據(jù)作為一種資產(chǎn),用微觀經(jīng)濟(jì)學(xué)方法對數(shù)據(jù)被利用后的價(jià)值增值情況進(jìn)行定量評價(jià)。目前部分研究提出數(shù)據(jù)價(jià)值的產(chǎn)生同時(shí)受到數(shù)據(jù)本身屬性和應(yīng)用場景的影響這一觀點(diǎn)。本研究從受理數(shù)據(jù)申請角度出發(fā),以數(shù)據(jù)管理者立場評估平臺數(shù)據(jù)開放可能產(chǎn)生的潛在價(jià)值,首要任務(wù)是識別影響開放數(shù)據(jù)價(jià)值產(chǎn)生的因素。
楊永標(biāo)、蔣菱和項(xiàng)添春等[9]將數(shù)據(jù)品種、時(shí)間跨度、數(shù)據(jù)深度等數(shù)據(jù)屬性與數(shù)據(jù)應(yīng)用場景相結(jié)合,提出一種適合大數(shù)據(jù)價(jià)值評價(jià)的計(jì)算方法,結(jié)合層次分析法進(jìn)行數(shù)據(jù)價(jià)值評價(jià)。郭明軍、于施洋和王建冬等[10]基于協(xié)同創(chuàng)新理論,對數(shù)據(jù)價(jià)值內(nèi)涵進(jìn)行闡述,從跨維運(yùn)動角度提出數(shù)據(jù)價(jià)值包括內(nèi)在、表征、應(yīng)用價(jià)值3類。王衛(wèi)和王晶[11]基于信息系統(tǒng)(Information System,IS)成功模型和技術(shù)接受與使用統(tǒng)一理論(Unified Theory of Acceptance and Use of Technology,UTAUT)模型,提出開放政府?dāng)?shù)據(jù)價(jià)值實(shí)現(xiàn)影響因素模型,其中包括開放數(shù)據(jù)質(zhì)量、開放平臺質(zhì)量、平臺服務(wù)質(zhì)量、用戶績效期望和社會影響5個1級指標(biāo)。國內(nèi)有研究[12]構(gòu)建一個系統(tǒng)、科學(xué)、可操作的地方政府?dāng)?shù)據(jù)開放評估指標(biāo)體系并為每項(xiàng)指標(biāo)分配權(quán)重,包括數(shù)據(jù)準(zhǔn)備度、平臺層、數(shù)據(jù)層、利用層4個維度及下屬多級指標(biāo)。李然輝、阮亞芬和段立新等[13]提出數(shù)據(jù)資產(chǎn)收益取決于數(shù)據(jù)質(zhì)量和應(yīng)用價(jià)值,其中質(zhì)量是應(yīng)用價(jià)值的基礎(chǔ)。美國咨詢公司Gartner[14]提出一種將數(shù)據(jù)作為資產(chǎn)進(jìn)行價(jià)值評估的方案,其中包括基本指標(biāo)(反映數(shù)據(jù)屬性)和財(cái)務(wù)指標(biāo)(從市場和成本角度考慮)。Gustafson T和Fink D[15]指出大數(shù)據(jù)價(jià)值鏈由數(shù)據(jù)獲取、存儲、分析、應(yīng)用4部分構(gòu)成。
本研究采用多種質(zhì)性研究的方法,按照以下步驟開展:第一,通過文獻(xiàn)回顧法,初步檢索了解健康醫(yī)療數(shù)據(jù)價(jià)值影響因素,閱讀、梳理、提取文獻(xiàn)中關(guān)于健康醫(yī)療數(shù)據(jù)價(jià)值評估影響因素信息。第二,邀請領(lǐng)域內(nèi)專家開展焦點(diǎn)小組訪談,初步構(gòu)建指標(biāo)框架、設(shè)計(jì)問卷。第三,通過郵件方式面向領(lǐng)域?qū)<议_展德爾菲法咨詢,對指標(biāo)框架提出修改意見,通過層次分析法對指標(biāo)進(jìn)行量化權(quán)重賦值。第四,數(shù)據(jù)統(tǒng)計(jì)分析。通過有效問卷回收率衡量專家參與積極性。以權(quán)威系數(shù)指標(biāo)(Cr)衡量專家權(quán)威程度,受到專家判斷依據(jù)(Ca)和對內(nèi)容的熟悉程度(Cs)兩個因素影響,Cr>0.7時(shí)專家權(quán)威性可接受,計(jì)算公式為Cr=(Ca+Cs)/2,見表1、表2[16]。

表1 專家判斷依據(jù)及其影響程度

表2 專家對問題的熟悉程度系數(shù)
專家對指標(biāo)評價(jià)結(jié)果使用均值、標(biāo)準(zhǔn)差、變異系數(shù)和滿分比進(jìn)行統(tǒng)計(jì)描述。指標(biāo)權(quán)重量化通過Yaanp V1.1軟件完成。
經(jīng)檢索得到131篇文獻(xiàn)與研究主題相關(guān),閱讀和梳理后提取文獻(xiàn)中提到的影響數(shù)據(jù)價(jià)值的關(guān)鍵因素。邀請2名衛(wèi)生管理專家和3名計(jì)算機(jī)信息專家開展小范圍內(nèi)的小組訪談,依據(jù)文獻(xiàn)結(jié)果制定評估框架初稿。以框架初稿為基礎(chǔ)設(shè)計(jì)函詢問卷,包括3部分:一是研究背景介紹、框架概況和填表說明;二是采集專家對框架各指標(biāo)內(nèi)容的認(rèn)可程度,分為5個等級,即“非常不認(rèn)同”“較不認(rèn)同”“一般”“較認(rèn)同”和“非常認(rèn)同”,每個指標(biāo)有相應(yīng)修改意見填寫欄;三是專家基本情況調(diào)查表、專家對研究內(nèi)容的熟悉程度和判斷依據(jù)調(diào)查表。
邀請15名專家開展德爾菲法咨詢,包括醫(yī)院領(lǐng)導(dǎo)者、信息科負(fù)責(zé)人及一線工作者、政府衛(wèi)生信息部門從業(yè)人員、信息公司技術(shù)人員和高校研究者,見表3。

表3 德爾菲法咨詢專家基本信息
通過積極系數(shù)衡量咨詢專家積極性。進(jìn)行2輪函詢,均發(fā)放問卷15份。兩輪均回收有效問卷15份,專家積極系數(shù)為100%。通過權(quán)威系數(shù)衡量咨詢專家權(quán)威性,兩輪結(jié)果相同,見表4。按照計(jì)算公式專家判斷系數(shù)為0.9,熟悉系數(shù)為0.72,本次研究權(quán)威系數(shù)為0.81,說明專家權(quán)威性較好。

表4 專家判斷依據(jù)
4.4.1 第1輪評價(jià)結(jié)果 第1輪函詢結(jié)束統(tǒng)計(jì)得出專家對初擬框架的評價(jià)結(jié)果,見表5。

表5 第1輪專家咨詢意見一致性

續(xù)表5
其中A代表1級指標(biāo),B代表2級指標(biāo),C代表3級指標(biāo)。根據(jù)專家評價(jià)結(jié)果,1級、2級指標(biāo)的平均認(rèn)可程度較高,一致性較好。對均值和滿分比較低、變異系數(shù)較大的3級指標(biāo)進(jìn)行以下修改:將C3“數(shù)據(jù)規(guī)范性”修改為“數(shù)據(jù)標(biāo)準(zhǔn)性”,含義為“數(shù)據(jù)模型、數(shù)據(jù)元、術(shù)語等是否符合國家或地方相關(guān)標(biāo)準(zhǔn)”;新增指標(biāo)C4“數(shù)據(jù)的可訪問性”,含義為“數(shù)據(jù)訪問的延時(shí)性、吞吐能力”;刪除指標(biāo)C12“項(xiàng)目負(fù)責(zé)人職稱水平”;將指標(biāo)C15“決策者職稱水平”修改為“決策者職務(wù)水平”;將指標(biāo)C18“數(shù)據(jù)使用者的教育水平”修改為“數(shù)據(jù)使用者的健康素養(yǎng)水平”,指個人獲取和理解健康信息并運(yùn)用這些信息維護(hù)和促進(jìn)自身健康的能力。
4.4.2 第2輪評價(jià)結(jié)果 將經(jīng)過修改的問卷再次發(fā)給專家進(jìn)行第2輪函詢,回收后進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,結(jié)果顯示專家對指標(biāo)認(rèn)可程度和一致性均有所提升,所有3級指標(biāo)均值大于4,變異系數(shù)小于0.2,專家僅對指標(biāo)的解釋等細(xì)節(jié)提出意見,說明專家意見趨于統(tǒng)一。
經(jīng)過兩輪德爾菲法咨詢最終確定健康醫(yī)療數(shù)據(jù)價(jià)值評估框架終稿,包括兩個1級指標(biāo)、7個2級指標(biāo)和21個3級指標(biāo),見表6。

表6 健康醫(yī)療數(shù)據(jù)價(jià)值評估框架
4.6.1 指標(biāo)權(quán)重量化模型 根據(jù)前兩輪咨詢確定的評價(jià)框架設(shè)計(jì)第3輪專家咨詢稿,用于每一層級指標(biāo)間重要程度的兩兩比較并在Yaanp軟件中繪制模型,見圖1。模型繪制完成后構(gòu)建判斷矩陣,錄入收集的專家意見。本輪咨詢共發(fā)出問卷15份,收回問卷13份,回收率為86.7%。

圖1 指標(biāo)權(quán)重量化模型
4.6.2 一致性檢驗(yàn) 在層次分析法中專家基于標(biāo)度給出重要性的兩兩判斷,其為模糊的主觀判斷,存在一定誤差是正常現(xiàn)象,因此數(shù)據(jù)回收錄入后需進(jìn)行結(jié)果一致性檢驗(yàn)。經(jīng)檢驗(yàn)在13份數(shù)據(jù)中有5份結(jié)果的一致性比例大于0.1,判斷矩陣不一致。應(yīng)用Yaanp軟件對這5條記錄進(jìn)行分析可知,判斷矩陣不一致是由判斷矩陣中多項(xiàng)數(shù)據(jù)的小誤差累積造成,可通過最小改變原則修正,經(jīng)軟件算法自動修正后一致性比例均小于0.1,滿足判斷矩陣一致性要求。最終包含該5份自動修正一致性的問卷,共13份問卷納入權(quán)重分析。
4.6.3 權(quán)重分配結(jié)果 由于3級指標(biāo)數(shù)量較多且前一輪咨詢時(shí)專家意見一致性較高,此輪權(quán)重分配未納入3級指標(biāo)。本輪咨詢專家均為領(lǐng)域內(nèi)具有豐富經(jīng)驗(yàn)的資深研究者或?qū)嵺`工作者,因此專家權(quán)重設(shè)置為平均分配。每位專家的重要度評價(jià)包括3個判斷矩陣,其中1個是1級指標(biāo)下的判斷矩陣,兩個是2級指標(biāo)下的判斷矩陣,運(yùn)行軟件群決策功能計(jì)算得出指標(biāo)權(quán)重分配,見表7。

表7 指標(biāo)權(quán)重分配
德爾菲咨詢法是一種利用專家經(jīng)驗(yàn)和學(xué)識進(jìn)行評價(jià)、預(yù)測的研究方法,其通過多輪調(diào)查問卷了解專家觀點(diǎn)并輔以有效控制,最終得到專家共識。專家選擇和有效控制反饋是研究科學(xué)性的基礎(chǔ),德爾菲法咨詢專家數(shù)量一般以10~50人為宜[17]。本研究應(yīng)用德爾菲咨詢法制定健康醫(yī)療數(shù)據(jù)價(jià)值評估指標(biāo)體系,邀請15名計(jì)算機(jī)信息和醫(yī)療衛(wèi)生相關(guān)領(lǐng)域?qū)<遥?5%以上的專家為中高級職稱,接受碩士以上學(xué)歷教育且工齡超過10年,專家權(quán)威系數(shù)為0.81,說明專家具有較好的代表性,其理論和實(shí)踐經(jīng)驗(yàn)豐富。前兩輪函詢專家問卷回收率均達(dá)到100%,對認(rèn)可度較低的指標(biāo)在意見填寫欄中仔細(xì)填寫具體修改意見,說明專家參與積極性較高。經(jīng)過兩輪函詢后對專家認(rèn)可度較低且差異較大的指標(biāo)進(jìn)行修改,認(rèn)可度評分均值和滿分比提高,變異系數(shù)減小,說明專家意見趨于一致,形成具有科學(xué)性的評估指標(biāo)體系終稿。在第3輪權(quán)重量化分析中,對專家意見進(jìn)行一致性分析,對不符合一致性要求的判斷矩陣進(jìn)行自動修正,修正后一致性比例均小于0.1,說明專家意見較為一致,最后形成的量化權(quán)重得到專家認(rèn)可。
5.2.1 指標(biāo)體系構(gòu)成 面向數(shù)據(jù)申請請求,優(yōu)先發(fā)布高質(zhì)量、具有增值潛力的高價(jià)值數(shù)據(jù)是數(shù)據(jù)管理過程中應(yīng)遵循的指導(dǎo)原則。為支持平臺數(shù)據(jù)管理者在實(shí)踐中遵循這一原則,本研究經(jīng)過兩輪函詢,制定健康醫(yī)療數(shù)據(jù)價(jià)值評估指標(biāo)體系,包括兩個1級指標(biāo)、7個2級指標(biāo)和21個3級指標(biāo)。兩個1級指標(biāo)分別為“內(nèi)在價(jià)值”和“應(yīng)用價(jià)值”。1級指標(biāo)“內(nèi)在價(jià)值”的含義是數(shù)據(jù)本身性質(zhì)會影響健康醫(yī)療數(shù)據(jù)價(jià)值,包括“數(shù)據(jù)可用”“數(shù)據(jù)易用”和“數(shù)據(jù)重要”3個2級指標(biāo)。以2級指標(biāo)B1“數(shù)據(jù)可用”為例,其含義為在數(shù)據(jù)完整、能夠反映真實(shí)情況、符合國家或地區(qū)相關(guān)標(biāo)準(zhǔn)時(shí),健康醫(yī)療數(shù)據(jù)在開放共享和利用過程中容易產(chǎn)生更大價(jià)值。另一個1級指標(biāo)“應(yīng)用價(jià)值”是指數(shù)據(jù)開放能夠產(chǎn)生的價(jià)值與數(shù)據(jù)應(yīng)用場景有關(guān),本研究梳理總結(jié)健康醫(yī)療數(shù)據(jù)應(yīng)用的4個場景,分別為“科研使用”“管理決策”“患者查詢”和“商業(yè)使用”,即為4個2級指標(biāo)。以2級指標(biāo)B4“科研使用”為例,其含義為當(dāng)數(shù)據(jù)開放用于開展科研工作且已通過倫理審查時(shí),科研項(xiàng)目的立項(xiàng)級別越高、資助金額越大,開放的健康醫(yī)療數(shù)據(jù)更有可能產(chǎn)生更大價(jià)值。
5.2.2 應(yīng)用意義 經(jīng)過第3輪專家咨詢對指標(biāo)權(quán)重進(jìn)行量化分析后可以發(fā)現(xiàn):在兩個1級指標(biāo)中,數(shù)據(jù)內(nèi)在價(jià)值和應(yīng)用價(jià)值權(quán)重相差不大,這說明健康醫(yī)療數(shù)據(jù)開放的價(jià)值產(chǎn)生基于數(shù)據(jù)本身質(zhì)量、稀缺性等特性,同時(shí)以數(shù)據(jù)應(yīng)用為前提才能共同釋放數(shù)據(jù)價(jià)值。在數(shù)據(jù)內(nèi)在價(jià)值的3個2級指標(biāo),即“數(shù)據(jù)可用”“數(shù)據(jù)易用”和“數(shù)據(jù)重要”中,“數(shù)據(jù)可用”所占權(quán)重最大,提示管理者數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)開放的前提條件,合理、規(guī)范地準(zhǔn)備數(shù)據(jù)是在平臺上發(fā)布數(shù)據(jù)及提高數(shù)據(jù)價(jià)值、可獲取性和可利用性的必要前提,其中需要考量數(shù)據(jù)完整性、準(zhǔn)確性和標(biāo)準(zhǔn)性等條件。在數(shù)據(jù)應(yīng)用價(jià)值的4個2級指標(biāo)中,“科研使用”“患者查詢”和“管理決策”權(quán)重差別不大,“商業(yè)使用”權(quán)重相對較小,說明區(qū)域衛(wèi)生信息平臺數(shù)據(jù)具有公益資源屬性,應(yīng)用中要以患者、衛(wèi)生管理和科學(xué)研究為優(yōu)先,商業(yè)使用需要慎重權(quán)衡價(jià)值與風(fēng)險(xiǎn),可以從商業(yè)使用主體的信用水平、綜合實(shí)力和用途等方面綜合考量。
歷經(jīng)10余年的衛(wèi)生信息化建設(shè),我國各級醫(yī)療衛(wèi)生機(jī)構(gòu)和公共衛(wèi)生機(jī)構(gòu)積累了海量健康醫(yī)療數(shù)據(jù),但是數(shù)據(jù)利用水平相對薄弱,重要原因之一就是缺乏數(shù)據(jù)開放共享的原則和操作指導(dǎo)。本研究基于高價(jià)值數(shù)據(jù)優(yōu)先開放原則,借鑒國內(nèi)外相關(guān)研究文獻(xiàn)和專家意見,經(jīng)過3輪專家咨詢,制定健康醫(yī)療數(shù)據(jù)價(jià)值評估框架,從數(shù)據(jù)本身性質(zhì)和數(shù)據(jù)應(yīng)用兩個方面指導(dǎo)數(shù)據(jù)管理者從價(jià)值角度對健康醫(yī)療數(shù)據(jù)進(jìn)行評估,為進(jìn)一步構(gòu)建科學(xué)、可操作的健康醫(yī)療數(shù)據(jù)開放實(shí)踐指南奠定基礎(chǔ),為數(shù)據(jù)管理者遵循這一原則提供理論工具,具有一定科學(xué)性和創(chuàng)新性。