貝葉斯網(wǎng)絡(luò)模型在體檢結(jié)果分析中的應(yīng)用*

2021-01-09 07:03:36王思聰石超珺喬魯燕李贊華王鏡涵曾慶嘉秦亞星

中國(guó)衛(wèi)生統(tǒng)計(jì) 2020年6期

關(guān)鍵詞：信息

王思聰石超珺滕斌喬魯燕李贊華△ 王鏡涵曾慶嘉秦亞星馮珊

【提要】目的探討貝葉斯網(wǎng)絡(luò)在醫(yī)務(wù)人員健康狀況分析中的應(yīng)用，為醫(yī)務(wù)人員健康管理提供方向和思路。方法通過(guò)半樸素貝葉斯(TAN)構(gòu)建年齡、性別、部門(臨床/非臨床)等基本信息之間的連接，以此為基礎(chǔ)建立貝葉斯網(wǎng)絡(luò)表示各體檢指標(biāo)間的關(guān)聯(lián)關(guān)系。結(jié)果在2014-2017年某三甲醫(yī)院醫(yī)務(wù)人員體檢數(shù)據(jù)上，貝葉斯網(wǎng)絡(luò)以年齡、性別、肝臟為3個(gè)中心結(jié)點(diǎn)，建立起與其他體檢指標(biāo)的關(guān)聯(lián)。以中心結(jié)點(diǎn)肝臟為條件的分組異常檢出率統(tǒng)計(jì)及貝葉斯網(wǎng)絡(luò)推斷結(jié)果同時(shí)顯示：該院醫(yī)務(wù)人員肝臟與甲狀腺、膽囊、腎臟、體重指標(biāo)之間的關(guān)聯(lián)性差異有統(tǒng)計(jì)學(xué)意義。結(jié)論貝葉斯網(wǎng)絡(luò)對(duì)于建立醫(yī)務(wù)人員體檢管理體系具有可參考價(jià)值。

貝葉斯網(wǎng)絡(luò)是以概率論和圖論為理論基礎(chǔ)的一種不確定性知識(shí)表示和推理模型[1]。傳統(tǒng)的統(tǒng)計(jì)方法應(yīng)用樣本信息和總體信息進(jìn)行統(tǒng)計(jì)推斷，而貝葉斯方法則利用樣本信息、總體信息及先驗(yàn)信息進(jìn)行統(tǒng)計(jì)推斷。當(dāng)有先驗(yàn)信息可以利用時(shí)，采用貝葉斯方法可以得到更好的估計(jì)結(jié)果[2]。尤其是當(dāng)數(shù)據(jù)庫(kù)中數(shù)據(jù)屬性的維度增高，屬性之間的關(guān)聯(lián)性難以直觀發(fā)現(xiàn)時(shí)，采用貝葉斯方法建模可以快速發(fā)現(xiàn)各指標(biāo)之間隱性的關(guān)聯(lián)性，從而進(jìn)行預(yù)測(cè)性決策。

我國(guó)對(duì)醫(yī)務(wù)人員的職業(yè)健康研究起步較晚，研究方法比較單一。結(jié)合某三甲醫(yī)院醫(yī)務(wù)人員體檢數(shù)據(jù)記錄進(jìn)行貝葉斯網(wǎng)絡(luò)模型探索，可以為進(jìn)一步的數(shù)據(jù)分析提供方法學(xué)參考，為健康管理提供方向和思路。

資料與方法

1.資料來(lái)源

數(shù)據(jù)資料來(lái)自某三甲醫(yī)院體檢中心數(shù)據(jù)庫(kù)，提取出2014-2017年該醫(yī)院全體職工體檢報(bào)告記錄。提取每份報(bào)告中體檢年份、年齡、性別、部門等信息(下文中稱為“基本信息”)，以及12項(xiàng)體檢項(xiàng)目診斷結(jié)果(下文中稱為“體檢指標(biāo)”)：甲狀腺、卵巢、子宮、腎臟、前列腺、膽囊、肝臟、體重、血壓、胃、食道、十二指腸。各數(shù)據(jù)字段被整理為類別數(shù)據(jù)：性別(男、女)，年齡(20～39、40～59、60+)，部門(臨床、非臨床)，體重(偏低、正常、偏高、肥胖)，血壓(偏高、正常、偏低)，其他指標(biāo)(正常、異常)。數(shù)據(jù)的提取與處理以體檢報(bào)告中診斷結(jié)果為準(zhǔn)。由于體檢者選擇的體檢項(xiàng)目不完全相同，所以部分樣本含有空值項(xiàng)。數(shù)據(jù)集的樣本量為8163，數(shù)據(jù)缺失率為35.88%。

2.統(tǒng)計(jì)方法

將基本信息變量記為I1，…，IM，體檢指標(biāo)變量記為E1，…，EN。基本信息Im與體檢指標(biāo)En的分類值分別用im，1，…，im，km和en，1，…，en，kn表示，其中km，kn表示分類數(shù)，m=1，…，M，n=1，…，N。

本研究引入貝葉斯網(wǎng)絡(luò)表示體檢結(jié)果的聯(lián)合概率分布。貝葉斯網(wǎng)絡(luò)可將聯(lián)合概率模型分解為乘積形式：

(1)

其中pa(·)表示變量的父結(jié)點(diǎn)集合。由于貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)受數(shù)據(jù)的影響較大，因此需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行合理約束，并盡量降低網(wǎng)絡(luò)的復(fù)雜度。結(jié)合基本信息與體檢指標(biāo)之間的邏輯關(guān)系，本文設(shè)計(jì)三步法進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)。

第一步：基本信息變量之間的相關(guān)性通過(guò)半樸素貝葉斯(tree augmented na?ve Bayes，TAN)學(xué)習(xí)[3-4]，步驟如下：

對(duì)每一個(gè)體檢指標(biāo)En，n=1，…，N，分別學(xué)習(xí)TAN模型結(jié)構(gòu)

(2)

其中TAN假設(shè)pa(Im)最多包含一個(gè)變量，這稱為“獨(dú)依賴估計(jì)”(one-dependent estimator，ODE)。

第二步：對(duì)貝葉斯網(wǎng)絡(luò)中各變量的父結(jié)點(diǎn)集合作出如下假設(shè)：

①pa(Im)不包含任意體檢指標(biāo)En，即基本信息不以體檢指標(biāo)的結(jié)果為條件。在這個(gè)約束下，貝葉斯網(wǎng)絡(luò)將描述醫(yī)務(wù)人員特征的基本信息作為先驗(yàn)條件。

②pa(En)不僅可以包含任意其他體檢指標(biāo)，也可以包含任意基本信息Im。體檢指標(biāo)異常的概率依賴于基本信息，同時(shí)可以依賴于其他可觀測(cè)的體檢指標(biāo)，以此來(lái)刻畫(huà)不同體檢指標(biāo)的關(guān)聯(lián)性。

第三步：在第一步與第二步給定的約束下，考慮到數(shù)據(jù)本身具有缺失值，采用SEM(structural expectation maximization)算法進(jìn)行貝葉斯結(jié)構(gòu)學(xué)習(xí)[5]，得到貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。

本研究采用R語(yǔ)言bnlearn package進(jìn)行數(shù)據(jù)處理與統(tǒng)計(jì)分析。

結(jié) 果

1.基本情況

本研究分析某醫(yī)院2014-2017年全體醫(yī)務(wù)人員職工體檢診斷結(jié)果，共計(jì)8163例。其中，年齡、性別、部門的分布情況見(jiàn)表1。表1中顯示臨床與非臨床部門的年齡、性別構(gòu)成有較大差異。

按照體檢指標(biāo)異常檢出率排序，4年間異常檢出率最高的指標(biāo)依次為：胃(69.9%)，體重(46.8%)，甲狀腺(28.5%)，前列腺(26.3%)，肝臟(26.2%)。

表1 該醫(yī)院臨床與非臨床醫(yī)務(wù)人員的年齡與性別構(gòu)成n(%)

2.半樸素貝葉斯分析

根據(jù)統(tǒng)計(jì)方法第一步，半樸素貝葉斯模型對(duì)基本信息變量之間相關(guān)性的分析結(jié)果如表2。從表2中看出不同體檢指標(biāo)的TAN結(jié)果比較集中，得到的結(jié)構(gòu)相對(duì)穩(wěn)定。最終的基本信息的拓?fù)浣Y(jié)構(gòu)為：年齡→性別，年齡→部門，性別與部門無(wú)連接。

表2 通過(guò)半樸素貝葉斯(TAN)分析基本信息變量之間相關(guān)性的結(jié)果

3.貝葉斯網(wǎng)絡(luò)

在半樸素貝葉斯確定的基本信息的拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上，根據(jù)統(tǒng)計(jì)方法第二步限制連接方法，再運(yùn)用第三步算法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)，得到結(jié)果如圖1。圖中灰色底的結(jié)點(diǎn)表示基本信息變量，白色底結(jié)點(diǎn)表示體檢指標(biāo)變量。觀察圖像發(fā)現(xiàn)，貝葉斯網(wǎng)絡(luò)中出現(xiàn)了3個(gè)中心結(jié)點(diǎn)：年齡、性別和肝臟。

(1)年齡年齡作為明顯的中心結(jié)點(diǎn)，分別指向了前列腺、子宮、肝臟、血壓、腎臟、膽囊、十二指腸、食道，這代表這些指標(biāo)與年齡高度相關(guān)。

(2)性別前列腺直接與性別連接，子宮通過(guò)卵巢與性別連接，這兩個(gè)指標(biāo)可以解釋性別信息；前列腺、子宮還與年齡有直接連接，這說(shuō)明兩個(gè)指標(biāo)還同時(shí)包含一定的年齡信息。圖中性別只與卵巢、前列腺、體重3個(gè)指標(biāo)直接連接，而其他與性別相關(guān)的屬性可以認(rèn)為被前列腺和子宮替代，這是貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)化遵循奧卡姆剃刀定律(即簡(jiǎn)單有效原理)的結(jié)果。因此，可以將與前列腺、子宮的連接視為性別差異，于是血壓、胃、肝臟、甲狀腺的性別關(guān)聯(lián)性被識(shí)別。

(3)肝臟肝臟是體檢指標(biāo)中與其他指標(biāo)關(guān)聯(lián)性較強(qiáng)的中心結(jié)點(diǎn)。與肝臟的關(guān)聯(lián)性主要體現(xiàn)在年齡、性別、甲狀腺、膽囊、腎臟和體重。

圖1 該醫(yī)院醫(yī)務(wù)人員體檢結(jié)果的貝葉斯網(wǎng)絡(luò)模型示意圖

本研究中貝葉斯網(wǎng)絡(luò)的建立依賴于體檢結(jié)果表現(xiàn)出的概率相關(guān)性，各指標(biāo)之間的連接并非因果關(guān)系，不宜將此網(wǎng)絡(luò)應(yīng)用于因果推斷。

4.中心結(jié)點(diǎn)與其他非中心結(jié)點(diǎn)之間的關(guān)聯(lián)性分析

為驗(yàn)證貝葉斯網(wǎng)絡(luò)對(duì)關(guān)聯(lián)性刻畫(huà)的準(zhǔn)確度，首先以年齡、性別和肝臟3個(gè)中心結(jié)點(diǎn)為條件，通過(guò)貝葉斯網(wǎng)絡(luò)估計(jì)與肝臟相連接的指標(biāo)(非中心結(jié)點(diǎn))的異常率，與體檢數(shù)據(jù)統(tǒng)計(jì)的真實(shí)異常檢出率相比較(結(jié)果見(jiàn)表3)。表3顯示，貝葉斯網(wǎng)絡(luò)中肝臟及其連接的平均誤差為3.6%，因此本文所構(gòu)建的貝葉斯網(wǎng)絡(luò)具有一定的準(zhǔn)確性。對(duì)貝葉斯網(wǎng)絡(luò)所發(fā)現(xiàn)關(guān)聯(lián)性的分析結(jié)果如下：

(1)甲狀腺甲狀腺與子宮(女性，與性別有關(guān))、肝臟連接。表3結(jié)果顯示，女性組的異常檢出率普遍高于男性，其中肝臟異常組表現(xiàn)更為顯著。建議女性醫(yī)務(wù)人員注意甲狀腺方面的健康，尤其是20～39歲肝臟異常的女性醫(yī)務(wù)人員。

(2)膽囊膽囊與年齡、肝臟相連，隨著年齡的增加，膽囊異常檢出率升高。與肝臟正常組相比，肝臟異常組的膽囊異常率相對(duì)更高。高齡或肝臟異常的醫(yī)務(wù)人員需要關(guān)注膽囊健康。

(3)腎臟與膽囊相似，腎臟也與年齡、肝臟關(guān)聯(lián)，肝臟異常的醫(yī)務(wù)人員需特別注意腎臟的健康，其腎臟異常率高于肝臟正常的醫(yī)務(wù)人員。

(4)體重體重與性別、肝臟相連。體重偏高與肥胖兩項(xiàng)數(shù)值均表明：肝臟異常組存在更顯著的體重偏高或肥胖問(wèn)題。

表3 依據(jù)肝臟狀態(tài)分類的體檢指標(biāo)異常檢出率比較(%)

討論與建議

醫(yī)務(wù)人員在生理健康、心理健康、職業(yè)暴露等方面均存在諸多隱患。重慶市某三甲醫(yī)院2013年和2015年醫(yī)務(wù)人員體檢亞健康狀態(tài)檢出率分別為89.48%和93.94%[6]，柳州市某三甲醫(yī)院2018年體檢發(fā)現(xiàn)醫(yī)務(wù)人員亞健康狀況檢出率高達(dá)98.75%[7]。國(guó)外研究表明，如果在長(zhǎng)期奉獻(xiàn)給別人過(guò)程中被索取過(guò)多，會(huì)出現(xiàn)痛惡工作、自卑、喪失同情意識(shí)等情緒，產(chǎn)生以極度的心身倦怠和感情衰竭為主的“心身耗竭綜合征”的表現(xiàn)，不利于臨床疑難病例的解決，造成工作滿意度的下降、醫(yī)療事故的發(fā)生率增加等[8]，因此對(duì)醫(yī)務(wù)人員的體檢數(shù)據(jù)進(jìn)行合理有效分析，及時(shí)根據(jù)相關(guān)風(fēng)險(xiǎn)因素進(jìn)行健康管理，可以改善醫(yī)務(wù)人員的生活質(zhì)量和服務(wù)質(zhì)量。

貝葉斯網(wǎng)絡(luò)在醫(yī)療領(lǐng)域已有成功的應(yīng)用，如Quinteros等運(yùn)用貝葉斯網(wǎng)絡(luò)對(duì)急診室數(shù)據(jù)建立癥狀-疾病網(wǎng)絡(luò)[9]。本文提出了一種新的貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)學(xué)習(xí)方法，可用于進(jìn)行體檢數(shù)據(jù)的關(guān)聯(lián)性分析。

在本文中，我們重點(diǎn)關(guān)注了與健康管理相關(guān)的三個(gè)方面：網(wǎng)絡(luò)結(jié)構(gòu)的生成，可以輕松地傳達(dá)基本信息、體檢指標(biāo)之間的隱性關(guān)系；運(yùn)用貝葉斯網(wǎng)絡(luò)進(jìn)行個(gè)人風(fēng)險(xiǎn)評(píng)估的能力；該網(wǎng)絡(luò)將來(lái)易于轉(zhuǎn)換成健康管理決策模型。

針對(duì)醫(yī)療及體檢數(shù)據(jù)的特點(diǎn)，本文將數(shù)據(jù)屬性劃分為“基本信息”與“體檢指標(biāo)”兩類。這兩類屬性具有不同的特征：基本信息是體檢者本人的特征信息，而體檢指標(biāo)僅表示本次體檢的結(jié)果數(shù)據(jù)，通常基本信息不依賴于體檢指標(biāo)結(jié)果。這是本文設(shè)計(jì)的三步貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法的出發(fā)點(diǎn)，適用于如體檢數(shù)據(jù)等電子病歷檔案數(shù)據(jù)。通常健康體檢的完整數(shù)據(jù)包含的屬性數(shù)遠(yuǎn)超本文中列出的部分指標(biāo)。本文以部分基本信息與體檢指標(biāo)作為實(shí)例，較為完整地表述了貝葉斯網(wǎng)絡(luò)在體檢數(shù)據(jù)分析中的應(yīng)用。貝葉斯網(wǎng)絡(luò)建模的意義在于：通過(guò)貝葉斯網(wǎng)絡(luò)建模，可以清晰地展示各屬性數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系，發(fā)現(xiàn)具有多條連接的中心結(jié)點(diǎn)，或者研究者所關(guān)心的指標(biāo)與其他指標(biāo)之間的連接形式。

本文限于所獲取的該醫(yī)院職工體檢數(shù)據(jù)的完整性，未能構(gòu)建更大規(guī)模的(包含更多屬性的)貝葉斯網(wǎng)絡(luò)，也因此未能對(duì)該院醫(yī)務(wù)人員整體健康狀況作出完整的結(jié)論。其次，單個(gè)醫(yī)院的數(shù)據(jù)往往缺乏代表性。鑒于本研究目前只是立足于數(shù)據(jù)分析的方法學(xué)探討，未組織多中心的大樣本研究，也正是因?yàn)楸疚氖欠椒▽W(xué)研究，所以不受樣本量和是否多中心研究的限制[10]。本研究中提出的方法同樣可以應(yīng)用到不同病種、人群以及其他檢查結(jié)果的分析中。該判別模型的實(shí)用價(jià)值，有待在將來(lái)的實(shí)際應(yīng)用中得到更多實(shí)證驗(yàn)證和效果評(píng)價(jià)。