孫婷婷 朱向明 劉冬 張霞 張健
隨著居民生活水平的提高,不健康的生活習慣與生活方式導致超重肥胖患者呈增多趨勢。近20余年來,我國的肥胖患者數量亦有明顯上升[1]。研究發現體重的增加可致受檢者心臟腔徑增大、室壁增厚等,而體重指數(body mass index,BMI)影響其變化的程度[2-3]。目前主要通過測量心臟腔徑大小、心室壁厚度、心肌質量等指標來評估心臟構型,而評價指標及影響因素之間的關聯未被全面系統分析與研究。數據挖掘(data mining,DM)技術指利用各種分析工具從海量數據中提取出隱含但有價值信息的過程。本研究利用DM中的關聯規則(Apriori算法)在超重肥胖患者心臟構型參數與臨床各項信息中建立關聯,優選出反映心臟構型變化的特征性指標及相關影響因素,以期對超重肥胖患者心臟構型變化的早期檢測、早期預防及早期干預有所指導,現報道如下。
1.1 研究對象 根據中國肥胖問題工作組建議中提出的診斷標準,BMI在18.5~24kg/m2為正常體重,BMI在24~27.9kg/m2為超重,BMI>27.9kg/m2為肥胖[4]。選取 2015 年12月至2019年2月在弋磯山醫院(132例)及浙江省人民醫院(80例)就診的超重肥胖患者與正常體重受檢者共212例作為本次研究的對象,其中男108例,女104例,正常體重69例,超重84例,肥胖59例。排除先天性心臟病患者、心臟瓣膜病、心肌病等因心臟本身疾病使心臟構型產生嚴重變化的患者,糖尿病、高血壓患者等已證實對心臟構型產生影響的慢性病患者亦排除在外。
1.2 儀器設備與分析工具 PHILIPSiE33及EPIQ7C彩色多普勒超聲心動圖儀(荷蘭飛利浦公司產品),S5-1探頭,探頭頻率3.5-5MHz;超聲工作站配置Qlab定量分析軟件,身高體重計。用戶數據分析工具使用Microsoft Excel 2007,數據挖掘工具為Weka Explorer。
1.3 研究方法
1.3.1 數據的獲取與心臟構型數據庫的建立 在醫院信息及實驗室系統中獲取受檢者的姓名、性別、血壓、心率、血糖、血脂等臨床信息。詢問每位受檢者的肥胖病程,嚴格測量身高、體重并記錄。按照規范化的取圖標準獲取心臟構型的超聲各項數據,如收縮期末左心房前后徑(left atrial diameter,LAD)、左心室前后徑(left ventricular diameter,LVD)、左心房面積(left atrial area,LAA)、左心房容積(left atrial volume,LAV)、左心室心肌重量(left ventricular mass,LVM)等。將獲取的受檢者臨床信息及心臟構型數據構建成一個心臟構型數據庫。
1.3.2 數據預處理 預處理包括數據清洗、集成、轉換。離散化處理作為預處理中最重要的一個環節,是將連續性的數值轉換成適合關聯挖掘的形式。正常值范圍采用我們目前對正常人研究診斷出的參考范圍,年齡(age)的離散值分為 Y(<30歲)、M(30~60歲)、O(>60歲),LAD的離散值分為 S(<23mm)、M(23~38mm)、L(>38mm)(在數據挖掘過程中可以根據挖掘目標的需要進行修正),具體離散化處理見表1。
1.3.3 關聯規則(Apriori算法) 一條關聯規則可表述為M==>N的形式,前者為條件,后者為結果。
1.3.3.1 關聯規則強度的衡量標準 置信度(confidence)與支持度(support)[5]。置信度表示M在包含N的事務中出現的頻率;支持度表示M與N在整個事務庫中同時出現的頻率。置信度代表關聯規則的可信度,支持度代表規則的重要性。

表1 臨床與心臟常規測量指標離散化處理表
1.3.3.2 關聯規則過程 (1)設定最小支持度與置信度(本實驗暫且將支持度定為0.1,置信度定為0.5);(2)發現頻繁項集(掃描、找出大于最小支持度的項集);(3)提取有效關聯規則(在頻繁項集中找出大于最小置信度的項集)。
1.3.4 建立心臟構型超聲數據關聯規則模型 見圖1。

圖1 心臟構型超聲數據關聯規則模型
由圖1可見,挖掘流程如下:(1)讀入訓練數據集,(2)數據預處理,(3)數據挖掘并提取有效規則,(4)用測試數據進行規則匹配,(5)模型驗證,(6)輸出結果。
2.1 數據預處理結果 原始數據經清洗、集成、離散化等預處理后,將數據記錄表轉換為事務數據庫之后可以直接對其挖掘,見表2。
2.2 關聯規則的建立與提取結果
2.2.1 超重肥胖患者心臟構型指標有效關聯規則 本次研究主要是針對超重肥胖患者進行,首先將BMI=L及BMI=XL定為目標關聯項目,逐個與心臟構型的各項指標關聯項目建立關聯,得到關聯規則挖掘結果,見表3。

表2 超重肥胖患者心臟構型交易事務表

表3 超重肥胖患者心臟構型指標有效關聯規則
由表3可見,超重肥胖患者BMI=L、BMI=XL與LAD=L、LAA=L、LAV=L、LVM=L形成強關聯規則,故超重肥胖患者心臟結構改變的特征性指標為LAD、LAA、LAV及LVM。
2.2.2 超重肥胖患者臨床指標有效關聯規則 將特征性指標定為目標關聯項目,逐一與臨床指標建立關聯,在關聯結果中提取有效關聯規則,見表4。
由表4可見,超重肥胖患者心臟結構特征性指標與臨床指標如age、fatyear、BMI形成強關聯規則,故超重肥胖患者的心臟結構改變的相關影響因素為年齡、肥胖時間、肥胖程度。

表4 超重肥胖患者臨床指標有效關聯規則
3.1 關聯規則在醫療DM中的應用 關聯規則是DM的經典算法之一,目前已應用于包括醫學在內的多種領域。其作用有:(1)檢驗DM行業內長期形成的數據知識模式;(2)發現數據之間隱藏的新的關聯。關聯規則在醫療大數據中建立關聯并提取有效規則,從而發現醫療數據中隱藏的關聯信息,有利于疾病的診斷。關聯規則在醫療領域的應用上國內外已經有專家探索并取得成果。
Imberman等[6]在眾多頭部受創患者中收集信息,在收集的各項數據中建立關聯規則,找出頭部受創患者CT檢查的適應證。程遠[7]利用關聯規則研究2型糖尿病(type 2 diabetes mellitus,T2DM)與冠心病、高血脂、高血壓這幾種并發癥之間的關系,對比T2DM與3種并發癥關聯的支持度與置信度,證實高血壓是T2DM關系最密切的并發癥。國內亦有研究人員通過挖掘患者的疾病及癥狀有用信息,建立潛在于疾病與癥狀之間的關聯規則。所以,關聯規則在醫療領域DM中展現出良好的發展前景。
3.2 超重肥胖患者心臟結構改變的特征性指標 超重肥胖患者心臟結構改變的機制為機體為適應脂質堆積與體重上升的狀態,全身血管阻力下降,心輸出量、循環血量、心室壁張力出現適應性增加,導致左心房回心血增多,容量負荷持續過重最終可引起左心房增大。
國內有研究對體重變化引起左心房腔徑變化進行了證實。周自強等[8]選取187例正常體重受檢者與289例超重肥胖患者作為研究對象,測量各項心臟結構參數,并對BMI與LAV行相關性分析,顯示兩者成正相關,且BMI是LAV變化的獨立危險因素。
有研究者對比分析了30例肥胖,45例超重以及25例正常體重受檢者的心臟結構參數,超重肥胖患者相較于正常體重受檢者左心房腔徑變大,心室壁增厚,LVM 不同程度增加[9]。BMI=L(24≥BMI>27.9)及 BMI=XL(BMI>27.9)在本次實驗中被定為目標關聯項目,分別與各心臟結構參數建立關聯。在表3中提取有效關聯規則編號1、2可以看出,BMI=L、BMI=XL與LAD=L建立起強關聯規則,規則表示超重肥胖患者收縮期末LAD傾向于增大且均具有較高的可信度(編號1為60%,編號2為71%),同樣編號3、4、5、6等得出的關聯結果顯示超重與肥胖患者LAA、LAV及LVM傾向于增大亦具有較高的可信度。
綜合表3中的關聯結果,收縮期末LAD、LAA、LAV以及LVM能與BMI=L及BMI=XL目標關聯項目建立強關聯,可見在超重肥胖患者人群中,心臟結構早期改變較明顯的主要是左心房大小、LVM。
本次研究中,超重肥胖患者左心房大小、LVM的變化與以往研究相符。但由于研究處于關聯規則初步研究階段,樣本數量較少,并未發現BMI與室壁厚度、左心室腔徑變化的強關聯規則,這與以往某些研究結果不相符,但亦可能是關聯規則在尋找心臟結構改變的特征性指標方面比其他統計學方法更有優勢、更敏感。
3.3 超重肥胖患者心臟結構改變的影響因素 為能實行對超重肥胖患者心臟構型改變的早期預防及干預,需要進一步利用關聯規則發現心臟結構改變的影響因素。故在本次實驗中,將表3中找出的特征性指標如左心房內徑、LAA與受檢者臨床基本信息逐一建立關聯,并提取有效關聯規則。由表4中編號1、2可以看出,age=Y與LAD=N,age=O與LAD=L分別建立起強關聯規則,證明超重肥胖患者年齡越小,LAD偏向于正常(置信度為94%),超重肥胖患者年齡越大,LAD偏向于增大(72%)。由上述規則得出,年齡可能為超重肥胖患者心臟結構改變的重要影響因素。肥胖程度和年齡是影響心臟改變的因素已被董靜[10]通過對不同年齡段超重肥胖患者心臟結構對比研究中證實。
但與以往多數研究不同的是,本次實驗將肥胖病程(fatyear)作為關聯項目之一,由表3、4提取的關聯規則發現,當fatyear<10年,LAA偏向于正常具有較高的可信度(79%),fatyear>20年,LAA偏向于增大可信度較高(70%),故fatyear是影響心臟結構改變另一個重要的影響因素。綜合表3、4中的規則,初步認為超重與肥胖患者心臟結構改變的影響因素主要有:年齡、肥胖程度、肥胖病程。本次肥胖病程這一影響因素的發現,可以及早告知肥胖患者通過運動、控制飲食等方式控制體重從而來防止心臟結構、功能的進一步改變。另外,進一步說明關聯規則能更加全面地尋找影響因素,若加大樣本量,則更多隱含的影響因素能被發現。
綜上,數據挖掘能在大量的數據中發現隱含的、易被忽視的關聯信息,對于超重肥胖患者心臟構型變化及影響因素的早期發現、檢測及預防具有重要意義。