999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的血清質譜數據和體檢數據關聯規則分析

2022-03-02 06:15:46韓家新
現代計算機 2022年23期
關鍵詞:關聯規則血清

王 玉,韓家新

(西安石油大學計算機學院,西安 710065)

0 引言

體檢報告是指對身體進行檢查而生成的數據文檔。它是將血液標本與抗凝劑均勻混合,經全自動血液細胞分析儀遵循相關制度進行檢驗得到的數據[1]。當體檢報告中的數據高于或低于參考值時,此數據有助于醫生分析病情,同時對患者起到警示作用。血清質譜數據是將血液傳入質譜,并在粒子區域對其進行離子化,通過質荷比對進入質譜儀的粒子進行分離,對離子信號進行檢測并記錄峰強得到的[2]。體檢報告與血清質譜數據都是使用血液樣本通過不同的分析儀器得到的數據,通過數據挖掘得到質譜數據和體檢數據之間的關聯性。

關聯規則是最常見的數據挖掘任務,可以用來構建推薦體系。通過收集到的用戶使用、購買等數據,挖掘出相關性,形成知識,作為推薦的依據在電商廣告、新聞推送等相關推薦場景應用。另一種對數據的挖掘,如氣象因素分析、事故因素分析等通過過往數據總結規則。質譜數據和體檢數據之間的關聯意義也逐漸被研究人員看到。用關聯規則算法對血清質譜數據和體檢數據的屬性進行挖掘,分析質譜數據與體檢數據之間的對應關系,這對醫學血液檢測的發展有積極的意義。

1 相關理論

1.1 聚類方法

血清數據是一組無序的連續性數據,在傳統數據分析過程中,對于連續性數據的屬性需要進行離散化。在當前數據分析中,關于數據離散化的方法有:聚類、等寬法、等頻法。因為等寬法對離群點比較敏感,不均勻地分布數據;等頻法可能將相同的數據分到不同的區間;聚類離散化適用于任意屬性的數據集,可以靈活控制不同層次的聚類粒度。由于質譜數據高維且各屬性維度不同的特點,使用聚類對數據進行離散化。

面對一組數據K={K1,K2,…,Kn},將這組數據分為m組(m<n),這樣的過程被稱為聚類。當前的主要聚類方法有[3]:

(1)基于距離的聚類:以空間中k個點為中心進行聚類,對最靠近它們的對象歸類。該方法的優點是速度快、簡單。

(2)層次聚類方法:主要基于二叉樹的數據結構,它的優點是不需要預先估計當前數據有多少個類別,但在面對高維數據時速度降低。

(3)基于密度的聚類:具有任意形狀簇的噪聲魯棒性[4],然而該方法在面對具有多種密度的簇的情況下,大部分基于密度的流數據聚類方法難以獲得滿意的聚類結果。

(4)基于譜圖的聚類:在規則的數據集中效果比較明顯。

(5)基于神經網絡的聚類:通常用于識別檢測,圖像處理等領域,在無監督學習中學習效率比較低[5]。

質譜數據有維度高、不規則的特點,基于此特點,本文選擇使用基于距離的改進K-means聚類對連續屬性進行離散化。

1.2 關聯規則

關聯規則算法是從大量數據中發現數據項集之間關聯性,分析得出關聯規則,對制定決策起到關鍵性作用。目前關聯規則挖掘算法主要有:

(1)層次算法:是一種針對挖掘布爾型數據頻繁項集的算法,它是比較經典的關聯規則算法。

(2)搜索算法:指在讀取數據集的時侯,對該數據集事務中的所有項目集進行整體規劃處理。它需要計算出數據集中的所有數據項目集的支持數,候選項目集數量的龐大會導致計算效率明顯下降。

(3)數據集劃分算法:是將整個數據集分為多個可以存放在內存中進行處理的數據小塊。

(4)抽樣算法:通過對數據集抽樣產生所需的樣本數據集,然后針對樣本數據集進行數據挖掘,一般適用于對挖掘效率要求較高,而對挖掘準確性要求不太高的關聯規則數據挖掘[6]。

根據質譜數據及體檢數據的特征分析,選用層次算法。其中的典型代表是Apriori和FP-Growth算法,使用Apriori算法分析血清質譜數據和體檢數據關聯規則,并且使用FP-Growth算法與Apriori算法對得出的關聯規則進行驗證。

2 方法

2.1 改進K-means算法

K-means算法將一組有限數據集劃分為多個簇的過程。簇中所有元素的均值為該簇的中心,即質心。隨機選取初始質心之后,將每個數據分配到離它們最近的質心,生成n個簇,對于每個簇,重新計算該簇的質心并且將樣本點重新分配給各簇,如此迭代,直到質心位置不再發生變化。

傳統K-means方法主要采用隨機選取初始質心的方式,但是這種方式會導致一個局部最優解的問題,即將一個比較大的簇分裂,同時將兩個小的簇進行合并。由于K-means算法具有不穩定性,初始質心選擇不同,結果也不同。

改進K-means算法中質心初始值采用等差方式進行選取,其中μi為第i個質心,a為數據中最大值,b為數據中最小值,n為質心個數。

根據公式(1),初始化質心μ={μ1,μ2,…,μk},計算當前對象與μ的距離dis(Xi,μj)。

式(2)中,μj( 1 ≤j≤k)表示第j個質心,Xt( 1 ≤t≤m)表示第t個屬性,μjt表示第j個聚類的第t個屬性。根據公式(2)可以獲得距離矩陣Di s={dis1,dis2,…,disn},其中disi={dXiμ1,dXiμ2,…,dXiμk},依次將每個X分配到min(disi)所在的μ的簇中。簇內樣本均值計算公式如下:

在聚類算法中,針對無標簽數據集通常采用輪廓系數來評價聚類結果的好壞。由于原始血清質譜數據是沒有真實標簽的,因此主要通過輪廓系數來選擇最優聚類結果。單個樣本的輪廓系數公式如下:

每個樣本的S值越接近1,代表聚類效果越好;越接近-1,代表聚類效果越差。通過計算每個樣本的輪廓系數的均值Sˉ可判定離散化是否符合簇內差異小,簇外差異大的特點,即判定聚類效果好壞。

2.2 Apriori算法

Apriori算法是通過連接產生候選項及其支持度然后通過剪枝生成頻繁項集,它是一種基于二叉樹逐層搜索的迭代方法[7]。對于一組可能具有關聯性的事務,它所對應的集合表示為A={a1,a2,…,ai,…,an},n為樣本數量。Ai中的全部項集表示為ai={b1,b2,…,bi,…,bm},m為每個樣本的特征數量,bi為每個樣本的每一項。說明原始數據集是一個n*m的數據集。

(1)頻繁項集Lk={l1,l2,…,li,…,ln},n為候選項集的個數,li={b1,b2,…,bi,…,bn},k為頻繁k項集;

(a)當k!=1時,k為頻繁k項集,頻繁項集中的每一項li都符合以下公式:

Conf i d ence為最小置信度,置信度代表了一個項集在數據集中出現的頻繁程度。在一個樣本中bi出現的條件下,則li出現的概率。Num(l1)為項集l1在數據集中出現的次數。

此外,谷祺教授還曾于1992~1993年在《遼寧財會》連續發表了十幾篇有關資產評估的學術論文,對資產評估的理論與方法進行了系統論述,并就其中的一些核心問題提出了獨到見解,對于完善資產評估學的學科體系做出了積極、有益的貢獻。

(b)當k=1時,即為頻繁1項集,頻繁1項集中的每一項li都滿足以下公式:

Frequency為最小頻繁度。低于Frequency的項集在整個數據集中出現的次數太少,研究認為它所結合生成的頻繁項集不具備普遍性,即對它進行剪枝處理。

(2)候選項集Ck={ }c1,c2,…,ci,…,cn,n為候選項集的個數,ci={ }b1,b2,…,bi,…,bk,k為候選k項集。L1,L2,…,LK-1中的頻繁項集兩兩結合,生成候選項集di={ }b1,b2,…,bi,…,bq,若q=k,則di就是候選k項集ck。

(3)關聯規則:利用已經搜集到的頻繁項集,挖掘物品或者屬性之間存在的內在關系。關聯規則發現是指找出置信度大于等于Confident的規則。

3 實驗過程

3.1 原始數據描述

實驗室共收集到200人的血清樣本及其體檢數據。

3.1.1 血清質譜數據

每個樣本包含十組血清質譜數據。以其中一個編號為#4的血清樣本的前兩組為例,如表1所示,為該樣本的血清質譜數據。

表1 質譜數據樣例

每組樣本由Mass和Relative Intensity構成。Mass為質荷比(m/z:指離子質量與電荷數的比值);通過觀察實驗中的數據,發現質荷比數據分布在150~1500之間(這里取前八行展示),數據精度保留了小數點后6位。Relative Intensity為相對豐度,也叫相對強度,在同位素分離理論中常用來表示輕組分的含量,在研究代表質荷比的含量,它的數據精度保留了小數點后9位。

3.1.2 體檢數據

每一行代表一個樣本數據,編號與血清質譜數據的編號一一對應,每個樣本數據包含基本信息樣本和血液檢測的基本檢測項目共43項,即每條數據有43個屬性。以前三組的體檢數據為例,如表2所示,為該體檢數據。

表2 體檢數據樣例

3.2 數據預處理

數據預處理技術是數據分析以及數據挖掘過程中非常重要的一環。數據預處理是指在對數據進行數據挖掘的主要處理工作之前,先對原始數據進行必要的清洗、集成、轉換、離散、歸約、特征選擇和提取等一系列處理工作,達到挖掘算法進行知識獲取要求的最低規范和標準[8]。

(1)首先將原始質譜數據進行轉置,轉換后的數據每列代表一種質荷比,它們的差值為0.1,每一行代表一組數據。

(2)每組質譜數據與體檢數據一一對應,并將其合并。

(3)對數據中的缺失值進行處理。

3.3 聚類離散化

質譜數據和體檢數據的離散化在一定程度上決定了最終得出的關聯規則。研究使用K-means算法和改進K-means算法對數據進行離散化,實驗中選擇將數據聚類為三個類簇。

分別得到兩個算法的輪廓系數均值,K-means算法的值為0.785,改進K-means算法的Sˉ值為0.739。可知改進K-means算法更具備簇內差異小,簇間差異大的特點。所以選擇改進K-means算法對數據進行離散化。離散化后的結果如表3所示:即聚類層面上的三類,偏低=0,偏正常=1,偏高=2。

表3 數據離散化

3.4 關聯規則

研究中使用Apriori算法和FP-Growth算法對于離散后的數據進行關聯規則分析,設置Con f id ence的閾值為0.95。使用FP-Growth算法與Apriori算法對得出的聚類分析結果進行驗證。對同時存在于兩個算法中的關聯規則進行保留,作為最終得到的關聯規則。

4 關聯規則結果分析

為了實驗結果的精確性,通過FP-Growth算法對基于聚類的Apriori算法得出的結果進行驗證。基于聚類的Apriori算法得出的結果中,如果在FP-Growth算法得到的結果中也出現則保留。基于聚類的Apriori算法得出180516條關聯規則,FP-Growth算法得出357711條關聯規則,最終保留下來36980條關聯規則。

從數量上看,血清質譜數據之間的關聯規則是最多的,說明體檢數據屬性與屬性之間有很強的關聯性。從概率上來看,選取置信度大于95%的關聯規則,研究生成的關聯規則的置信度比較高。

以上實驗得出的結果將關聯規則可分為三類:體檢數據的關聯規則分析,血清質譜數據的關聯規則分析,體檢數據和血清質譜數據之間的關聯規則分析。由于體檢數據屬性之間置信度高于95%的關聯規則只有一個,所以不做分析。選取另兩類關聯規則結果的前十條進行闡述。

4.1 質譜數據的關聯規則分析

研究得出131031條質譜數據的關聯規則。從整體上看,質譜數據之間的關聯規則數量上是最多的,并且置信度也比較高。觀察發現,質譜數據中有關聯的屬性都是距離較近的屬性。也就是說,Mass質荷比的值相近的更有關聯性;置信度較高的關聯規則基本都平均分布在血清質譜數據的Mass質荷比為500~850的區間,說明質譜數據中Mass質荷比的值介于500~850之間的更有關聯性。質譜數據之間的關聯規則結果的前五條部分內容如表4所示。

表4 質譜數據mass值之間的關聯規則

4.2 體檢數據和質譜數據之間的關聯規則分析

研究得出共有49484條體檢數據和質譜數據之間的關聯規則。表5為與Mass質荷比的值相關聯的體檢數據屬性,選取置信度最高的五個屬性進行展示。

表5 質譜數據Mass值與體檢數據屬性之間的關聯規則

在質譜數據的Mass質荷比中,生成關聯規則最多的520+0,與體檢數據的屬性之間的關聯規則有18114項,占此類關聯規則的36.6%,在與520+0關聯的置信度前五條中的體檢數據屬性,有四個屬性與肝臟功能相關;與809+0相關聯的置信度前五條中的體檢數據屬性,有兩個屬性與貧血相關,兩個屬性與免疫相關;與688+0相關聯的置信度前五條中的體檢數據屬性,有三個屬性與貧血相關。

血清質譜數據的Mass質荷比與體檢數據的屬性的關聯性非常強,置信度較高的關聯規則比較平均地分布在血清質譜數據的Mass質荷比為介于500~850的區間,說明血清質譜數據的Mass質荷比介于500~850之間的數據無論是在與質譜數據本身的關聯中,還是在與體檢數據屬性的關聯中都有非常強的關聯性。

5 結語

將數據挖掘及關聯規則分析技術應用于體檢數據和血清質譜數據,深入挖掘了血清質譜數據質荷比之間,體檢數據屬性之間,質譜數據的質荷比與體檢數據屬性之間的關聯規律,挖掘得到了體檢數據和血清質譜數據的關聯規則,為血液檢驗提供輔助診斷,促進醫療血液診斷的發展。

猜你喜歡
關聯規則血清
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
血清免疫球蛋白測定的臨床意義
中老年保健(2021年3期)2021-08-22 06:50:04
數獨的規則和演變
Meigs綜合征伴血清CA-125水平升高1例
慢性鼻-鼻竇炎患者血清IgE、IL-5及HMGB1的表達及其臨床意義
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 思思热精品在线8| 日韩欧美国产中文| 一级毛片在线播放免费| 国产精品任我爽爆在线播放6080| 91美女视频在线| 四虎成人在线视频| 四虎综合网| 日本不卡在线| 亚洲成A人V欧美综合天堂| 毛片基地视频| 国产精品亚洲一区二区三区在线观看 | 亚洲AV无码久久天堂| 久青草免费视频| 欧美中文字幕在线播放| 久久精品人妻中文系列| 欧美日韩在线成人| 亚洲国产精品日韩av专区| 亚洲床戏一区| 91国内视频在线观看| 五月激情综合网| 免费观看成人久久网免费观看| 亚洲性视频网站| 亚洲精品动漫| 91视频99| 久久狠狠色噜噜狠狠狠狠97视色| 国产精品香蕉| 日韩精品一区二区三区大桥未久| 精品无码一区二区在线观看| 日本a级免费| 无码免费的亚洲视频| 精品人妻系列无码专区久久| 国产爽歪歪免费视频在线观看| 国产精彩视频在线观看| 99热6这里只有精品| 亚洲国产黄色| 国产xx在线观看| 国内精品久久久久久久久久影视| 香蕉蕉亚亚洲aav综合| 欧美精品成人| 精品视频一区二区三区在线播 | 2021国产在线视频| 欧美日韩在线亚洲国产人| 国产免费福利网站| 2022国产91精品久久久久久| 9啪在线视频| 久久亚洲国产最新网站| 中文成人在线| 一级一毛片a级毛片| 精品人妻AV区| 久久精品女人天堂aaa| 国产区人妖精品人妖精品视频| 一级一级一片免费| 在线99视频| 欧美精品伊人久久| 亚洲黄色片免费看| 欧美日韩综合网| 久久精品国产在热久久2019| 国产精品视频猛进猛出| 久久久久国产一区二区| 99久久精品国产精品亚洲| 亚洲黄网视频| 国产真实乱子伦视频播放| 国产精品成人啪精品视频| 欧美成人精品在线| 久草性视频| 国内熟女少妇一线天| 国产成人一二三| 亚洲午夜国产片在线观看| 亚洲国产精品VA在线看黑人| 免费无码AV片在线观看中文| 久久久久久高潮白浆| 国产美女精品一区二区| 伊人久久久久久久| 人妻精品全国免费视频| 久久福利网| 天堂成人在线| 毛片免费在线视频| 久久精品只有这里有| 久久中文电影| 亚洲精品无码不卡在线播放| 91免费国产在线观看尤物| 2020亚洲精品无码|